我有一个问题,在我需要存储用户的地址数据,可以来自不同的供应商在不同的格式。一旦我有了数据,我需要做一些清理和起皱,并运行重复数据消除过程,以获得干净的结构化数据。一旦数据是干净的,我可能不得不从不同的供应商选择不同的地址属性,基于一些复杂的逻辑,这是尚未定义的。我的问题是
1)我应该使用哪个数据库,例如document/keyvalue/dynamodb等nosql数据库系列,或者redshift或azure数据仓库等带有mpp数据库的rdbms
2)类似MongoDB的NoSQL数据库提供了模式的灵活性,但同时查询或重复数据消除过程并不是这些数据库的固有功能。
如果有人能在这件事上给我指点迷津,我会非常感谢他的。
谢谢
阿图尔