☞ 主题简介:在大数据、云计算、流式计算为基础的分布式环境下,数据本身的质量问题越发重要。Apache Griffin 项目是eBay发起并贡献给Apache社区的数据质量方案。它试图提供一套可扩展,可伸缩的框架来解决数据质量的几个典型问题:如数据的精确性问题、一致性问题、合法性问题、时效性问题、唯一性问题,以及完整性问题。
本次主题主要讲解面临streaming和batch的企业数据环境,Apache Griffin是如何通过提供一整套的流程来定义、测量并汇报数据质量, 以试图解决数据质量问题。同时介绍架构设计, 核心组件的设计与考量等等。最后会通过自助服务来阐述Apache Griffin在eBay 1.2PB的数据环境下的应用场景及流程。
☞ 分享嘉宾:刘力力,eBay高级软件工程师,Apache Griffin 项目的主要committer,目前在eBay大数据服务部门,专注于大数据平台上提供稳定及时有效的数据服务应用设计和开发。