机器学习系统中的数据流↓这也太全了
𝟭 数据schema变更需要进行版本控制,一旦获得批准,它们就会被推送到生成数据的应用程序、保存数据的数据库和集中管理的数据协议注册表。 应用程序将生成的数据推送到 Kafka
𝟮 应用服务直接发出的事件。 这还包括物联网数据和网站活动跟踪。
𝟮.𝟭 CDC 流的原始数据队列。
𝟯 Flink 应用程序使用原始数据流中的数据,并根据数据协议注册表中的模式对其进行验证。
𝟰 不符合要求的数据被推送到死信队列。
𝟱 符合要求的数据被推送到已验证数据队列。
𝟲 来自已验证数据队列的数据被推送到对象存储以进行额外的验证。
𝟳 按照计划,对象存储中的数据将根据数据协议中的附加 SLA 进行验证,然后推送到数据仓库进行转换和建模,以用于分析目的。
𝟴 建模和整理的数据被推送到特征存储系统,以进行进一步的特征工程。
𝟴.𝟭 实时特征直接从已验证数据主题 (5) 提取到特征存储中。
确保这里的数据质量很复杂,因为针对 SLA 的检查很难执行。
𝟵 机器学习训练管道中使用高质量数据。
𝟭𝟬 相同的数据用于推理中的特征服务。
#ai技术科普##程序员#
𝟭 数据schema变更需要进行版本控制,一旦获得批准,它们就会被推送到生成数据的应用程序、保存数据的数据库和集中管理的数据协议注册表。 应用程序将生成的数据推送到 Kafka
𝟮 应用服务直接发出的事件。 这还包括物联网数据和网站活动跟踪。
𝟮.𝟭 CDC 流的原始数据队列。
𝟯 Flink 应用程序使用原始数据流中的数据,并根据数据协议注册表中的模式对其进行验证。
𝟰 不符合要求的数据被推送到死信队列。
𝟱 符合要求的数据被推送到已验证数据队列。
𝟲 来自已验证数据队列的数据被推送到对象存储以进行额外的验证。
𝟳 按照计划,对象存储中的数据将根据数据协议中的附加 SLA 进行验证,然后推送到数据仓库进行转换和建模,以用于分析目的。
𝟴 建模和整理的数据被推送到特征存储系统,以进行进一步的特征工程。
𝟴.𝟭 实时特征直接从已验证数据主题 (5) 提取到特征存储中。
确保这里的数据质量很复杂,因为针对 SLA 的检查很难执行。
𝟵 机器学习训练管道中使用高质量数据。
𝟭𝟬 相同的数据用于推理中的特征服务。
#ai技术科普##程序员#