社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

机器学习系统中的数据流↓这也太全了𝟭 数据schema变更需要-20250519180112

黄建同学 • 1 月前 • 75 次点击  

2025-05-19 18:01

机器学习系统中的数据流↓这也太全了

𝟭 数据schema变更需要进行版本控制,一旦获得批准,它们就会被推送到生成数据的应用程序、保存数据的数据库和集中管理的数据协议注册表。 应用程序将生成的数据推送到 Kafka
𝟮 应用服务直接发出的事件。 这还包括物联网数据和网站活动跟踪。
𝟮.𝟭 CDC 流的原始数据队列。
𝟯 Flink 应用程序使用原始数据流中的数据,并根据数据协议注册表中的模式对其进行验证。
𝟰 不符合要求的数据被推送到死信队列。
𝟱 符合要求的数据被推送到已验证数据队列。
𝟲 来自已验证数据队列的数据被推送到对象存储以进行额外的验证。
𝟳 按照计划,对象存储中的数据将根据数据协议中的附加 SLA 进行验证,然后推送到数据仓库进行转换和建模,以用于分析目的。
𝟴 建模和整理的数据被推送到特征存储系统,以进行进一步的特征工程。
𝟴.𝟭 实时特征直接从已验证数据主题 (5) 提取到特征存储中。
确保这里的数据质量很复杂,因为针对 SLA 的检查很难执行。
𝟵 机器学习训练管道中使用高质量数据。
𝟭𝟬 相同的数据用于推理中的特征服务。

#ai技术科普##程序员#
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182330
 
75 次点击