社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

数据目录和机器学习市场的成熟

大数据D1net • 6 年前 • 525 次点击  

点击上方“蓝色字体”,选择 “设为星标

关键讯息,D1时间送达!



找到有价值的见解不在于简单地收集尽可能多的数据,而在于能够找到正确的数据问题。而使用手工流程完成所有工作是不可能的。这就是为什么越来越多的企业开始“转向数据目录,以便实现数据访问的民主化,使组织的数据和知识能够得到管理,然后应用数据策略,并快速激活所有具有业务价值的数据”。


这是一个大数据的时代。我们被海量的信息所淹没,而企业发现想要实现管理并从中提取价值已经变成了一个巨大的挑战。


今天的大数据流不仅包括了巨大的容量、多样性和速度,还极其复杂。正如SAS在《大数据的历史和当下的热点》一文中所指出的那样,大数据流的多样性“使得跨系统的连接、匹配、清理和数据转换变得十分困难”。


找到有价值的见解不在于简单地收集尽可能多的数据,而在于能够找到正确的数据问题。而使用手工流程完成所有工作是不可能的。这就是为什么越来越多的企业开始“转向数据目录,以便实现数据访问的民主化,使组织的数据和知识能够得到管理,然后应用数据策略,并快速激活所有具有业务价值的数据”。


这就是数据目录(有时也称为信息目录)的用途所在。正如这里所定义的,它们可用于授权“用户探索所需的数据源并帮助其理解所探索的数据,同时帮助组织从当前的投资中实现更多的价值”。它实现这一目标的一种方法是,在能够使用或贡献数据的不同类型的用户之间,允许更大程度地访问数据。


信息经济学势在必行


在2017年底,数据目录的需求急剧增长,Gartner将其称为“一种新的潮流”。它被认为是一种快速、经济的解决方案,可以“对组织中日益分散和无序的数据资产进行盘点和分类,并映射其信息供应链”。之所以需要这样做,是因为“信息经济学”的兴起,它要求像管理其他商业资产一样,对信息进行细致地跟踪。


Gartner2018年第二季度的机器学习数据目录报告:take jibes with The Forrester Wave显示超过一半的调查参与者表示,他们已计划建立自己的数据目录。可能他们的动机主要在于他们中的每个组织都包括了至少七个数据湖。正如Gartner对数据目录所解释的那样,数据目录对于提取通常以非分类形式留在数据湖中的“数据的上下文、意义和价值”特别有用。


Forrester的报告称,在2017年,超过三分之一的数据和分析决策者正在处理1000 TB或更多的数据,而前年这一数字仅为如今的10%至14%。管理如此规模的数据的确是一个日益严峻的挑战,具体来说,特别是下面的两项挑战:


1)将现有业务流程合并到源数据中,以便分析和实现洞察力;2)随着数据的增长,对其进行寻源、收集、管理和治理。


数据目录可以为企业做什么


Gartner指出了数据目录改善组织信息流和生产力的具体方式:


•整理和传达组织可用的信息资产清单。


•创建通用业务术语表,定义组织数据的语义解释和含义,从而提供中介和解决定义不一致的方法。


•支持动态和敏捷的协作环境,使业务和IT同事能够评论、记录和共享数据。


•通过沿袭和影响分析来提供数据使用的透明度。


•监控、审计和跟踪数据,以支持信息治理流程。


•捕获元数据以增强数据使用和重用的内部分析、查询优化和数据认证。


•通过捕获、沟通和分析数据的存在、来源、使用环境、需要它的原因、流程和系统之间的流动方式、谁对它负责、它的含义以及它的价值,并在业务的使用中对信息进行上下文的关联。


Gartner的报告说,正确识别数据并让组织中的关键人物能够访问这些数据是很重要的,这不仅是为了找到“将数据资产转化为数字业务成果的货币化”方法,也是为了遵守相关法规,无论这些法规是行业内的--如健康保险可移植性和责任法案(HIPAA)或更一般的如通用数据保护法规(GDPR)。


加入机器学习


但是没有什么是完美无缺的。对于数据目录,问题在于手动构建它们以及需要放置的所有元数据的过程是缓慢而乏味的。这就是机器学习组件的用武之地。


Forrester所评估的数据目录被称为MLDC,因为它们利用了人工智能的部分组成之一--机器学习的力量。正如一个平台数据博客所解释的那样,这使得“构建一个持久的元数据存储库,然后应用ML/AI来找出并公开潜在有用的底层数据资产见解”成为了可能。


如何选择


为了帮助组织评估应该选择哪一个企业的产品,Forrester对排名前12位的MLDC设置了29个评估点。它确定了这个市场的领导者为:IBM、Relito、Unifi Software、Alation和Collibra。表现最好的是Informatica、Oracle、Waterline Data、Infogix、Cambridge semantic和Cloudera。而Hortonworks在“竞争者”排名中表现突出。


然而,也不应该只看整体排名。这份报告确实列出了每一种方法的优缺点。因此,如果一个特定的特性,如研究和开发,对于一个组织来说非常重要,它可以认为Hortonworks与IBM和Colilbra的实力不相上下,因为这三家公司在这方面的得分最高,都是5分,比Alation和Coloudera高2分,比Cambridge Semantics高4分。


因此,Forrester报告也建议那些以其报告为指导的人不要想当然地认为排名第一的公司就是每个人的最佳选择。他们应密切注意评估的细节,找出最符合自己要求的产品。


(来源:企业网D1Net)


如果您在企业IT、网络、通信行业的某一领域工作,并希望分享观点,欢迎给企业网D1Net投稿  投稿邮箱:editor@d1net.com


点击蓝色字体关注

您还可以搜索公众号“D1net”选择关注D1net旗下的各领域(云计算,数据中心,大数据,CIO, 企业通信 ,企业应用软件,网络数通,信息安全,服务器,存储,AI人工智能,物联网智慧城市等)的子公众号。

企业网D1net已推出企业应用商店(www.enappstore.com),面向企业级软件,SaaS等提供商,提供陈列,点评功能,不参与交易和交付。现可免费入驻,入驻后,可获得在企业网D1net 相应公众号推荐的机会。欢迎入驻。
扫描下方“二维”即可注册,注册后读者可以点评,厂商可免费入


今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/CnNQJ9YUFL
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/28272
 
525 次点击