面向 AI 时代生存发展,什么最重要?数据、数据,还是数据。特别是中小企业、转型中的广大传统企业,数据、优质数据,寻找并管理数据,更是刚需中的刚需 —— 就像互联网开发时代里对代码共享和管理的需求那样。所以如果有面向 AI 时代打造一个数据方向的 GitHub,是不是契合刚需痛点?这不,还真有 AI 创业团队这么做了。而且看好的人中,还有个叫陆奇的 big name.
GitHub for Data
出品者,格物钛。一家 AI 数据托管和数据协作 SaaS 提供商,创始团队也都是一线技术工程师,深谙当前痛点所在。一方面,AI 数据准备与工程任务所耗费的时间占到了大多数 AI 项目的 80% 以上。在 AI 训练中,如果没有足够的高质量训练和测试数据集,则很难训练出高质量的 AI 模型。因此,面对 AI 开发过程中的高额隐性成本,提供高质量、场景化的真值数据,已经成为 AI 产业链的核心诉求之一。另一方面,人工智能依赖大量的数据作为 “思考” 和 “决策” 的基础。以往企业对数据开放的态度普遍较为保守敏感,然而伴随着各类 AI 应用场景落地的技术难点逐渐浮出水面,以无人驾驶领域为例,许多驾驶场景具有稀缺性,仅凭一家之力构建包含所有的交通场景的数据集将消耗巨额的数据采集成本,并且很难在短时间内一步到位。 于是格物钛的目标,就是希望可以加速打破人为壁垒,让更多优质、庞大数据用开源共享的方式,实现合作共赢。就像 GitHub 在代码领域发挥的基础设施作用一样,AI 数据领域,现在紧缺这样的基础设施。 而且随着 AI 落地深入,另一个现状和事实愈加清晰明确:AI 落地的现实世界中,只有一小部分机器学习系统由机器学习代码组成,但其所需的周边配套基础设施,庞大而复杂。其中,数据、数据集,就是最关键的一环。如果进一步聚焦于国内,还会发现适配 AI 项目落地的真值数据,更是稀缺。有统计显示,如今国内有近 60 万 AI 开发者,但面临的现状是:
顾名思义,寻找数据集。分两步走。第一步,跟 AI 业内先锋公司合作。共同打造集合自动驾驶、互联网泛娱乐、新零售、智慧城市和在线教育等 AI 商业落地最迫切的 AI 公开数据集生态联盟。俗话说就是开个头、打个样,看到价值,就会有更多企业和组织加入。在寻集令发布会上,元戎启行、新石器、速腾聚创、觉非、爱驰汽车,酷家乐等等都 “站” 台支持。格物钛方面称,星星之火可以燎原,希望从寻集令第一枪开始,打造中国最具规模化的非结构化数据集平台。 类型上,全面覆盖图像、视频、语音和文本类型。资源上,兼具公开数据集以及 AI 头部企业数据集资源。领域上,则从商业落地最紧迫的自动驾驶、互联网泛娱乐、智慧工业、新零售、线上教育和直播等开始。此外,希望这个数据集平台,可以成为 GitHub 一样受开发者欢迎的社区,并且提供更多极致的数据集管理体验,包括安全等等题中之义的要求。实际上,虽然国内一直缺乏这样的数据集开源平台,但并不意味着业内没有尝试。之前创新工场联合国内头部 AI 公司发起 AI Challenger 大赛,百度、腾讯、华为、字节跳动等公司也都有数据集为核心资源的挑战赛。只是始终,缺乏一个 “全职” 展开这件事的人。而数据集之重要,AI 从业者都应该很清楚。 比如假设没有 ImageNet,那这波 AI 复兴应该还不会如此狂飙突进,是李飞飞李佳等华人科学家在数据集上的努力,加速催化了浪潮复兴。另外,数据集也能推动产学研更加紧密地合作,资源如果能更方便被利用,或许就会有更多力量加入其中,也就更有机会帮助实现该领域算法的提升和优化。说白了,公开共享数据集,就像是发起了一场打擂,产学研领域的各方高手,既是自我检测算法,也能不断让数据集所在场景,得到更高更强的推进。所以从这个角度,或许也不难想见,为啥能得到陆奇的支持。在奇绩创坛的 Demo Day 上,这个项目就被重点介绍过,而且陆奇还亲自 “站” 台为寻集令作了致辞。总而言之,好事一件,且终于有人做了。