Py学习  »  机器学习算法

数据库50年:能借机器学习再造一个黄金期吗?

AI前线 • 6 年前 • 333 次点击  

策划编辑 | Natalie
作者 | Michael Cafarella,Chris Ré
编译 | 无明
编辑 | Emily
AI 前线导读:数据库领域最近似乎出现了某种前所未有的躁动和不安。人们不满于评审流程,很多有用的研究工作难以继续进行,而且我们与机器学习领域的关系界限十分模糊。图灵奖得主 Mike Stonebraker 在最近的一次演讲中提到了其中的几个问题,正如这位数据库大佬所说的,这些问题值得我们严肃对待。

本文回顾了数据库研究领域的过去、现在和未来,细数了数据库研究面对的挑战和机遇。虽然很多人觉得在人工智能浪潮下的数据库领域似乎已经不如过去那般风光无限,但作者却认为未来数据库领域的机会比过去数十年都要多,机器学习的黄金期依赖于数据库!

本文来自斯坦福 DAWN 实验室,该实验室在去年开源了一个同名项目,意为下一代数据分析(Data Analytics for What’s Next),为普及机器学习实践而打造。对高性能计算影响深远的 Spark 和 Mesos 的核心作者之一 Matei 也是 DAWN 的重要成员。

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)

数据管理领域的研究工作进展已经超乎我们的想象,毫无疑问,对于该领域来说,这是最好的时代。

辉煌的过去

过去十年,在数据管理领域都发生了什么?


  • 口袋里的结构化数据。iPhone 发布于 2007 年,而此后智能手机的发展让数十亿个口袋都“装”上了结构化数据,因为每台设备上都有一个 SQL 引擎。

  • Hadoop、Spark 和其他开源项目的大获全胜。 第一届 Hadoop 峰会于 2008 年举行。现在,Facebook、Twitter、NAS 等巨头都在支持这个项目的发展,Cloudera 和 Hortworks 两家公司的市值超过 30 亿美元。Spark 和 SparkSQL 项目在业界得到广泛应用。Apache 基金会的一项统计数据(http://projects.apache.org/statistics.html)表明,10 个最热门的项目中有 8 个与数据有关:Ambari、Ignite、Hadoop、Beam、HBase、Flink、Lucene-solr 和 Spark。Spark 和 Flink 还拥有来自数据库领域的贡献者。可能有人会反对说,这些项目并非来自数据管理专业委员会(SIGMOD)社区,但可以告诉他们的是,这些项目的某些灵感还是来自于数据库领域。

  • 信息提取成为主流。2008 年,信息提取在 AI 和数据库大会上还只能占个小角落。后来,数据库社区推出了大量的系统,如 Yago、WebTables、DeepDive 等。该领域的技术已经十分先进,苹果公司在去年收购了 Lattice Data,由此可见一斑。

  • 云数据库。 包括谷歌、微软、Twitter、亚马逊在内的巨头公司开始大规模使用云数据库。

  • 数据分析成为主流。OLAP 几乎成为昨日黄花,但现在,Actian Vector 和 MonetDB 提供了高质量的数据分析,Tableau 市值 65 亿美元。如果没有了数据分析,Facebook 和谷歌不知道会变成什么样,而借助数据分析,他们甚至有望形成新的民主。

多彩的现在

十年来,数据库领域在很多难题研究上取得了进步,而这些奠定了技术发展的基石。


  • 近似查询结果

  • 用于机器学习原语的数据管理

  • 大规模分布式关系型系统(支持事务)

  • 点对点的交易处理(区块链)

  • 数据隐私模型的改进

  • 图算法、关系查询和并行查询处理的改进

这还没包括那些在机器学习和视觉化方面与数据有关的进展。虽然它们都不属于 SIGMOD,但与我们密切相关。与其他领域的关系对我们来说是好事。而让人感到惊讶的是,很多国家和地区都参与到这一领域的研究,如美国、中国、欧洲、中东等。我们应该为此感到骄傲,应该为能够参与解决如此重要的问题而感到兴奋。

光明的未来

确实,我们所听到的某些观点是有那么一点道理,比如糟糕的论文评审、重要的项目难以继续进行、论文数量过度膨胀等。在很多情况下,论文评审不应该是那样的。在数据管理领域,我们不再是唯一的主导者。现在有越来越多的技术大会,有越来越多的智能主题,而我们曾经引以为傲的关系型数据库现在在整个数据管理领域所占的比重越来越小。或许,要想继续发挥影响力,我们要比以往更加小心地选择项目。当然,现在比过去更难创建大型的项目,也更难获得资金支持。这些都是问题,但反过来看,这些也意味着数据管理领域已经取得不可思议的成功。

总得来说,数据管理领域的机会比过去 10 年(甚至是 20 年、30 年或 40 年)都要多。该领域的研究成果是解决其他问题的基础。

  • 机器学习的黄金期依赖于我们,不管是涉及智能还是商业投资。

  • 到处都是机器学习!Kraska 等人的学习索引(Learned Indexes,https://arxiv.org/abs/1712.01208)、Andy Pavlo 的自驱动数据库(https://pelotondb.io)、Barzan Mozafari 的数据库学习、Macrobase 基于机器学习驱动的数据分析,这些都在 RAD 实验室(https://radlab.cs.berkeley.edu/about)伟大愿景的笼罩之下。

  • 编程模型在变化。机器学习几乎被应用在所有的数据产品中,但还没有出现有效的编译器和调试基础设施。Snorkel 项目(https://hazyresearch.github.io/snorkel)正在尝试如何重塑机器学习技术栈。

  • 下一代框架。例如,在 Ray 框架中调整机器学习模型或进行增强学习、在 SQL 原语中集成线性代数和机器学习,等等。

  • 硬件的发展改变了数据处理的核心。如 quickstep 项目(http://quickstep.cs.wisc.edu)、基于 FPGA 处理数据、重新发明查询架构的 Hyper(https://hyper-db.de)、列储存先锋 MonetDB(https://www.monetdb.org/Home)。

  • 数据狂热者的崛起。越来越多的人使用数据处理,所以像自然语言接口(http://www.vldb.org/pvldb/vol8/p73-li.pdf)和 gestureDB(http://interact.osu.edu/gesturedb)这些项目才能发展得如此迅速。数据清洗也取得了可喜的进步,Tamr 和 Trifacta 这些公司在这方面做出了很大的贡献。当然,还有像 BoostClean(https://arxiv.org/abs/1711.01299)和 HoloClean(http://holoclean.io)这类项目。

  • 数据科学作为一个组织原则,几乎对社会的方方面面都产生了重要影响。

  • 由 Anastasia Ailamaki 共同领导的 BlueBrain(https://bluebrain.epfl.ch)项目。

  • Ce Zhang 的 space.ml 项目(http://space.ml)比以往进行了更深入的研究。

  • Chris White 因为研究反人类非法交易而获得总统奖,我们社区的很多同僚也参与了研究。

  • Daisy Wang、Fabian Suchanek 等人致力于改进用于数据科学的知识库。

  • Jennie Rogers、Aditya Parameswaran、Ashwin Machanavajjhala、Stratos Idreos、Alvin Cheung、Peter Alvaro 等人致力于为高效而安全的数据科学和数据分析构建基础设施。

  • 数据库领域的人们在新的以数据为中心的机构中占有重要的地位。在 Moore Sloan 研究中心,主要由来自数据库领域的核心人物带队。UChicago 是由 Mike Franklin 建立起来的,而 Mike 也是伯克利的联合创建人。Hector Garcia-Molina 和 Chris 是斯坦福数据科学院的联合创始人。在国际方面,QCRI 由 Ahmed Elmagarmid 领导。

或许,相比关系型数据库,我们无法在这些方面拥有同等水平的所有权,但我们却有更大的机会产生比以往更强的影响力。

当然,关于数据库领域所面临的挑战,也存在一些不同的想法。

我们的领域一直在进步,我们也同意 Mike Stonebraker 的大部分观点。我们一直在想,我们该如何继续把最好的想法吸引到我们的领域来?如何构建一个更好的社区,让人们更好地完成他们的工作?以下是我们的一些想法。


1. 基于论文的奖励模型已经不管用了。在这一点上,我们赞同 Mike:不要只依赖论文!但我们并不希望人们减少论文的数量,毕竟技术交流大会仍然需要使用论文作为分享手段,但它们不应该成为获得奖励的资本。

a. LPU 并不是问题。Surjit Chaudhuri 曾经极力争辩说,我们需要论文来加快研究成果的分享。我们同意他的观点!我们的领域太庞大了,结构化的沟通有助于快速地散播好的想法。我们还应该寻找更快的方式来散播好的想法,比如鼓励采用不同长度的论文、给论文设置期限。

b. 论文难以追踪也是不争的事实。这并不是因为人们太坏或者太懒了,而是因为我们的世界越来越大了。这也是论文评审质量下降的原因之一,尽管还是存在一些论文质量管控手段。我们应该接受现实,论文会越来越多,论文的平均质量水平可能会下降,但对读者的帮助可能会有所提升。


2. 项目应该有始有终,有完整的生命周期。项目应该能够通过在线的方式为同僚之间的沟通和分享提供良好的支持。我们能够想到的是:


  • 建立项目主页。

  • 提供相关的出版物信息,告诉其他人需要先阅读哪些资料。

  • 应用场景描述。

  • 开源的代码和文档。

  • 可重用的数据集。

  • 定期更新博客。

  • 如果有人希望通过 Skype 沟通,需要为他们预留时间。

  • 提供虚拟机下载,方便他人进行测试。

  • 如果后续不进行更新,就妥善关闭项目。

这些想法算不上什么大突破,但确实能给我们带来帮助。


  1. 在发挥影响力方面,我们比其他大多数领域做得更加出色。我们不妨也把影响力扩散到数据集、模型和数据科学领域。关系型数据库曾经让我们感到无比骄傲。现在,我们应该考虑在 SIGMOD 中给那些最好的数据集、数据科学分析等加强奖励力度。

  2. 我们同时需要理论性和系统性的工作。理论的发展不应该以牺牲系统性的工作为代价,这两者我们都需要。人们对很多数据管理方面的研究仍然不是很了解,比如数据隐私、机器学习和数据清洗。以好奇心为驱动的研究会吸引到更好的想法,而正确的理论会让系统工作更好地进行。如果一个人没有一点理论基础,又怎能让他去开发与数据隐私或机器学习相关的工具呢?

  3. 我们要用智能代替工具来定义我们的领域。比如,我们不应该把注意力聚焦在关系型数据库本身,而是要关注它背后的想法。

  4. 我们要搭个大帐篷。数据管理领域广阔,而且让人激动不已,我们比其他任何人都要来得努力。我们不应该把精力浪费在讨论数据管理应该包含哪些内容。尽管机器学习社区也很庞大,影响力也很大,但我们与机器学习之间完全算不上同质化。

现在是数据管理领域的黄金时代,当然风险并存。我们要严阵以待,以更努力的工作创造更好的数据世界。

英文原文:https://dawn.cs.stanford.edu/2018/04/11/db-community

今日荐文

点击下方图片即可阅读

首个自动驾驶路测国家规范出炉:测试驾驶人成高危职业


深度培训

ArchSummit 深圳站除准备了上百场前沿架构案例之外,此次还邀请了 Facebook 商业机器学习负责人、阿里高级技术专家前来开展 内部深度培训,手把手帮你搭建主流机器学习平台及实时流计算架构。其中 Facebook 培训大纲如下:

  • 机器学习、特征工程实践问题及步骤解析

  • 监督学习:分类、回归、深度学习、模型性能

  • 无监督 / 半监督学习

  • 其他机器学习应用(备份、个性化、预测)

  • 工业机器学习应用

  • Facebook、Microsoft、Amazon 的机器学习应用实践

PS:上述实践使用 R 和 Python 语言

目前 ArchSummit 会议及培训限时报名,席位有限,详细内容欢迎识别下方二维码或点击阅读原文,如需帮助可直接联系票务经理(微信:aschina666)


AI前线
紧跟前沿的AI技术社群


好看的文章千篇一律,有趣的灵魂万里挑一。读者朋友记得给我留言和点赞哦!


今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/2625KwHokP
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/10377
 
333 次点击