NYU陈溪博士：运筹学与机器学习的融合交叉

AI 科技评论按：从一个旁观者的角度看来，陈溪的履历无疑令人艳羡：从西安交通大学少年班一路至计算机系毕业，随后到卡耐基梅隆大学（CMU）商学院攻读硕士学位，一年后转到了 CMU 的机器学习系；五年博士毕业后，陈溪跟随人工智能泰斗、UC 伯克利教授 Michael I. Jordan 进行博士后研究；在这之后，他从西海岸横跨北美洲，于纽约大学任商学院助理教授。

机器学习专业出身的陈溪，美国研究生涯始于商学院的运筹学和统计学，在经历六年的机器学习研究后，如今又重回商学院。运筹学与机器学习之间，能产生怎样奇妙的化学反应？陈溪又是如何在这两门学科中寻求交叉平衡与科研创新的？AI 科技评论与陈溪博士进行了一次交流，了解了他在运筹学与机器学习之间的十年研究心得。

陈溪博士目前是纽约大学商学院助理教授，CMU 机器学习系博士，也曾跟随 Michael I. Jordan 做了为期一年多的博士后研究。同时，陈溪博士拿过 Google Faculty Research Award，Adobe Data Science Research Award, Alibaba Innovation Award，在 2017 年还获得了福布斯杂志全美 30 under 30 最有影响力的青年科学家提名。陈溪博士的主要研究领域为：机器学习、高维统计和运筹学。

图灵奖唯一华人得主姚期智院士曾如是强调学科交叉的重要性：「多学科交叉融合是信息技术发展的关键：当不同的学科、理论相互交叉结合，同时一种新技术达到成熟的时候，往往就会出现理论上的突破和技术上的创新。」

尤其在今天大数据的环境下，学科的交叉与融合愈发明显。作为一位在运筹学与机器学习领域都有过长期涉猎和学习的老师，陈溪博士对于这一观点具有极强的发言权。

陈溪的硕士第一年是在商学院度过的，现在看来，说是无心插柳也不为过。即使在进入机器学习系之后，陈溪博士仍然与运筹系的老师有着密切的合作；而在商学院任教后，他也能够迅速地融入商学院的文化。此外，这一年的学习也给陈溪博士带来了更多意想不到的收获。「我在 CMU 运筹系的第一年学习了非常多优化方面的知识，而这些算法后来成为了研究机器学习中非常重要的工具，用于进一步解决机器学习的问题。」

因为具备了不同学科的丰富背景，陈溪博士可以将很多机器学习中比较前沿的技术引入到商学院中，并用机器学习、大数据等新技术解决商学院的传统问题。

机器学习发展至今，研究者所解决或攻克的问题相对比较集中，即围绕视觉（检测、识别、分割）、语音（识别、合成）、自然语言处理（翻译、文本分析）等领域展开，而且有很多国内的创业公司也在研究上述问题。

但在陈溪博士看来，一些企业级服务，甚至可以说是商学院中的一些服务，如供应链、动态定价与推荐，在机器学习研究者中关注得还比较少。目前整个行业还缺乏同时具备这两个领域知识的人，即有机器学习的背景，又能了解商学院的核心问题，把机器学习的方法和技术引入商学院的传统领域中，并解决相应问题。

斯坦福前任商学院的院长 Garth Saloner 在 2016 年曾说过，「如果你是一个斯坦福 MBA 的学生，请赶快去工程学院，尽可能地学习 AI、深度学习和自动化的知识。就是现在。」在这些学生进入公司管理层后，他们需要更多地理解大数据知识和相应算法，才能对企业决策产生正面的影响。在陈溪博士看来，五年以前，整个商学院几乎没有计算机科学家的存在，MBA 的学生也缺乏相关的知识与背景。但近年来，一些美国高校开始招募一些机器学习人才进入商学院，用合适的术语和技术包装，用适于商学院学生理解的方式传递给他们。

在课程中，陈溪博士会融入一些机器学习的新案例，让商学院的同学们了解更多技术层面的知识。虽然在他看来，同学们虽然对计算机知识相对陌生，也缺乏相关的训练，但在当下背景下，意识到计算机学科重要性的学生们也拥有极强的求知欲。

在职业生涯的规划中，陈溪博士非常感谢他在博士后期间的导师 UC 伯克利教授 Michael I. Jordan。「和 Jordan 教授做研究，能充分地感受到他真的是一位大师。」首先，Jordan 教授给予了学生极大的研究自由度。在每周的交流中，Jordan 教授极少规定学生手上要做的项目，而是通过沟通热点及问题，启发学生主动思考；此外，Jordan 教授对于学生的职业发展寄予高度的关注和帮助，会花大量的时间帮助每一个博士后准备自己的 job talk，并且提供了诸如团队建设、项目基金申请等宝贵的经验。整个团队的氛围也非常融洽，每个人都具有充分的合作精神。在一年多的博士后经历中，陈溪博士不仅在众包分配研究中取得了相关进展，也懂得了为师之道，并且身体力行地应用到自己的教学过程中。在这个过程中，陈溪博士也明确了自己未来的研究方向。

陈溪博士目前的一个研究核心是从理论和实践两个角度，针对基于大规模在线数据的学习与决策展开研究。

在理论层面，陈溪博士主要研究的高维数据在统计推断与计算方面的内容，并把统计推断和随机优化做了有机的结合。

目前传统统计学中的数据基本上是静态的，而且是事先给定的，但这与实际的应用场景相去甚远。与传统统计学家相比不同的是，陈溪博士的研究更关心各种场景下海量高维数据的处理。「如果我们已经拥有一个用户很多的历史购买数据，那么它的 profile 已经是非常高维的；此外大量的数据在实际场景下都是动态产生的。」

这一场景会面临两个问题。一个是，如何在这种动态大规模高维数据场景下做统计推断；另一个是，当数据达到一定量级，在分布式场景下，如何在机器间的交互代价（communication cost）与推断效率中进行平衡，并考虑现实计算的各种规范（constraint）。

与机器学习科学家相比不同的是，机器学习更关心高维数据的估计和预测，而从陈溪博士的研究角度来看，他更关心的是推断（inference），即规划结果的「uncertainty」程度。

在实践层面，陈溪博士更多地考虑到了动态定价、动态推荐及众包分配方面的应用问题。「比如每个用户发起一个检索（search），那么数据会上传到服务器中，因为每天都会有无数的人在做检索操作，那么这便成为了一个大规模的用户数据，如何通过这些数据更好的服务于用户，比如进行精准的推荐。」

而杉数科技的成立，也正是机器学习与运筹学结合应用的一个产物。见证杉数科技成长的陈溪博士，从公司成立以来一直与几位创始人保持密切联系，一同探讨如何用机器学习服务国内更多的物流公司、电商公司。一方面，陈溪博士希望企业能将大家的知识转化成生产力；另一方面，企业产生的数据也会促进很多新的研究问题。

从一个学者的角度出发，陈溪博士仍对学术研究抱有一颗沉静之心。学术界有不少教授投身产业界，在更大的技术舞台上发挥才智，但整个大环境还是需要另一些老师静下心来理解算法的本质，才能创造出更多新的有价值的模型与方法。「比如神经网络调参，我们大家都知道，其实它需要大量的经验，有人说它就像一门艺术，而不是一门科学。那么如果我们能真正去理解它，可能以后我们不需要花这么多的时间去调参，而是可以用理论指导算法的设计，甚至对一些传统问题提出全新的想法。」相信在未来，我们能在运筹学与机器学习的交叉融合上，更多地看到全新的成果。

由杉数科技举办的第二届杉数科技 AI 大师圆桌会将于 7 月 26 日在上海举行。详情请点击文末阅读原文报名：

AI 科技评论报道

┏(＾0＾)┛欢迎分享，明天见！

今天看啥 - 高品质阅读平台
本文地址：http://www.jintiankansha.me/t/b0n8n0jepZ