Insitro是in silico与in vitro两个词的缩写,这是新药发现食物链底端的两个技术,所以大家很容易对整个理念嗤之以鼻。AI和ML现在是被热炒的概念,其中鱼目混珠有、不少是起哄的吃瓜群众,也经常令这个技术蒙受不白之冤。但Daphne Koller可是ML领域著名专家、学术和工业界生涯都十分显赫,据说在星巴克与Nelsen聊了1小时就获得了Arch的支持。Insitro公开的信息不多,Koller去年曾发表一篇影响较大的博文阐述她的理念。虽然没有太多具体信息,但Insitro似乎主要目标是寻找新靶点和预测应答的生物标记。
新药发现十分复杂,不过剥皮剔肉剩下的核心是寻找蛋白或其它生物物质的异常与疾病的相关性,然后发现足够活性和选择性的调控物质、即药物。人体虽然高度复杂但信息不是无限的,理论上每个细胞中的每种物质(包括DNA、RNA、蛋白)在任何时刻(健康或疾病)的状态和浓度是可知的。所以这些物质的特征与疾病发生、疾病模型表型的相关性理论上也是可知的,当然ML模型的智能程度和计算时间肯定是个限制因素、这也是为什么只有Koller这样的顶级高手才能获得VC青睐的原因。投资者寄希望阿尔法狗要是有个同样聪明的双胞胎弟弟经Koller的训练可能会对靶点和生物标记的发现起到一定帮助。
虽然我对ML一窍不通但我估计这个领域还没成熟到可以大规模发现新靶点的程度,投资者也不会期待他们一下能找到10个PD-1水平的靶点。实际情况更可能是如果切入点选择老道,某些具体问题可能会通过ML更有效地解决,如同电影《徒手攀岩》中几个关键点(如那个boulder难题)如果能多出一个着力点就可以显著降低整个攀登的难度、而不一定要在El Cap上装一电梯。没有新药开发新技术的目标是把成功率从0%提高到100%,5%到10%的提高就可以令整个行业从垂死回到增长状态。
ML的雏形在新药发现中早就存在,药物化学中QSAR的基本原则就是通过统计回归分析寻找分子特征与活性的相关性。当然受当时条件限制一般的QSAR分析只包含几个分子特征(如clogP、氢键等),一般的训练数据也只有几十个化合物。一个分子可能有数千分子特征、一个HTS可以获得上百万的活性数据点,所以QSAR理论上在ML时代也可能变得更有威力。当然现在每年产生的高质量生物学数据点可能比分子特征数量要高几个数量级,所以ML可能起的作用更大,另外Insitro也将自己量身采集大量更容易使用的数据。高质量数据的大规模出现是ML进入新药的重要基础。
当然这里面的困难也是显而易见的。无论你用什么分析方法,动物或细胞模型表型向人体疾病的转化仍是个独立的技术障碍。虽然现在数据的质量有所提高但可靠性、可重复性是否足以与噪音分开仍需要实践检验,前几天去世的分子生物学奠基人Sydney Brenner称大数据生物学是高通量、无产出,ML要高效影响新药开发需要与深刻的生物学洞见相结合。另外ML输出也要容易验证,你说俺家机器说了低剂量二甲双胍能逆转帕金森、谁也不敢就因此开始一个三期临床。ML机会与挑战并存,所以顶级VC资助顶级科学家去看个究竟。