在 2021 年发表于 ACM CHI 会议的论文《所有人都想从事模型工作而非数据工作:高风险 AI 中的数据级联》(Everyone wants to do the model work, not the data work: Data Cascades in High-Stakes AI) 中,我们研究并验证了会随时间推移导致技术负债的数据问题所产生的下游影响(定义为“数据级联,Data Cascades”)。具体而言,我们通过全球机器学习各重要领域(例如癌症检测、山体滑坡检测、信贷分配)内的机器学习从业者在数据方面的实践和面临的挑战,阐释了数据级联现象;机器学习不仅推动了这些领域的进步,还有机会通过解决数据级联方面的问题来改进这些领域。在我们所知的工作中,这项工作率先对适用于实际项目的机器学习中的数据级联进行了规范、测量和探讨。我们还进一步探讨了,如果大家转变观念,将机器学习数据视为高优先级工作,能够带来什么机遇,如为机器学习数据工作和相关工作者提供奖励、认可机器学习数据研究中的科学经验论、扩大数据流水线的公开范围以及改进全球的数据平等性。