机器学习 (ML) 用于物种识别的前景即将成为现实,并在生物多样性研究领域显露出变革潜力。国际研讨会如 FGVC、LifeCLEF 等举办挑战赛,旨在推动开发性能最为出色的分类算法,分类对象涵盖野生动物摄像头捕捉到的图像,植物标本台纸上的压花标本等。这些竞赛取得的可喜成果激励我们将生物多样性数据集和 ML 模型的可用性从研讨会规模扩展到通用规模。
为需求群体提供的强大 ML 算法,不仅仅是传统的 “大数据 + 大计算” 模式。无论是自然历史博物馆还是民间的科学团体,都耗费了大量精力在建立与维护巨大的植物信息库上。他们精心收集、标注数据并分享数据集,这也成就了众多科学研究著作。但传统学术研究的核心是引用和归因惯例,随着 ML 扩展到生命科学领域,这些惯例的对应内容也应该随之有所延伸。
从更广泛的意义上来说,人们愈发意识到道德、公平和透明在 ML 社区中的重要性。随着各家机构大规模开发和部署 ML 应用,在设计阶段考虑到这些因素就显得尤为重要。
近日的 Biodiversity Next 上,我们携手全球生物多样性信息基金 (Global Biodiversity Information Facility, GBIF)、iNaturalist,以及 Visipedia,为希望利用 ML 的生物多样性研究机构发布了全新工作流。
凭借全球数千家研究机构贡献的十亿级的物种数据,无论是在数据聚合、跨团队协作,还是引用行为标准化方面,GBIF 都在实现该工作流中发挥着关键作用。短期内,其发挥的最重要作用是在使用中间数据 (mediated data) 训练 ML 模型时,让人们接受与习惯实践中流程的转换。在数据中介 (Data Mediation) 过程中,GBIF 帮助确保 ML 训练数据集遵守标准化许可条款,使用兼容的分类标准和数据格式,并通过潜在地从多个源数据集中采样,为正在进行的 ML 任务提供公平、充足的数据覆盖。