让机器学习助力生物多样性研究

文 / Serge Belongie, 访问学者和 Hartwig Adam, 工程总监，Google Research

机器学习 (ML) 用于物种识别的前景即将成为现实，并在生物多样性研究领域显露出变革潜力。国际研讨会如 FGVC、LifeCLEF 等举办挑战赛，旨在推动开发性能最为出色的分类算法，分类对象涵盖野生动物摄像头捕捉到的图像，植物标本台纸上的压花标本等。这些竞赛取得的可喜成果激励我们将生物多样性数据集和 ML 模型的可用性从研讨会规模扩展到通用规模。

为需求群体提供的强大 ML 算法，不仅仅是传统的 “大数据 + 大计算” 模式。无论是自然历史博物馆还是民间的科学团体，都耗费了大量精力在建立与维护巨大的植物信息库上。他们精心收集、标注数据并分享数据集，这也成就了众多科学研究著作。但传统学术研究的核心是引用和归因惯例，随着 ML 扩展到生命科学领域，这些惯例的对应内容也应该随之有所延伸。

从更广泛的意义上来说，人们愈发意识到道德、公平和透明在 ML 社区中的重要性。随着各家机构大规模开发和部署 ML 应用，在设计阶段考虑到这些因素就显得尤为重要。

近日的 Biodiversity Next 上，我们携手全球生物多样性信息基金 (Global Biodiversity Information Facility, GBIF)、iNaturalist，以及 Visipedia，为希望利用 ML 的生物多样性研究机构发布了全新工作流。

凭借全球数千家研究机构贡献的十亿级的物种数据，无论是在数据聚合、跨团队协作，还是引用行为标准化方面，GBIF 都在实现该工作流中发挥着关键作用。短期内，其发挥的最重要作用是在使用中间数据 (mediated data) 训练 ML 模型时，让人们接受与习惯实践中流程的转换。在数据中介 (Data Mediation) 过程中，GBIF 帮助确保 ML 训练数据集遵守标准化许可条款，使用兼容的分类标准和数据格式，并通过潜在地从多个源数据集中采样，为正在进行的 ML 任务提供公平、充足的数据覆盖。

该全新工作流包括以下两个部分：

为了帮助开发和完善机器视觉模型，GBIF 将打包数据集，确保遵守许可和引用惯例。训练数据集将被发布一个数字对象标识符 (DOI)，并通过 DOI 引用图表实现关联。
为了帮助应用开发者，Google 和 Visipedia 将在 TensorFlow Hub (https://tfhub.dev/) 上训练和发布可公开访问的模型及文档。公众可将这些模型用于生物多样性研究和公民科学 (Citizen Science) 工作中。

案例研究：使用交互式蘑菇识别器辨认照片中的真菌品种

为演示上述工作流程，我们展示了一个真菌识别示例。此案例中使用的数据集由丹麦真菌学会选送，并由 GBIF 统一格式、打包和分享。数据集出处、模型架构、许可信息等内容在 TF Hub 模型页面均有记录。此外，该页面还展示了一个模型的实时交互 demo，用户可以上传图像了解蘑菇品种。

蘑菇识别器实时交互示意图，识别器使用公开模型，训练所用数据集由丹麦真菌学会提供。

参与邀请

如需了解有关该计划的更多信息，请访问 GBIF 的项目页面。我们期待与世界各地的机构合作，推动 ML 在生物多样性领域的新型创新应用。

致谢

我们要感谢 GBIF、iNaturalist、Visipedia 的协作者，感谢他们携手开发此工作流。我们还要感谢 Google 的 Christine Kaeser-Chen、Chenyang Zhang、Yulong Liu、Kiat Chuan Tan、Christy Cui、Arvi Gjoka、Denis Brulé、Cédric Deltheil、Clément Beauseigneur、Grace Chu、Andrew Howard、Sara Beery 和 Katherine Chou。

如果您想详细了解 本文提及 的相关内容，请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题：

物种识别
https://merlin.allaboutbirds.org/photo-id/
FGVC
https://ai.googleblog.com/2019/04/announcing-6th-fine-grained-visual.html
LifeCLEF
https://www.imageclef.org/lifeclef2019
野生动物摄像头捕捉到的图像
https://github.com/visipedia/iwildcam_comp
植物标本
https://www.kaggle.com/c/herbarium-2019-fgvc6
科学研究著作
https://www.inaturalist.org/blog/20396-year-in-review-2018
设计阶段考虑因素
https://vision.cornell.edu/se3/wp-content/uploads/2019/07/dmaic.pdf
Biodiversity Next
https://biodiversitynext.org/main-conference/
全球生物多样性信息基金
https://www.gbif.org/
iNaturalist
https://ai.googleblog.com/2018/03/introducing-inaturalist-2018-challenge.html
Visipedia
http://visipedia.org/
发布工作流
https://biss.pensoft.net/article/37230/
十亿级的物种信息
https://www.gbif.org/news/5BesWzmwqQ4U84suqWyOQy/big-data-for-biodiversity-gbiforg-surpasses-1-billion-species-occurrences
数字对象标识符
http://www.doi.org/
TensorFlow Hub
https://tfhub.dev/
TF Hub demo
https://tfhub.dev/svampeatlas/vision/embedder/fungi_V2/1
GBIF 项目页面
https://www.gbif.org/tools/machine-vision

更多 AI 相关阅读：