Py学习  »  机器学习算法

让机器学习助力生物多样性研究

谷歌开发者 • 4 年前 • 514 次点击  

文 / Serge Belongie, 访问学者和 Hartwig Adam, 工程总监,Google Research

机器学习 (ML) 用于物种识别的前景即将成为现实,并在生物多样性研究领域显露出变革潜力。国际研讨会如 FGVCLifeCLEF 等举办挑战赛,旨在推动开发性能最为出色的分类算法,分类对象涵盖野生动物摄像头捕捉到的图像植物标本台纸上的压花标本等。这些竞赛取得的可喜成果激励我们将生物多样性数据集和 ML 模型的可用性从研讨会规模扩展到通用规模。


为需求群体提供的强大 ML 算法,不仅仅是传统的 “大数据 + 大计算” 模式。无论是自然历史博物馆还是民间的科学团体,都耗费了大量精力在建立与维护巨大的植物信息库上。他们精心收集、标注数据并分享数据集,这也成就了众多科学研究著作。但传统学术研究的核心是引用和归因惯例,随着 ML 扩展到生命科学领域,这些惯例的对应内容也应该随之有所延伸。


从更广泛的意义上来说,人们愈发意识到道德、公平和透明在 ML 社区中的重要性。随着各家机构大规模开发和部署 ML 应用,在设计阶段考虑到这些因素就显得尤为重要。


近日的 Biodiversity Next 上,我们携手全球生物多样性信息基金 (Global Biodiversity Information Facility, GBIF)、iNaturalist,以及 Visipedia,为希望利用 ML 的生物多样性研究机构发布了全新工作流。


凭借全球数千家研究机构贡献的十亿级的物种数据,无论是在数据聚合、跨团队协作,还是引用行为标准化方面,GBIF 都在实现该工作流中发挥着关键作用。短期内,其发挥的最重要作用是在使用中间数据 (mediated data) 训练 ML 模型时,让人们接受与习惯实践中流程的转换。在数据中介 (Data Mediation) 过程中,GBIF 帮助确保 ML 训练数据集遵守标准化许可条款,使用兼容的分类标准和数据格式,并通过潜在地从多个源数据集中采样,为正在进行的 ML 任务提供公平、充足的数据覆盖。


该全新工作流包括以下两个部分:
  • 为了帮助开发和完善机器视觉模型,GBIF 将打包数据集,确保遵守许可和引用惯例。训练数据集将被发布一个数字对象标识符 (DOI),并通过 DOI 引用图表实现关联。
  • 为了帮助应用开发者,Google 和 Visipedia 将在 TensorFlow Hub (https://tfhub.dev/) 上训练和发布可公开访问的模型及文档。公众可将这些模型用于生物多样性研究和公民科学 (Citizen Science) 工作中。



案例研究:使用交互式蘑菇识别器辨认照片中的真菌品种

为演示上述工作流程,我们展示了一个真菌识别示例。此案例中使用的数据集由丹麦真菌学会选送,并由 GBIF 统一格式、打包和分享。数据集出处、模型架构、许可信息等内容在 TF Hub 模型页面均有记录。此外,该页面还展示了一个模型的实时交互 demo,用户可以上传图像了解蘑菇品种。

蘑菇识别器实时交互示意图,识别器使用公开模型,训练所用数据集由丹麦真菌学会提供。



参与邀请

如需了解有关该计划的更多信息,请访问 GBIF 的项目页面。我们期待与世界各地的机构合作,推动 ML 在生物多样性领域的新型创新应用。



致谢

我们要感谢 GBIF、iNaturalist、Visipedia 的协作者,感谢他们携手开发此工作流。我们还要感谢 Google 的 Christine Kaeser-Chen、Chenyang Zhang、Yulong Liu、Kiat Chuan Tan、Christy Cui、Arvi Gjoka、Denis Brulé、Cédric Deltheil、Clément Beauseigneur、Grace Chu、Andrew Howard、Sara Beery 和 Katherine Chou。



如果您想详细了解 本文提及 的相关内容,请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题:

  • 物种识别
    https://merlin.allaboutbirds.org/photo-id/

  • FGVC
    https://ai.googleblog.com/2019/04/announcing-6th-fine-grained-visual.html

  • LifeCLEF
    https://www.imageclef.org/lifeclef2019

  • 野生动物摄像头捕捉到的图像
    https://github.com/visipedia/iwildcam_comp

  • 植物标本
    https://www.kaggle.com/c/herbarium-2019-fgvc6

  • 科学研究著作
    https://www.inaturalist.org/blog/20396-year-in-review-2018

  • 设计阶段考虑因素
    https://vision.cornell.edu/se3/wp-content/uploads/2019/07/dmaic.pdf

  • Biodiversity Next
    https://biodiversitynext.org/main-conference/

  • 全球生物多样性信息基金
    https://www.gbif.org/

  • iNaturalist
    https://ai.googleblog.com/2018/03/introducing-inaturalist-2018-challenge.html

  • Visipedia
    http://visipedia.org/

  • 发布工作流
    https://biss.pensoft.net/article/37230/

  • 十亿级的物种信息
    https://www.gbif.org/news/5BesWzmwqQ4U84suqWyOQy/big-data-for-biodiversity-gbiforg-surpasses-1-billion-species-occurrences

  • 数字对象标识符
    http://www.doi.org/

  • TensorFlow Hub
    https://tfhub.dev/

  • TF Hub demo
    https://tfhub.dev/svampeatlas/vision/embedder/fungi_V2/1

  • GBIF 项目页面
    https://www.gbif.org/tools/machine-vision



更多 AI 相关阅读:



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/51213
 
514 次点击