亮点回顾｜2022 re:Invent Recap：创新源动力——深度学习技术洞察与实践

2022 年 12 月 30 日，由 SegmentFault 思否社区联合亚马逊云科技共同举办的“2022 re:Invent Recap：创新源动力——深度学习技术洞察与实践”线上沙龙活动圆满落幕。

最近几年，AI 在自然语言处理（NLP）领域的突破不断创新，首当其冲便是作为全新聊天机器人模型的 “ ChatGPT ”等 AIGC 范式的内容生产工具。随着越来越多 AIGC 创业新贵们迅速占据市场，寒冬里业界对新一轮 AI 创业浪潮的期许也被彻底点燃，如何借助深度技术帮助每一个开发者让产品创新变得更简单成为当下面临的新挑战。

始于 2012 年的亚马逊云科技 re:Invent 全球大会作为云计算领域备受业界瞩目的活动，每年都会吸引无数来自世界各地开发者们的关注。本场沙龙将围绕 AI 深度学习技术展开进一步探讨，并从底层原理及大量业务实战案例出发，分享 AI 技术在产品创新的实战经验以及 AI 工程师的转型创新之路。来自 Zilliz 首席工程师焦恩伟、NebulaGraph 项目开发者布道师古思为、亚马逊云科技解决方案架构师林业、亚马逊云科技机器学习解决方案架构师李雪晴受邀出席本场沙龙，并进行了主题演讲。

当前，AI 正不断向着产业化的方向演变，深度学习平台已成为企业及开发者应用 AI 技术必备的“杀手锏”。最新发布的 IDC 数据显示，在 AI 技术使用方面选择开源深度学习框架的企业及开发者比例高达 86.2% 。那么在深度学习技术转变过程中，如何简化应用开发的流程及其数据管理问题呢？Zilliz 首席工程师焦恩伟首先为我们带来了主题为“ Milvus: 深度学习应用‘工业革命’的新引擎”的分享，以社区实践的角度，对深度学习工业化浪潮下 Milvus 凭借自身性能优势解决分级化数据等多场景需求做了解读。

Milvus 研究团队借助数据 framework 标准化后工业化的“窗口”成功抢占赛道， 2019 年 4 月正式发布 1.0 版本后不断迭代，并于 2020 年 3 月加入 Linux 基金会，至此 Milvus 终于发展为相对成熟的开源产品。在本场分享中，焦恩伟介绍了最初在海量数据下如何搭建“以图搜图” Demo 系统以及向量数据库 Milvus 概念及其架构。作为基于亚马逊云科技的微服务云原生架构 SaaS，Milvus 2.0 上面就包括了非常多组件及节点；此外，Milvus 的云服务版本 ——Zilliz Cloud 基于亚马逊云科技云平台提供服务，实现了不同集群间使用同一资源池来聚合计算，极大节省了用户的节点开销及成本。焦恩伟还分享了深度学习的应用案例，并对下一代 Milvus 演进的规划做了展示。

焦恩伟详细解读了 Milvus 的性能优势，从视频查重、商品推荐、商品搜索、App 推荐等方面案例对 Milvus 在社区的广阔应用空间做了分享，并从 AI 中台、AI 业务、高性能、大数据这四个场景对Milvus 的适用人群做了分析。他表示，向量数据在深度学习场景里有着广泛且超多的应用前景，接下来会更积极拥抱 AI 生态系统，期待与业界上下游厂商做更多合作。在未来规划环节，他提到了下一步 Milvus 将支持 SQL ，以降低 AI 的使用、学习门槛，让更多的非研发同学也能快速享受到当前技术的变革。同时打造能够服务不同的业务部门多租户平台，并做到极致的性能优化及丰富的 AI 生态接入。最后，焦恩伟也对网友提出的互动问题如“Muas 如何进行性能调优” “哪些因素会影响 CPU 的使用率？” “向量数据库主要应用方向” 分别做了解答。

AI 时代，使用神经网络来学习图结构数据、提取图结构数据特征模式，以满足图学习任务需求的算法已经被普遍应用在我们日常数字生活的多个领域。在第二场演讲中，NebulaGraph 项目开发者布道师古思为就为我们带来了以“搭建基于图神经网络的实时欺诈检测系统”为主题的分享，深入解读了如何利用图深度学习和图数据库来构建一个实时的欺诈检测系统。

古思为对当前图神经网络的发展背景做了介绍，并解读了为何要通过该算法方案来打造一套系统，以及可组织和查询、存储海量图谱业务的图数据库概况。随后，深入解读了基于图的神经网络方法及 GNN 欺诈检测，同时从实践的角度对实时欺诈检测系统【( Graph Neural Network, GNN )+图形数据库】 NebulaGraph DGL 在端到端的实际应用及所用到的开源项目做了分享。期间，他重点展示了如何将训练成功的 DGL 图神经网络模型嵌入到线上服务中的实例，并结合图数据库的实时能力，对整个欺诈检测系统的搭建过程做了 Demo 演示。

古思为表示，NebulaGraph 项目自 2018 年创立之初，就从 day zero 面向超大规模，到千亿点规模、万亿边规模的演变下不断迭代，在拥有上千用户的开源社区中打磨出完备的周边生态。最初面向分布式，NebulaGraph 就有较好的扩展性、并发处理能力、响应时间以及规模和性能，而积极拥抱开源也是该项目被大量用户选择作为其图的基础设施或图中台的理由之一。古思为随后简要介绍了 DGL （ Deep Graph Library ）这个开源项目，DGL( https://www.dgl.ai/ ) 最初由纽约大学和亚马逊云科技共同发起，作为最流行的图神经网络框架之一，它提供了非常优雅的底层框架无关的 GNN 接口和非常强大的分布式训练能力，同时，它的社区也非常活跃。最后，古思为也对线上网友提出的“有一定的深度学习基础该如何入门”“图神经网络目前可研究的方向及其未来发展的趋势”相关问题解答。

之后，亚马逊云科技解决方案架构师林业、亚马逊云科技机器学习解决方案架构师李雪晴也分别从当前热点话题技术及实战的角度带来了主题为“利用 Amazon SageMaker 玩转 AIGC”和“SageMaker 新功能深解读：机器学习模型治理实战”的分享。

据 Gartner 数据显示，预计到 2023 年会有 20% 的内容被生成式的 AI 所创建，到了 2025 年，我们生产的 AI 生产的数据占比将达到 10%。林业在出题分享中，就主要聚焦了 AIGC 这个当前的热点技术话题，介绍了 AIGC 概况以及当前 AIGC 主流应用场景，并就“如何利用亚马逊云科技的平台来实现 AIGC 上的 Stable Diffusion 模型应用”进行了演示。

林业主要挑选了 Stable Diffusion 和 Bloom 这两个 AIGC 的模型进行了初步的讲解，其中 Bloom 是亚马逊云科技今年 7 月份正式面世的开源项目，最终实现了 1760 亿个参数规模，可适用于多种场景。他也对 Amazon SageMaker Studio 一站式机器学习 IDE 开发平台及 Amazon SageMaker JumpStart 、SageMaker JumpStart + Stable Diffusion 、SageMaker JumpStart + Bloom 等开发工具及客户解决方案做了分享，并在线演示了利用 JumpStart 快速创建 Stable Diffusion 应用，最后对来自线上网友的提问做了解答。

作为 AI 的核心，机器学习需要在在降低模型失效及规避风险方面有一套完整的规范。在本次线上沙龙的最后一个主题里，李雪晴先从两个方面为我们介绍了亚马逊云科技的优势，比如拥有非常完整全面的机器学习产品类型以及亚马逊自研的训练芯片 Amazon training、自研的推理芯片 Amazon ingredient。随后对 Amazon SageMaker 概况做了展示，重点对 Amazon SageMaker Notebook Instance 基于 JUPYTERLAB 开发环境的笔记本实例、适用于算法工程师的日常实验和代码调试、开源的 Deep Graph Library 赋能图神经网的多种业务场景等实战案例做了分享，同时为线上网友提出的问题做了详细解答。

四位讲师的精彩分享，与广大开发者的积极互动，让我们在热烈的技术交流氛围中，结束了本场沙龙，为刚刚过去的 2022 年画上了一个圆满的句号。新的一年里，也将不断有更多精彩活动期待您的关注！

点击“阅读原文”，查看详细视频回放