不愧是微软，短短 5 天，项目突破 18000 GitHub Star！

这是「进击的Coder」的第 811 篇技术分享

作者：小 G

来源：GitHubDaily

“

阅读本文大概需要 5 分钟。

”

自从 ChatGPT 对外开放使用以来，微软作为 Open AI 最大的投资方，已在多次报道中重复出现。大家一致认为，ChatGPT 无疑是微软近几年做出的最为成功的一次投资决策。

今年 1 月初，微软又再次宣布，将来接下来持续向 Open AI 投资数十亿美元，以加速他们对 AI 技术的进一步突破，让世界各地人们都能享受到 AI 带来的便利。

不仅如此，微软也在该领域持续跟进研究，试图为冉冉升起的 ChatGPT 提供一把助力。

几天前，微软在 GitHub 开源了又一个重磅项目：Visual ChatGPT，为 ChatGPT 赋能，让用户能使用图像交互的方式，跟 ChatGPT 进行互动。

过去数日，在 GitHub Trending 榜单页面，该项目首屈一指，无人能与其争锋，受欢迎程度由此可见一斑。

GitHub：https://github.com/microsoft/visual-chatgpt

众所周知，目前 ChatGPT 的信息交互方式主要还是文字，虽说已经能实现写小说、改 Bug、整理文献、编写代码、撰写周报等操作，但是用久了，难免还是希望这种交互方式有进一步的提升。

用户对来自互联网上的信息感知，主要分为两种：听觉和视觉。前者主要来自于各种音视频，后者则基于文字、图片、视频等多种信息传播格式。

微软开源的 Visual ChatGPT，将 ChatGPT 的交互从单纯的文字，成功拓展到了文字+图片。

大家可别小看这个改动，这么说吧：ChatGPT 在 AI 领域画了一个圈，微软开源的 Visual ChatGPT，将这个圈的半径又向延伸了一点，让它的可玩性以及应用领域，再次获得质的突破！

对于其技术原理，微软在项目 README 中给出了一张系统架构图，直观的反馈了它的操作流程。

上面这张图片，需要拆分为左、中、右三部分来看。

左：代表的是项目 Demo 示例，在该 Demo 中，用户与 ChatGPT 进行了三次交流。

第一次交流（Q1 & A1）：用户发送了一张沙发图片，ChatGPT 回复「收到」。

第二次交流（Q2 & A2）：用户让 ChatGPT 将图片中的沙发替换为桌子，并让其看起来像一幅水墨画。ChatGPT 收到指令并生成了两幅示例图。

第三次交流（Q3 & A3）：用户问 ChatGPT，图像中墙壁的颜色，ChatGPT 回答「蓝色」。

中：代表的是 Visual ChatGPT 的工作流程，在模型接收到提问（Query）后，会判断是否需要使用 VFM 进行处理。

VFM 全称是 Visual Foundation Model（视觉基础模型），像 Stable Diffusion、ControlNet、BLIP 等图像处理类模型，都属于该分类。

右：代表的是 VFM 详细处理说明，分别表示模型在接到不同消息指令时，具体的处理与答复流程。

Visual ChatGPT 在 GitHub 上的热度依旧不减，相信在未来的一到两天，项目 Star 数还会持续增加，很快突破 20000 Star，成为 2023 年初至今，增长最快的开源项目！

关于该项目的进一步技术原理分析以及应用，可查看 Visual ChatGPT 团队发布的 arvix 论文。

arxiv 论文：https://arxiv.org/abs/2303.04671

文中所提到的所有开源项目与工具，已收录至 GitHubDaily 的开源项目列表中。

该列表包含了 GitHub 上诸多高质量、有趣实用的开源技术教程、开发者工具、编程网站等内容。

从 2015 年至今，累积分享 3500+ 个开源项目，有需要的，可访问下方 GitHub 地址或点击文末「阅读原文」自取：

GitHub：https://github.com/GitHubDaily/GitHubDaily

好了，今天的分享到此结束，感谢大家抽空阅读，我们下期再见，Respect！

End

崔庆才的新书《Python3网络爬虫开发实战（第二版）》已经正式上市了！书中详细介绍了零基础用 Python 开发爬虫的各方面知识，同时相比第一版新增了 JavaScript 逆向、Android 逆向、异步爬虫、深度学习、Kubernetes 相关内容，‍同时本书已经获得 Python 之父 Guido 的推荐，目前本书正在七折促销中！

内容介绍：《Python3网络爬虫开发实战（第二版）》内容介绍

扫码购买

好文和朋友一起看~