AIGC周报｜清华、北邮新研究：让文生图AI更懂你；雷军发文谈大模型和AIGC；让霉霉笑得更开心

AIGC（AI Generated Content）即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT，以及 Dall·E 2、Stable Diffusion 等文生图模型，都属于 AIGC 的典型案例，它们通过借鉴现有的、人类创造的内容来快速完成内容创作。

“新晋流量”ChatGPT的背后，AIGC是“昙花一现”？还是将引领人工智能进入新的时代？「AIGC 周报」将从【技术前瞻】【企业动态】【政策法规】【专家观点】带你快速跟进 AIGC 世界。

01 技术前瞻

OpenAGI：当大模型遇见领域专家

“愿原力与大型语言模型和领域专家同在。”

——由 ChatGPT 生成

人类的智慧有着将基础技能组合成复杂技能、进而解决复杂任务的卓越能力。该研究表示，除了开发大型、全面的智能模型外，为这些模型配备利用各种特定领域专家模型解决复杂任务的能力，对于实现通用人工智能（AGI）同样至关重要。

近期，大型语言模型（LLMs）展示了卓越的学习和推理能力，有望成为选择、综合和执行外部模型来解决复杂任务的控制器。该研究开发了一个名为 OpenAGI 的开源 AGI 研究平台，专门设计用于提供复杂的多步骤任务，并配备了特定任务的数据集、评估指标和多样化的可扩展模型。

OpenAGI 将复杂任务公式化为自然语言查询，作为输入传递给 LLMs。然后，LLMs 通过选择、综合和执行 OpenAGI 提供的模型来解决任务。此外，该研究提出了一种基于任务反馈的强化学习（RLTF）机制，使用任务解决结果作为反馈来改善 LLMs 的任务解决能力。以上，为自我改进的 AI 提供了一个反馈循环。

该研究认为，LLMs 操作各种专家模型解决复杂任务的范例，是实现 AGI 的一种有前途的方法。

论文链接：

https://arxiv.org/abs/2304.04370

清华、北邮团队：让文生图AI更懂你

文本-图像生成模型，包括自动回归和基于扩散的方法，在最近几年经历了快速的发展。然而，当前自我监督的预训练生成器还远远不够完美，一个主要的挑战在于使模型与人类的偏好相一致。

该研究提出了 ImageReward——第一个通用的文本到图像的人类偏好奖励模型——来解决生成模型中的各种普遍问题，并使它们与人类价值观和偏好保持一致。

这一模型的训练基于系统注释管道，涵盖评级和排名组件，收集了迄今为止 137000 个专家比较的数据集。在人类评估中，ImageReward 优于现有的评分方法（如比 CLIP 高出 38.6%），是文生图的理想自动评估指标。

下图展示了不同的文生图评分器中，从 64 个生成的图像中选出的 Top-1 图像。ImageReward 选择具有更好的文本连贯性和人类偏好的图像。在提示中，粗体大致表示内容，斜体表示风格或功能。

论文链接：

https://arxiv.org/abs/2304.05977

让霉霉笑得更开心，基于先验信息编辑人脸

在计算机视觉和图形学中，如何逼真地改变一张人像照片的光线、表情、头部姿势等，同时保留人物的身份和高频面部特征，是一个长期存在的问题。解决这个问题的难度，源于其根本上的欠约束性。

该研究解决了从同一个人的少量（如 20 张）肖像照片中学习特定个人面部先验信息的问题。使得编辑特定个人的外表（如表情和光线）同时保留他们的身份和高频面部细节成为可能。

该研究提出的名为 DiffusionRig 方法的关键是一个扩散模型，该模型以通过现场单个图像的现成估计器估计的粗略 3D 人脸模型为条件进行“装配”，学习将 3D 面部模型的简单渲染映射到给定人物的真实照片中。

DiffusionRig 采用粗略的物理渲染作为条件，以学习到的个人特征为基础来对输入图像进行编辑。编辑后的图像尊重渲染条件、保留身份信息，并展现高频面部细节。实验表明，DiffusionRig 在身份保存和真实感方面优于现有方法。

参考链接：

https://arxiv.org/abs/2304.06711

用“富文本”生成图像

纯文本已成为文生图的流行界面。然而，其有限的定制选项阻碍了用户准确描述所需的输出。例如，纯文本很难指定连续的数量，如精确的 RGB 颜色值或每个单词的重要性。

此外，为复杂场景创建详细的文本提示对于人类编写是繁琐的，对文本编码器来说也很难解释。为了应对这些挑战，该研究建议使用支持字体样式、大小、颜色和脚注等格式的富文本编辑器。

研究阐释了从富文本中提取每个单词的属性，以实现局部风格控制、显式标记重新加权、精确的颜色渲染和详细的区域合成，通过基于区域的扩散过程来实现这些能力。实验表明，这一方法在定量评估方面优于强基线。

此研究方法方法允许用户使用富文本编辑器描述图像，并支持各种文本属性，如字体族、大小、颜色和脚注等。根据从富文本提示中提取的这些文本属性，相较于普通文本，能够对文生图进行精确控制，涉及颜色、样式和物体细节。下图展示了分别采用普通文本（左图）与富文本（右图）生成的图片。

参考链接：

https://arxiv.org/abs/2304.06720

02 企业动态

微博：将在Q2面向大V测试AIGC创作助手

近日，微博运营高级副总裁曹增辉介绍，对于当前大热的AIGC，微博更多考虑在应用方面做尝试，将在2023年二季度面向大V测试AIGC创作助手，计划邀请100名创作者参与该项目。该助手旨在为创作者提效，通过学习大V的创作习惯，结合微博热点讨论内容，给创作者提供创作灵感。

知乎、面壁科技发布中文大模型“知海图AI”

近日，知乎创始人、CEO周源在知乎发现大会上宣布，知乎和面壁科技合作的中文大模型“知海图AI”正式开启内测。同时，基于人工智能的“热榜摘要”开启内测，对知乎热榜上的问题回答进行抓取、整理和聚合，并把回答梗概展现给用户。

亚马逊推出大模型“泰坦”及生成式AI服务Bedrock

据财联社报道，当地时间 4 月 13 日，亚马逊服务部门宣布，推出 Bedrock 生成式人工智能服务，以及自有的大型语言模型泰坦（Titan）。亚马逊表示其主要服务目标是企业客户，开发者可以使用其它公司的生成式人工智能来定制模型，包括 AI21 实验室、 Anthropic 和 Stability AI。

亚马逊称，Bedrock 目前处于有限预览阶段，Bedrock 最重要的功能之一是定制模型非常容易，客户只需要提供一些示例，该服务就可以针对特定模型进行微调，而无需注释大量数据，而客户的任何数据都不会用于训练底层模型。

Adobe：像编辑文字一样处理视频

近日，图像及视频生产力工具大厂Adobe发布公告，宣布旗下的视频创作应用Premiere Pro将被赋予一系列新的AI功能。这也是Adobe上个月发布AIGC创作功能“萤火虫”后的最新动作。综合Adobe的官方公告和演示视频，最大亮点就是基于文字的视频剪辑功能。顾名思义，这项功能的妙处就是让用户像编辑文字一样处理视频，极大地拉低了视频剪辑行业的门槛。Adobe透露，这项功能预期将在今年5月上线。

微软开源“傻瓜式”类ChatGPT模型训练工具

近日，微软宣布开源DeepSpeed-Chat，帮助用户轻松训练类ChatGPT等大语言模型，人人都有望拥有专属的ChatGPT。其核心性能与功能包括：

1.简化类ChatGPT模型训练、强化推理体验。
2.复刻了InstructGPT论文中的训练模式，同时将训练引擎与推理引擎共同整合到了一个统一混合引擎用于RLHF训练。
3.高效性和经济性：可将训练速度提升15倍以上，并大幅度降低成本。
4.卓越的扩展性：可支持训练数千亿参数模型，并在多节点多GPU系统上扩展性突出，只需1.25小时就可完成训练一个130亿参数模型。
5.实现RLHF训练普及化：仅凭单个GPU，就能支持训练超过130亿参数的模型。因此无法使用多GPU系统的数据科学家和研究者，不仅能创建轻量级RLHF模型，还能创建大型且功能强大的模型。（点击查看更多详情）

公开抵制后，马斯克重金入局大模型领域

据《科创板日报》报道，综合多家媒体消息，马斯克在美国内华达州成立了一家名为X.AI的人工智能公司，旨在与OpenAI展开竞争。据知情人士消息，马斯克正在从包括DeepMind在内的顶级AI实验室招募工程师。到目前为止，马斯克已成功邀请到了前DeepMind员工Igor Babuschkin，以及约6名其他工程师。

环球音乐施压流媒体禁用侵权AIGC作品

据财联社报道，控制全球音乐市场近三分之一份额的环球音乐，已经发函要求苹果、Spotify等流媒体平台封禁侵犯公司旋律、歌词版权的AI作品。环球音乐的发言人表示，对于旗下艺人而言，公司拥有道德和商业上的义务，阻止未经授权使用他们的音乐，以及要求平台停止使用侵犯他们权利的内容。环球音乐也希望平台合作方采取行动，阻止他们的服务被用来侵犯艺人权利。

03 政策法规

欧洲议会就AI法案接近达成共识

据财联社报道，相关人士称欧洲议会对一揽子人工智能产业立法的提案接近达成一致，标志着被ChatGPT打断的欧洲《AI法案》立法进程即将迈出重要一步。根据日程，欧洲议会的专门委员会将在 4 月 26 日对《AI法案》进行投票。

报道称，在准备提交的法案中，包含要求AI产品（如ChatGPT）明确公示训练大模型时是否使用了受版权保护的数据，这项立法的目的是保障版权所有人索要收入的权利。议员们还提出，诸如OpenAI这样的AI公司需要为程序被滥用承担责任，而不是由具体的使用者（如一些小型企业）承担全责。

法国国家信息自由委员会对ChatGPT发起指控

当地时间4月13日，法国国家信息自由委员会（CNIL）决定对ChatGPT提出5项指控，并展开调查。此外，欧洲数据保护委员会宣布成立专门工作组，以促进该调查在欧洲地区的合作事宜。欧洲数据保护委员会称，此次行动是在意大利数据保护局开始对ChatGPT立案调查之后做出的，并表示希望欧洲各国之间就针对ChatGPT采取的行动进行充分沟通。

西班牙数据保护局对ChatGPT展开调查

当地时间4月13日，西班牙国家数据保护局发表声明，称该机构已经正式对ChatGPT可能的违反法律行为展开初步调查程序。此前，西班牙国家数据保护局要求欧洲数据保护委员会将ChatGPT列为全体会议上需要重点讨论的一项主题，西班牙数据保护局认为需要在欧洲层面采取统一行动以应用《通用数据保护条例》。尽管，西班牙国家数据保护局在声明中为实施人工智能等创新技术进行了辩护，但同时指出实施创新技术的同时需要遵循现行法律法规。

日本总务省：致力于建设反映日本文化的AI基础模型

4月14日，日本总务省的专家会议公布了有关信息通信政策的报告草案，致力于建设反映日本文化的AI基础模型。这是因为，如果AI的学习数据偏重于英美文化，那么在日本人使用时，回答的准确度有可能降低。草案还强调，在AI相关人才争夺战日益激烈的形势下，完善日本的研发环境也很重要。

解除ChatGPT禁令？意大利当局列出要求

据财联社报道，意大利数据保护局（Garante）提出了一系列ChatGPT在该国恢复使用的要求。并表示在解决监管机构的担忧后，意大利当局将暂停对OpenAI处理该国用户数据的临时限制令，OpenAI也将再次在意大利开放。部分要求如下：

（1）OpenAI必须在其网站上发布信息，说明它如何以及为什么处理用户和非用户的个人信息，并提供更正或删除这些数据的选项。
（2）OpenAI必须在5月15日之前通过广播、电视、报纸和互联网展开宣传活动，告知人们该公司是如何使用他们的个人数据来训练算法。
（3）OpenAI必须在今年9月之前建立严格的年龄验证机制，过滤掉未满13岁的用户以及未经父母同意的13-18岁的青少年。有关这一机制的详细计划必须在5月31日之前提交给监管机构。

香港创科及工业局局长：对人工智能持开放态度

近日，香港创科及工业局局长孙东在接受采访时表示，ChatGPT引发全球关注，但OpenAI尚未正式对香港地区开放使用。人工智能技术正处在演变当中，香港特区政府将保持开放的态度，紧密关注技术发展，正在与业界商量合作，在生成式AI大模型、开源功能方面对香港做出独特贡献。此外，香港也在2月底发布的财政预算案上提出，就建立人工智能超算中心進行可行性研究，以推动本地科研和产业发展提供足够算力基础。

04 专家观点

Sam Altman：目前尚未开发GPT-5

OpenAI CEO Altman表示，马斯克等人呼吁将人工智能研发工作暂停六个月的公开信缺乏“技术细节”。他说：“我也认为需要谨慎行事，并提高人工智能的安全指导意见，但公开信中提到的方法并非正确的解决之道。”

Altman还表示，“目前还未开发GPT-5，而且在一段时间内也不会……LLMs 的规模可能正在接近极限，而且不是越大就越好，人们太关注参数数量了，我认为最重要的是提升性能。”

参考链接：

https://www.chinastarmarket.cn/detail/1323474

Martin Bouchard：AIGC很费电

加拿大数字基础设施公司QScale的联合创始人Martin Bouchard表示，基于生成式AI的每一次查询都将需要普通搜索引擎四到五倍的计算能力，能源消耗也自然大幅增加。Bouchard补充道，这还只是基于目前模型使用情况的预测，如果其应用面更广，AI的消耗规模可能就达到数百万人的等效用电量。

参考链接：

https://www.chinastarmarket.cn/detail/1322752

雷军发文谈大模型及AIGC：全力以赴，坚决拥抱

4月14日晚，雷军在微博写道，“小米在AI领域已经耕耘多年，有AI实验室、小爱同学、自动驾驶等团队。对于大模型，我们当然会全力以赴，坚决拥抱。我们正在研发一些有趣的技术和产品，等我们打磨好了，再给大家展示。”

据悉，近日小米集团发布内部邮件，任命栾剑担任技术委员会AI实验室大模型团队负责人。栾剑现任小米技术委员会AI实验室语音生成团队负责人。曾任东芝（中国）研究院研究员、微软（中国）工程院高级语音科学家、微软小冰首席语音科学家及语音团队负责人等职位。

澜舟科技周明：要警惕大模型对C端用户的误导

周明表示，在中国发展大模型，B端市场是座富矿，因为现在企业数字化转型都很急迫，但是都没有做到位，所以找到合适的场景，将大模型应用进去，这里的需求空间将会非常巨大。对于用户而言，B端用户本身是专家，问题不太大，但要警惕的是对C端用户的影响，因为一般用户没有能力判断机器回复的专业性和正确性，容易被误导。

参考链接：

https://www.chinastarmarket.cn/detail/1322662

｜点击关注我 👇 记得标星｜