6月17日 AI 头条｜抖音联合博纳出品AIGC科幻短剧集，即梦AI提供技术支持

划重点:

抖音联合博纳出品AIGC科幻短剧集，即梦AI提供技术支持
软银宣布与 Perplexity AI 搜索引擎达成战略合作
英伟达宣布开源 Nemotron-4 340B 系列模型
研究人员表示，GPT-4已经通过了图灵测试
苹果 Apple Intelligence 功能将分批上线，重磅功能要等到明年
OpenAI 或将改组为营利性公司
Meta 将推迟在欧洲推出 AI 聊天机器人
北大快手联合推出视频生成框架VideoTetris
哈佛神经科学家和谷歌DeepMind 在虚拟老鼠中创建人工大脑
麦当劳即将停止与 IBM 合作推行的 AI 点单测试项目
腾讯混元推出“Follow Your Emoji”

资讯详情：

抖音联合博纳出品AIGC科幻短剧集，即梦AI提供技术支持

据 36氪报道，上海国际电影节期间，由博纳影业AIGMS制作中心出品制作，抖音联合出品的AIGC科幻短剧集《三星堆：未来启示录》正式亮相。即梦AI作为首席AI技术支持方，为该剧提供生成式人工智能技术支持。据了解，该剧集是传统影视公司与AIGC视频产品首次联合开发AIGC科幻短剧集。

软银宣布与 Perplexity AI 搜索引擎达成战略合作

据日本软银官方消息，软银已经和 AI 公司 Perplexity 达成战略合作，将向软银用户开放Perplexity Pro 一年免费试用的申请。

Perplexity Pro 是 AI 搜索引擎 Perplexity 的付费订阅版本，提供更多专业搜索次数、自选 AI 模型、限量上传及分析文件等功能，一年订阅价值 29500 日元。

据悉，Perplexity 今年 4 月获得来自软银和德国电信 6270 万美元投资，公司估值超 10 亿美元

英伟达宣布开源 Nemotron-4 340B 系列模型

据英伟达官方消息，英伟达发布了 Nemotron-4 340B 模型系列，包括 Nemotron-4-340B-Base 、Nemotron-4-340B-Instruct 和 Nemotron-4-340B-Reward 。

英伟达表示，这些模型在各种评估基准上的表现与开放访问模型相比具有竞争力，并且在以 FP8 精度部署时，其大小适合配备 8 个 GPU 的单个 DGX H100。在各种研究和商业应用中，特别是在生成用于训练较小语言模型的合成数据时，社区可以从这些模型中获益。值得注意的是，在模型对齐过程中，超过 98% 的数据都是合成的，这展示了这些模型在生成合成数据方面的有效性。

研究人员表示，GPT-4已经通过了图灵测试

据 Live Science 报道，OpenAI 去年 3 月份推出的大语言模型 GPT-4，在研究人员所进行的实验中的表现虽然还不及人类参与者的平均水平，但已达到了图灵测试的通过标准。

而最终的结果表明，GPT-4 在 54% 的时间里被误认为是人类，此前推出的GPT-3.5 则是在 50% 的时间里被误认为是人类，没有大语言模型或神经网络支持的 ELIZA，则是在 22% 的时间里被误认为是人类。当时并未发布 GPT-4o，如果参与测试，被误认为人类的结果可能更高。

苹果 Apple Intelligence 功能将分批上线，重磅功能要等到明年

Mark Gurman 透露，苹果 Apple Intelligence 的功能将会分批上线，其中部分功能需要等到 2025 年才能上线。

“Apple Intelligence”仍将在 2024 年秋季上线，但并不会包含 WWDC24 上展示的所有功能。因此，最初发布时将带有“预览版”的标签，以表明其仍处于开发阶段。一些主要的缺失功能包括 Siri 理解设备内容、语义索引、允许人工智能控制设备以及屏幕感知功能，所有这些功能都将在 2025 年某个时候上线。不过Gurman 也表示，今年秋季发布的“Apple Intelligence”仍然有一些值得把玩的特性。

OpenAI 或将改组为营利性公司

据 The Information 报道，OpenAI CEO Sam Altman 对公司股东们表示，该公司正在考虑将其治理结构转变为该公司非营利性董事会无法控制的营利性公司。

OpenAI 对此回应称，他们仍然专注于打造让所有人受益的 AI，非营利组织是他们使命的核心，并将继续存在。据分析，这样的变化可能会为 OpenAI 进行首次公开募股（IPO）铺平道路，目前 OpenAI 公司估值为 860 亿美元。这也会让 Altman 有机会入股 OpenAI 公司。

Meta 将推迟在欧洲推出 AI 聊天机器人

据 TechCrunch报道，Meta 此前表示，将会利用用户的发帖内容来训练大语言模型。而在上周五，Meta 表示，该计划在欧洲将会被无限期推迟。

Meta 在一篇博文中写道，这是欧洲创新、AI 开发竞争以及 AI 好处带给欧洲人民的进一步进程的倒退。用欧洲用户帖子训练大模型的计划暂停后，Meta AI 聊天机器人也将推迟在欧洲地区推出。

北大快手联合推出视频生成框架VideoTetris

据 GitHub 页面显示，北京大学与快手AI团队合作推出了一款名为VideoTetris的新框架，可以生成细节复杂的视频。

VideoTetris框架首次定义了组合视频生成任务，包括两个子任务:1）跟随复杂组合指令的视频生成;2) 跟随递进的组合式多物体指令的长视频生成。团队发现，几乎所有现有的开源模型和商用模型都未能生成正确的视频。例如，输入"左边一个可爱的棕色狗狗，右边一只打盹的猫在阳光下小憩"，结果生成的视频往往融合了两个物体信息，显得怪异。

哈佛神经科学家和谷歌DeepMind 在虚拟老鼠中创建人工大脑

据 Nuture 杂志显示，哈佛大学研究人员与谷歌DeepMind团队合作，利用人工智能技术为虚拟老鼠创建了一个人工大脑，能在复杂环境中精确控制其运动。

研究团队利用真实老鼠数据，建立了生物力学逼真的3D老鼠模型。DeepMind的深度强化学习算法为该模型训练了一个人工神经网络（ANN）大脑，使其能通过逆动力学模型精准产生各种复杂运动轨迹和力量。

麦当劳即将停止与 IBM 合作推行的 AI 点单测试项目

据 Restaurant Business 报道，麦当劳已经向经销商发布通知，将在2024年7月26日前，终止与IBM 合作的 AI 点单测试项目。

据报道，在 2021 年与 IBM 合作后，该公司将从 100 多家测试该系统的餐厅中移除该技术。但目前还不清楚该公司为什么要终止与 IBM 的合作。不过麦当劳表示，目前的测试数据让他们有信心让汽车餐厅语音点餐解决方案在成为我们餐厅未来的一部分。据悉，双方合作的部分目的是开发一个名为 "Ask Pickles "的聊天机器人，员工可以用它来指导清洁冰淇淋机等工作。

腾讯混元推出“Follow Your Emoji”

据 Arxiv 页面显示，腾讯混元携手香港科技大学和清华大学，共同研发出一款名为“Follow Your Emoji”的创新肖像动画生成框架。

这项技术突破了传统界限，仅需一张静态照片，即可将其转化为栩栩如生的面部动画，捕捉并再现人物的微妙表情变化。用户只需上传一张照片，系统便能迅速生成一系列生动的面部表情，无论是夸张的大笑还是微妙的眨眼，都能轻松呈现。依托于先进的算法和庞大的数据支持，“Follow Your Emoji”能够对脸部进行极为精细的控制，包括眉毛的微挑、眼珠的转动，甚至是翻白眼等细节动作。

今日重点论文：

微软：

《Can Language Models Serve as Text-Based World Simulators?》

论文旨在探讨当前语言模型是否能够作为文本世界模拟器，避免手动编码所需的高昂成本和复杂性。为此，研究人员建立了一个新的基准测试 ByteSized32-State-Prediction，包含文本游戏状态转换数据集和相关游戏任务，以直接量化LLM作为文本世界模拟器的能力。通过建立基准测试，使用GPT-4模型对文本游戏状态进行预测，发现LLM作为文本世界模拟器的表现仍不可靠，需要进一步创新。

论文地址：

https://arxiv.org/abs/2406.06485v1

斯坦福大学：

《OpenVLA: An Open-Source Vision-Language-Action Model》

OpenVLA是一个7B参数的开源VLA模型，利用970k真实世界机器人演示数据进行训练，结合了Llama 2语言模型和DINOv2、SigLIP预训练特征的视觉编码器。论文展示了OpenVLA在多个机器人实体和29个任务中的表现优于RT-2-X（55B）等封闭模型，同时在多任务环境下展现了强大的泛化能力和良好的语言基础能力。

论文地址：

https://arxiv.org/abs/2406.09246v1

马里兰大学：

《The Prompt Report: A Systematic Survey of Prompting Techniques》

建立提示术语的分类体系，解决术语混淆的问题。建立了包括33个术语的分类体系，分别涵盖了58种文本提示技术和40种其他提示技术。同时进行了自然语言前缀提示的元分析。论文提供了一个全面的提示技术术语表，为研究者提供了一个统一的语言。同时，通过元分析提供了对自然语言前缀提示的深入理解。

论文地址：

https://arxiv.org/abs/2406.06608v1

Google DeepMind

《Transformers meet Neural Algorithmic Reasoners》

本论文旨在解决使用Transformer模型进行算法推理时的脆弱性问题，提出了一种将Transformer与图神经网络（GNN）结合的新型方法TransNAR。TransNAR模型将GNN中的节点嵌入与Transformer中的语言理解相结合，通过两阶段训练过程实现节点嵌入与Transformer中的token的交互，从而提高算法推理的准确性和鲁棒性。

论文地址：

https://arxiv.org/abs/2406.09308v1