- OpenAI 宣布 GPT-4 Turbo 模型正式在 ChatGPT 中推出
- Meta 和 OpenAI 计划发布更先进 AI 模型,解决更复杂任务
- Mistral 推出 Mixtral 8x22 开源模型,可通过Torrent 下载
- Adobe 购买视频构建 AI 模型与 Sora 竞争
- 微软 Win11“Moment 5”更新现已向所有用户推出,增加更多 AI 功能
- 蚂蚁集团 CodeFuse 推出“图生代码”功能,支持产品设计图一键生成代码
OpenAI 宣布 GPT-4 Turbo 模型正式在 ChatGPT 中推出该模型延续了 GPT-4 Turbo 系列 128000 个 token 的窗口大小以及截止至 2023 年 12 月的知识库,最大的革新之处在于其新增的视觉理解能力。在过去,开发者需要调用不同的模型来处理文本和图像信息,而 GPT-4 Turbo with Vision 则将两者合二为一,极大简化了开发流程,并带来了广泛的应用前景。面壁智能宣布完成新一轮数亿元融资,由春华创投、华为哈勃领投北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。
本轮融资将用于人才引入,大模型底层算力与数据基础构建,和大模型落地三个方向。
Meta 和 OpenAI 计划发布更先进 AI 模型,解决更复杂任务据OpenAI 首席运营官 Brad Lightcap 表示,OpenAI的下一版 GPT 将展示在解决推理等 "难题 "方面取得的进展。与此同时,Meta 也表示公司即将推出的 Llama 3 型号也将遵循类似的轨迹,预计将在未来几周内推出。让人工智能模型进行推理和规划是实现人工通用智能(AGI)的重要一步,Meta 和 OpenAI 都声称要实现这一目标。对于实现这一目标的公司来说,这一发展可能价值数万亿美元。
Mistral 推出 Mixtral 8x22 开源模型,可通过Torrent 下载
Mistral 今天宣布开源其全新大模型产品 Mixtral 8x22B,用户可以通过可以通过 Torrent 下载。据悉,Mixtral 8x22B 有 176B 个参数,上下文长度为 65K 个令牌。虽然体积庞大,但每个任务只使用较小的部分(44B),因此使用成本更低。Mixtral 8x22B的文件大小为 281GB,Mistral 已在 X上发布了它的 Magnet 链接。用户还可以在 HuggingFace 和 Perplexity AI Labs 上下载。
Adobe 购买视频构建 AI 模型与 Sora 竞争Adobe 已开始采购视频来构建其AI文本到视频生成器,试图赶上竞争对手。据报道,Adobe向其摄影师和艺术家网络提供 120 美元,让他们提交人们从事日常活动(如走路或表达喜怒哀乐等情绪)的视频。提交视频的报酬平均约为每分钟 2.62 美元,但也可能高达每分钟 7.25 美元。该公司写道,这样做的目的是为人工智能培训寻找素材。在过去的一年里,Adobe 一直致力于为其面向创意专业人士的软件组合(包括 Photoshop 和 Illustrator)添加生成式人工智能功能。该公司发布了使用文本生成图像和插图的工具,迄今已被使用数十亿次。
微软 Win11“Moment 5”更新现已向所有用户推出,增加更多 AI 功能据微软官方消息,Windows 11“Moment 5”更新已正式面向所有用户推送。带来了一系列的 AI 功能。更新之后,用户可以体验到 Voice Access 功能的新增,该功能使得跨窗口操作变得更加容易,同时还可以在 Voice Access Commands 窗口中设置语音快捷方式,例如复制粘贴文本、打开特定文件或应用程序等。此外,Microsoft 还为屏幕阅读工具添加了多种自然语音,用户可以在 Windows11的辅助功能部分找到这些改进。Snap Layout 功能也得到了更新,它现在通过 AI 提供更智能的窗口布局建议。通过转到系统 > 多任务处理,用户可以轻松启用 Snap Layout 功能,并根据自己的喜好进行设置。此外,Windows11的 Photos 应用现在还具备了 AI 驱动的 Magic Eraser 功能,用户可以使用它轻松移除照片中的不需要的内容。只需在工具栏中选择 Magic Eraser,然后突出显示要移除的内容,即可让 AI 完成照片的清理工作。Moment5更新还引入了一些其他功能,包括自定义小部件分类和 C o p i l o t 功能的推出。
蚂蚁集团 CodeFuse 推出“图生代码”功能,支持产品设计图一键生成代码据36氪报道,蚂蚁集团自研的智能研发平台 CodeFuse 推出“图生代码”新功能,支持开发人员用产品设计图一键生成代码,大幅提升前端页面的开发效率,目前相关功能正在内测。据悉,蚂蚁集团正在内部全面推行 AI 编程,使用 CodeFuse 支持日常研发工作的工程师达到 50% 以上,这些工程师提交的代码中 10% 由 AI 生成。目前,在蚂蚁内部,每周已有超五成程序员在日常研发中使用 CodeFuse。CodeFuse 生成的代码整体采纳率为 30%,在生成单元测试场景采纳率可以达到 50%。《Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking》论文提出了一种基于少量示例的推理学习方法,使用可学习的标记来指示思想的开始和结束,以及扩展的teacher-forcing技术,从而解决了生成推理的计算成本、模型不知如何生成或使用内部思想以及需要预测超出单个下一个标记的关键问题。实验结果表明,Quiet-STaR可以在不需要对任务进行微调的情况下,显著提高语言模型的预测能力,尤其是对于难以预测的标记。https://arxiv.org/abs/2403.09629v2
《Benchmarking Object Detectors with COCO: A New Path Forward》COCO数据集的注释存在一些错误和缺陷,可能会影响其在目标检测领域的可靠性和准确性,本文试图解决这个问题。本文提出了一种更加准确的COCO数据集注释方法,称为COCO-ReM,通过修正COCO-2017数据集中的错误和不完善之处,使得目标检测模型在COCO-ReM上的表现更加准确和稳定。https://arxiv.org/pdf/2403.18819v1.pdf
《ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion》本论文旨在解决扩散模型在图像编辑中生成违反物理定律的图像的问题,特别是对象对场景的影响,例如遮挡、阴影和反射。通过分析自监督方法的局限性,提出了一种基于“反事实”数据集的实用解决方案。该方法通过在删除单个对象之前和之后捕获场景,同时最小化其他变化,从而在反事实数据集上微调扩散模型,能够不仅删除对象,还能删除对象对场景的影响。此外,为了解决逼真的对象插入问题,提出了引导监督方法,利用在小型反事实数据集上训练的对象删除模型,可以大大扩展数据集。https://arxiv.org/abs/2403.18818v1
《Garment3DGen: 3D Garment Stylization and Texture Generation》
本论文的问题是如何通过单个输入图像来生成3D服装模型,并且可以直接在人体上进行模拟。这是一个新的问题。论文的关键思路是使用图像到3D扩散方法生成3D服装几何形状,并将其作为伪地面真值,通过网格变形优化过程将基准网格变形以匹配生成的3D目标。其次,引入了精心设计的损失函数,使得输入基准网格可以自由变形,同时保留网格质量和拓扑结构,以便进行模拟。https://arxiv.org/abs/2403.18816v1
