Py学习  »  aigc

OpenAI ChatGPT推首个深度研究连接器,可AI洞察GitHub代码库;腾讯混元视频生成工具全新开源丨AIGC日报

创业邦 • 2 月前 • 90 次点击  

1.【腾讯混元视频生成工具全新开源】腾讯混元宣布,5月9日正式推出并开源全新的多模态定制化视频生成工具Hunyuan Custom。该模型基于混元视频生成大模型(Hunyuan Video)打造,主体一致性效果超过现有的开源方案。Hunyuan Custom融合了文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制力和生成质量的智能视频创作工具。(腾讯网)


2.【英伟达开源OCR代码推理AI模型:LiveCodeBench基准超OpenAI o3-Mini和o1(low)】科技媒体marktechpost发布博文,报道称英伟达开源其Open Code Reasoning(OCR)模型套装,含32B、14B和7B三种参数规模,均采用Apache 2.0许可证发布,模型权重和配置已在Hugging Face平台开放下载。OCR模型套装提供三种参数规模,分别为OpenCodeReasoning-Nemotron-32B、14B和7B,均使用Nemotron架构(一种为多语言、多任务学习优化的 transformer 框架)训练。


32B模型面向高性能推理和研究场景,提供顶尖效果;14B模型在降低计算需求的同时保持强大推理能力;7B模型则适合资源受限的环境,仍能在基准测试中展现竞争力。此外,32B模型还推出了指令微调版本,支持与开放推理生态系统无缝兼容,适配llama.cpp、vLLM、Hugging Face Transformers和TGI等主流框架,方便开发者快速集成。(IT之家)


3.【AWS神秘AI编程工具曝光!支持多模态交互,生成代码“近乎实时”】据外媒Business Insider独家报道,亚马逊云科技(AWS)正在秘密开发一款代号为“Kiro”的AI编程工具。该工具通过多模态界面与AI Agent协同,旨在实现“近乎实时”的生成代码,重构软件开发流程。


Kiro的核心亮点在于多模态交互能力:其内置的AI Agent可实时调用知识库、第三方插件及主题工具,结合用户业务场景与技术框架生成代码;覆盖从技术设计文档自动生成、实时代码编写到漏洞检测的全流程,并支持Stripe支付接口集成、云服务配置等“一键式”开发功能;Kiro还能自动生成技术设计文档、标记潜在问题,并通过集成第三方AI Agent提升适配性。若成功推出,Kiro或将颠覆传统编程模式,直面微软Copilot、谷歌等巨头的竞争,并进一步加剧AI编程工具市场的竞争。(搜狐)


4.【OpenAI ChatGPT推首个深度研究连接器,可AI洞察GitHub代码库】报道称OpenAI推出了ChatGPT的首个“深度研究连接器”(deep research connector),实现与GitHub的深度整合。开发者现在可以直接将自己的GitHub代码库连接到ChatGPT,AI将深入分析代码结构、实现模式以及相关文档,快速生成详细的研究报告或技术总结。(搜狐)


更多AIGC资讯……

扫码订阅AIGC产业日报,
精选行业新闻,帮你省时间!👇


此外,如果您还想查公司、找项目、看行业,深入了解人形机器人、商业航天、AGI等热门赛道,欢迎加入睿兽分析会员,解锁相关行业图谱和报告等。(活动期间加入会员可免费获赠一份产业日报)👇👇




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/181985
 
90 次点击