
上周精选 ✦
Open AI 发布 Canvas 功能和实时API[2]
Canvas
Open AI 在产品和交互上终于开窍了。在 Claude Artifact 的基础上迭代优化发布了 Canvas。
主要为了解决沟通和长文写作在原来的交互下不兼容的问题。不过最重要的能力直接渲染代码结果还没有,估计还在开发,不过这也太慢了 Poe 都支持了。
可以对预览界面的结果通过交互按钮快速修改。也支持选中部分结果跟 ChatGPT 对话之修改这一部分。界面右侧根据输出结果是文字还是代码有不同的快捷方式。
当输出结果是文本的时候快捷按钮是:
•建议编辑:ChatGPT 提供内联建议和反馈。•调整长度:编辑文档长度使其更短或更长。•更改阅读级别:调整阅读级别,从幼稚园到研究生院。•添加最终修饰:检查语法、清晰度和一致性。•添加表情符号:为强调和色彩添加相关的表情符号。
当输出结果是代码的时候快捷按钮是:
•审核代码:ChatGPT 提供了改进代码的内联建议。•添加日志:在代码中插入打印语句以帮助调试代码。•添加注释:添加注释以使代码更容易理解。•修复错误:检测和重写有问题的代码以解决错误。•将代码转换为其他语言:将代码转换为 JavaScript、TypeScript、Python、Java、C++或 PHP。
Realtime API[3]
OpenAI 还在最近的 DevDay 上宣布了Realtime API、提示缓存、模型蒸馏和视觉微调。
与 ChatGPT 的高级语音模式类似,实时 API 支持使用 API 中已支持的六种预设语音(在新窗口中打开)进行自然语音对话。但是非常贵。
实时 API 使用文本标记和音频标记。文本输入Token的定价为每 100 万美元 5 美元,每 100 万个输出Token定价为 20 美元。音频输入的价格为每 100 万个Token 100 美元,输出的价格为每 100 万个Token 200 美元。
微软发布新版Copilot[4]
微软憋了半年多的大招终于发布了,对Copilot进行了彻底的重构,基本可以看作一个跟系统结合更深入的ChatGPT,尤其是可以查看你现在系统打开的网页图片等内容,这个很强。
随时拉起的实时语音功能也非常方便,主要内容有:
Copilot Voice:看起来是 ChatGPT高级语音的微软版本界面更加舒服,四种声音可以选择。
Copilot Daily:用你选择的声音在早上阅读新闻和天气,而且还有更多个性化内容,比如你的待办。
Personalized Discover:会在首页引导你提问问题,随着你跟 Copilot 交流的数量变多,这里的问题也会跟你更相关。
Microsoft Edge 中的 Copilot:
内置到 Microsoft Edge 浏览器中,帮助回答问题、总结页面内容、翻译文本或重写句子。
通过在地址栏中简单输入@ copilot,可以快速跟 copilot 交流。
Copilot Vision:可以理解正在查看的网页,包括文本和图像,并可以回答有关内容的问题,建议下一步操作。
系统级的视觉助手还是很厉害的,希望微软可以优化好。
Think Deeper:Copilot 可以推理更复杂的问题。
深度思考在做出回应之前需要更多时间,能够提供详细和逐步的回答以解决具有挑战性的问题。
可以检验一下微软AI的新领导 Yusuf Mehdi 交出的答卷了,目前iOS APP可以体验新的界面和交互,但是语音之类的还没上。
Meta 发布 Meta Movie Gen 视频音频生成模型系列[5]
Meta 终于开始对视频生成下手了,发布了 Meta Movie Gen 系列视频相关生成模型。
从演示来看质量很高,尤其是自动配音和视频编辑能力,其中自动配音的一个滑板演示,滑板落地的声音可以准确跟上画面的表现。
模型主要包括:
Movie Gen Video:30B 模型,单个文本提示生成高质量、高清晰度的图像和视频。
Movie Gen Audio:13B transformer模型,可以接受视频输入以及可选的文本提示用于可控性,生成与视频同步的高保真音频。
Personalized videos:可以自动剪辑视频,使用生成或现有视频以及附带的文字说明作为输入,可以执行本地化编辑,如添加、删除或替换元素。
虽然模型本身没有开源,但是技术报告[6]本身却写的非常详细。
他们视频模型负责人还总结了一些要点[7]:
•Meta Movie Gen 是一个纯粹的 Transformer 架构模型,不是DiT,还使用了流匹配 (flow matching) 技术。•视频生成模型的自动评估完全不可用,他们全部依赖人类评估,花了大量精力将视频评估分解为多个独立的质量和对齐维度。•数据质量至关重要!他们在论文中详细介绍了如何进行过滤和清理,可以仔细看看。•消融实验中发现,流匹配(flow matching) 在质量和对齐方面优于扩散模型。它的使用也非常稳健。
LiquidAI 发布非 Transformer 模型 LFMs[8]
融资4000万美金的LiquidAI终于交了自己的第一次发布。
LFMs 种从第一原则构建的非Transformer模型,包括1B、3B 和 40B三个版本。
两个小模型在各个维度的测试分数都碾压其他同规模模型。
在内存占用和推理效率上表现非常出色:
即使是40B的MoE模型在相同硬件下推理速度也非常快。在处理长内容输入的极限条件下,比现有Transformer模型的内存占用低非常多。
这个1B和3B小模型看起来甚至比苹果的更适合在端侧部署。
这里试用 LFMs 模型[9]。

其他动态 ✦
•Sora 项目负责人宣布离开 OpenAI[10],加入谷歌 Deepmind。•Herdra 发布新的对口型模型 Character -2[11]。支持更多比例的图片,取消长宽比限制;大幅提升生成质量,清晰度更高表现力更强。•Black Forest Labs 发布 FLUX Pro 1.1[12],不开源,生成速度比其前身 FLUX.1 快六倍还提高了图像质量、提示依从性和多样性。•Coframe 发布基于GPT-4o视觉模型微调的UI界面生成模型[13],还开发了一个专门针对这个类型模型的测试基准 DesignAlign 。•Open AI 的新一轮融资还是完成了[14],66 亿美元,现在估值 1570 亿美元。•Pika 加入战场,发布 PIKA 1.5 模型[15],具有更逼真的动作,还有指定物理效果的 Pikaaffects 功能。•Luma 直接将现有模型的生成速度提到了了 20 秒以内[16],没有搞 Runway 那种蒸馏的 turbo 小模型。•
可灵发布对口型能力,API全量开放[17],图片、视频、虚拟试穿全部上线,充钱就能用。增加了创意圈功能,发布短片官方审核通过一条给666 积分。
产品推荐 ✦
Bolt:全流程的 AI 代码工具[18]
终于有个产品把 AI 代码生成这一套做全了。StackBlitz 推出 bolt. new,可以看作 Artfacts V0 和 Replit 的结合体。
支持提示、编辑、部署的全栈流程带有完整的开发环境可以实时预览生产结果。最重要的是每天都有免费额度。
而且这个项目还是开源的:https://github.com/stackblitz/bolt.new[19]
Open NotebookLM:开源的Notebook ML[20]
使用开源 AI 模型(Llama 3.1 405B、MeloTTS、Bark)将 PDF 转换成播客。
Wispr Flow :语音输入工具[21]
Wispr Flow 是一个基于人工智能的语音输入工具,它能够让用户通过语音快速输入文本,支持超过 100 种语言,并且能够在任何应用程序中使用。
该软件具有自适应的语音识别能力,可以根据用户所使用的应用程序和对话风格来调整语音输入的风格和内容,从而更好地匹配用户的个人写作风格。
Wispr Flow 还具备上下文感知能力,能够准确识别并正确拼写名字等特殊词汇。此外,它还提供了命令模式,允许用户通过语音对文档进行编辑和控制。
Podial:从文档生成播客[22]
另一个类似Notebook的产品,不过把播客生成单独拿出来了,而且生成的播客质量还不错。
Graphy :图表美化和AI分析工具[23]
Graphy 是一个数据可视化平台,它使任何人都能成为一名技术数据讲述者,通过简化数据的展示和传达方式,帮助用户创建引人注目的图表。
Graphy 的 AI 功能可以帮助用户添加数据并自动生成图表和关键见解,为演示文稿或 Slack 中的分享做好准备。
用户还可以通过视觉注释和一键增强功能(如目标和趋势线)来使数据更有意义,并通过故事讲述来传达见解。、
精选文章 ✦
Notebook LM 的产品设计 Jason Spielma 分享软件的构建过程[24]
Notebook LM 的产品设计 Jason Spielman 说了一下他们是如何开发出这个火爆的产品的:
1.关键在于与用户共同构建产品,而不仅仅是为他们构建。不要等到产品完全开发好才发布,而是尽早发布并持续迭代。2.原生集成而非外部附加:需要构建全新的、AI 原生的产品。3.音频概览之所以出色,不仅因为它们听起来很棒,更重要的是因为 (1) 内容可靠,基于原始资料 (2) 提供了一种简单的一键式方式来学习和消化你自己的信息。4.会议时间用于实际开发,而不仅仅是讨论如何开发。
Lex Fridman 访谈了Cursor 创始团队[25]
Lex Fridman 访谈了Cursor 创始团队,这一期干货非常多。
他们详细介绍了 Cursor 的技术细节、AI 在编程中的应用、对未来 AI 编程的看法以及Cursor 团队的理念。这里有我整理的要点。
Andrej Karpathy 用 Notebook LM 生成了系列历史播客[26]
Andrej Karpathy 又在整大活,这几天跟 Notebook LM 杠上了。
只用两个小时就创建了一个十集的播客系列,主题是历史的神秘。
工作流程可以借鉴一下:
1)使用 ChatGPT、Claude、Google 进行了一些主题研究 2)将 NotebookLM 与每个主题的维基百科条目链接在一起,并生成了播客音频 3)也用 NotebookLM 编写播客/剧集描述。4)用表意文字为各集和播客本身创作所有数字艺术 5)Spotify 将上传和托管播客
Notebook LM 的系统提示[27]
jaden老哥套出了 Notebook LM 的系统提示。核心是主持人和专家这两个角色的设定:
主持人负责以饱满的热情突出有趣观点;专家则提供深入分析、背景信息和更宏观的视角。
其他的部分都是常见的总结要求。
Notebook LM 能做这么好和 Gemini 优秀的上下文长度和多模态表现是分不开的。原始的系统提示是诱导Notebook LM用播客的形式说出来的。
什么是 AI 智能体 (AI Agents) —— 谁从中获利?[28]
探讨了 AI 智能体这一新兴领域。AI 智能体是能够自主执行复杂工作流程的先进 AI 模型,代表了 AI 技术从简单的输入-输出任务向更复杂的多步骤流程的重大转变。文章讨论了以下几个关键方面:
•智能体工作流:与传统 AI 模型直接提供答案不同,智能体工作流涉及使用网络浏览器等工具来规划和执行任务,能够在无人干预的情况下持续运行。•竞争格局:AI 智能体的开发已成为科技巨头和初创公司的主要焦点。企业在五个关键组成部分上展开竞争:数据输入、模型、工具、界面和"AI 集成系统"(这一系统整合了上述所有组成部分)。•市场动态:主要存在两类 AI 智能体公司:一类是专注于改进大语言模型 (Large Language Models, LLMs) 的模型驱动型初创公司,另一类是致力于优化用户界面和系统集成等其他组件的工作流应用公司。•投资趋势:大量资金正在涌入 AI 智能体的开发领域,OpenAI 和 Anthropic 等公司处于领先地位。文章指出,由于涉及的利益巨大,研究已从开放模式转向保密开发。•未来前景:AI 智能体有潜力彻底改变各个行业,但目前的应用仍然有限。文章提出,要充分发挥它们的潜力,还需要在科学上取得突破性进展。
重点研究 ✦
FLUX.1-schnell 的去蒸馏模型[29]
有人发布了 FLUX.1-schnell 的去蒸馏模型。
FLUX.1-schnell 由于本身是蒸馏模型所以不能对其进行微调,这个老哥发布这个现在可以进行微调了。现在拥有正常 CFG 值,推理管道也跟原来的不太一样。看他发的示例图确实挺好的。
Open AI 开源了一个新的 Whisper turbo 模型[30]
Large v3 模型的蒸馏模型,运行速度提升了8倍,显存 (VRAM) 使用效率提高了40% 准确度仅有微小降低,太猛了,在使用Whisper的服务可以替换了。
当语言模型经过推理优化后,是否仍会出现自回归现象?对 OpenAI o1 的分析[31]
这篇论文研究了OpenAI新推出的o1语言模型。
o1是专门优化过推理能力的模型,和之前主要训练预测下一个词的语言模型不同。研究者想看看o1是否还会受到概率影响,比如更容易处理高概率的输出和常见任务。
结果发现,o1在很多任务上表现都比之前的模型好,特别是在一些罕见的任务变体上。但是它仍然显示出了一些概率敏感性,比如在处理低概率输出时准确率较低,需要使用更多token。
这说明即使经过专门的推理优化,语言模型可能还是无法完全摆脱概率的影响。
简单快速地蒸馏扩散模型[32]
提出了一种名为"简单快速蒸馏"(SFD)的方法,可以大大加快扩散模型的采样速度。
相比现有方法,SFD的训练时间缩短了1000倍,但生成图像的质量几乎不变。
SFD的核心思想是简化现有的蒸馏方法,只在少数时间步上进行训练,而不是在整个轨迹上训练。作者还提出了一个变体SFD-v,可以用单个模型实现不同步数的采样。
实验表明,SFD在多个数据集上都取得了很好的效果,特别是在少步数采样时表现突出。
麻省理工研究:和未来的你对话[33]
研究表明,“未来自我连续性”[34] (个人对未来自我的连续性感觉)的增强如何对储蓄行为、学业成绩、心理健康和主观生活质量产生积极影响,我们基于网络的互动聊天平台同样试图通过加强用户与未来的虚拟版本的自我的关系来帮助用户发展更长期的思维和行为。
与未来的自己的对话是通过大型语言模型实时生成的,该模型根据评估用户未来目标和个人品质的干预前调查进行了个性化。
Depth Pro:快速生成深度图[35]
苹果发布了Depth Pro ,能够在不到一秒的时间内从单个 2D 图像生成详细的 3D 深度图,而无需依赖传统上进行此类预测所需的相机数据。可合成具有无与伦比的清晰度和高频细节的高分辨率深度图。预测是公制的,具有绝对比例,不依赖于元数据(例如相机内在参数)的可用性。而且该模型速度很快,在标准 GPU 上可在 0.3 秒内生成 2.25 兆像素的深度图。这些特性是通过许多技术贡献实现的,包括用于密集预测的高效多尺度视觉变换器、结合真实数据集和合成数据集以在精细边界追踪的同时实现高度量精度的训练协议、估计边界精度的专用评估指标。深度图,以及来自单个图像的最先进的焦距估计。
英伟达 EdgeRunner:3D模型生成[36]
提出了一种自回归自动编码器 (ArAE) 模型,能够以 512 的空间分辨率生成具有多达 4,000 个面的高质量 3D 网格。
引入了一种新颖的网格标记化算法,该算法可以有效地将三角形网格压缩为一维标记序列,从而显着提高训练效率。此外,模型将可变长度的三角形网格压缩到固定长度的潜在空间中,从而能够训练潜在扩散模型以实现更好的泛化。
很多朋友在国内买一些海外 AI 产品和视听产品的时候很麻烦,
自己用不了那么多额度,而且支付和激活又各种问题,可以试试银河录像局 https://nf.video/GabVo ,
提供了非常全的海外产品合租服务,使用优惠码:GUIZANG还有不同程度的优惠。
想要玩 Stable Diffusion AI 画图但是没有好的硬件的可以看一下揽睿星舟,
做了很好的适配可以一键部署 SD 价格也很划算。最近还上线了优化的非常好的Comfyui,感兴趣可以试试
https://www.lanrui-ai.com/register?invitation_code=9778
感谢大家看到这里,也可以分享给更多的朋友,让大家都有机会了解这些内容。
References
[1]
💎查看更多风格和提示词: https://catjourney.life
[2]
Open AI 发布 Canvas 功能和实时API: https://openai.com/index/introducing-canvas/
[3]
Realtime API: https://openai.com/index/introducing-the-realtime-api/
[4]
微软发布新版Copilot: https://blogs.microsoft.com/blog/2024/10/01/an-ai-companion-for-everyone/
[5]
Meta 发布 Meta Movie Gen 视频音频生成模型系列: https://ai.meta.com/research/movie-gen/
[6]
技术报告: https://ai.meta.com/static-resource/movie-gen-research-paper
[7]
一些要点: https://x.com/Andrew__Brown__/status/1842262328617672725
[8]
LiquidAI 发布非 Transformer 模型 LFMs: https://www.liquid.ai/liquid-foundation-models
[9]
这里试用 LFMs 模型: https://labs.perplexity.ai/
[10]
Sora 项目负责人宣布离开 OpenAI: https://x.com/_tim_brooks/status/1841982327431561528
[11]
Herdra 发布新的对口型模型 Character -2: https://x.com/hedra_labs/status/1841875930299425131
[12]
Black Forest Labs 发布 FLUX Pro 1.1: https://blackforestlabs.ai/announcing-flux-1-1-pro-and-the-bfl-api/
[13]
GPT-4o视觉模型微调的UI界面生成模型: https://www.coframe.com/post/coframe-works-openai-to-develop-first-of-its-kind-ui-code-generation
[14]
Open AI 的新一轮融资还是完成了: https://openai.com/index/scale-the-benefits-of-ai/
[15]
发布 PIKA 1.5 模型: https://x.com/pika_labs/status/1841143349576941863
[16]
Luma 直接将现有模型的生成速度提到了了 20 秒以内: https://x.com/LumaLabsAI/status/1840820602296320083
[17]
可灵发布对口型能力,API全量开放: https://klingai.kuaishou.com/release-notes
[18]
Bolt:全流程的 AI 代码工具: https://bolt.new/
[19]
: https://github.com/stackblitz/bolt.new
[20]
Open NotebookLM:开源的Notebook ML: https://huggingface.co/spaces/gabrielchua/open-notebooklm
[21]
Wispr Flow :语音输入工具: https://www.flowvoice.ai/
[22]
Podial:从文档生成播客: https://podial.ai/
[23]
Graphy :图表美化和AI分析工具: https://graphy.app/
[24]
Notebook LM 的产品设计 Jason Spielma 分享软件的构建过程: https://x.com/jayspiel_/status/1842243021955633278
[25]
Lex Fridman 访谈了Cursor 创始团队: https://www.youtube.com/watch?v=oFfVt3S51T4
[26]
Andrej Karpathy 用 Notebook LM 生成了系列历史播客:
https://x.com/karpathy/status/1841594123381571863
[27]
Notebook LM 的系统提示: https://x.com/op7418/status/1841106814349557820
[28]
什么是 AI 智能体 (AI Agents) —— 谁从中获利?: https://every.to/napkin-math/what-are-ai-agents-and-who-profits-from-them-7c91ab09-316b-4109-94a4-14f416b3e351
[29]
FLUX.1-schnell 的去蒸馏模型: https://huggingface.co/ostris/OpenFLUX.1
[30]
Open AI 开源了一个新的 Whisper turbo 模型: https://huggingface.co/openai/whisper-large-v3-turbo
[31]
当语言模型经过推理优化后,是否仍会出现自回归现象?对 OpenAI o1 的分析: https://arxiv.org/abs/2410.01792
[32]
简单快速地蒸馏扩散模型: https://arxiv.org/abs/2409.19681v1
[33]
麻省理工研究:和未来的你对话: https://futureyou.media.mit.edu/
[34]
未来自我连续性”: https://doi.org/10.1111/j.1749-6632.2011.06201.x
[35]
Depth Pro:快速生成深度图: https://github.com/apple/ml-depth-pro
[36]
英伟达 EdgeRunner:3D模型生成: https://research.nvidia.com/labs/dir/edgerunner/
[37]
即刻: https://okjk.co/r1Ju8n
[38]
推特: https://twitter.com/op7418
[39]
Quail订阅: https://quail.ink/op7418
[40]
guohao631@gmail.com: mailto:guohao631@gmail.com