终于，GPT-4.1全量上架ChatGPT：大家都看好我，偏偏我也争气

编辑｜蛋酱、Sia

很好，今天一打开 ChatGPT 主页，发现 GPT-4.1 和 GPT-4.1-mini 上线了。

截屏2025-05-15 09.54.52.png

很多人还记得，最开始，OpenAI 并没有打算让 GPT-4.1 和 GPT-4.1 mini 上线 ChatGPT，只是面向开发者推出了 API。

因为这两个模型的定位，自诞生那一天就是「OpenAI o3 和 OpenAI o4-mini 的替代方案」，用来满足开发者更简单的日常编程需求。

一般来说，GPT-4o 是可以解决大部分日常任务的，所以我们日常对话一般默认用这个模型。除非是特别需要推理能力的对话，我们会切换到 o 系列。

而 GPT-4.1 和 GPT-4.1-mini，就更适合编程和分析，谈不上如 GPT-4o 一般全能，但在精确指令执行和 Web 开发任务方面比 4o 更加强大。

似乎有「一些用户」向 OpenAI 有关部门反馈了什么，所以 OpenAI 说：自 4 月份在 API 中推出以来，GPT-4.1 就成为了开发人员的最爱。应群众的要求，我们直接在 ChatGPT 上线 GPT-4.1 了。

就好像麦当劳的脆薯饼老师，本来只需要在早餐时段工作，上午十点半就下班。后来在群众的呼吁下，变成了全日制员工：

截屏2025-05-15 10.53.52.png

不幸的是，GPT-4o mini 的位置已经被顶替，悄悄从 ChatGPT 中下架了。

喜欢 GPT-4o 的人们不必担心，这款通用模型短时间内应该不会离开。

截屏2025-05-15 14.34.33.png

只能说这个庞大的模型家族里，每一位都有属于自己的命运。

这次「转正」来得也不算意料之外。当时，GPT-4.1 是拿到了非常不错的测试得分：

编程：GPT-4.1 在 SWE-bench Verified 测试中得分为 54.6%，比 GPT-4o 提升 21.4%，比 GPT-4.5 提升 26.6%，使其成为领先的编程模型。
指令遵循：在 Scale 的 MultiChallenge 基准测试（衡量指令遵循能力的指标）中，GPT-4.1 得分为 38.3%，比 GPT-4o 提升了 10.5%。
长上下文：在多模态长上下文理解基准测试 Video-MME 中，GPT-4.1 创下了新的最高纪录 —— 在长篇无字幕测试中得分为 72.0%，比 GPT-4o 提升了 6.7%。

但 OpenAI 特别强调过，他们训练这两个模型时重点关注了实际效用。连奥特曼自己也宣传，GPT-4.1 是专注真实世界的实用性的。

现在的问题是，面对新上线的 GPT-4.1 和 GPT-4.1-mini，我们这种非开发者身份（但每个月都在交会员费）的 ChatGPT 用户能用它们来做点什么好玩的事情？

我们先是在网络上看到了一些博主的整活，还是先说编程的事。

有博主给了 GPT-4.1 一段简短的提示词："create something I can paste into p5js that will startle me with its cleverness in creating something that invokes the control panel of a starship in the distant future"（“创造一些我可以粘贴到 p5js 中的东西，让我惊叹于它的聪明才智，创造出一些可以调用遥远未来星际飞船控制面板的东西 "。）

它的结果是这样的。博主的评价是「Not bad」，还不错。