#奥特曼ChatGPT用法错了##大模型思维链作用在下降#
奥特曼使用大模型的方法,竟然是错的?
沃顿商学院等机构的研究发现,备受奥特曼喜爱的“直接回答”提示,竟然会显著降低模型准确率。【图1】
就比如,“直接回答”和“思维链提示”(CoT)这种,效果其实并不如预期,甚至还有副作用。
具体来说:
1. “直接回答”准确率下降
- 奥特曼主推的“just answer”策略,研究发现会显著降低模型准确率;
- 特别是在高标准下,表现比“默认模式”差不少。
2. 思维链提示CoT,也没那么神
- 对于推理模型(如o3-mini、o4-mini),加入“Think step by step”提示提升非常有限,甚至可能拖慢回答速度;
- o3-mini时间成本+80%,准确率只涨4.1%;
- Gemini 2.5 Flash更是提示越多,效果越差。
3. 非推理模型情况更复杂
- CoT对非推理模型有一定提升,但提高的是“平均准确率”,不是稳定性;
- 在“100%准确率”这种严格标准下,部分模型表现反而更差;
- 而且计算成本也在飙升。
4. 默认模式反而是最稳妥的选择
- 越来越多模型内置了推理机制和提示模板;
- 这意味着:很多“CoT”、“直接回答”的显式提示,反而可能干扰模型判断;
- 默认模式(无额外提示)+高质量数据,或许是当前最理智的用法。
看来对于直接使用模型应用的用户来说,默认设置就已经是一种很好的使用方式了。奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
研究报告地址:网页链接
奥特曼使用大模型的方法,竟然是错的?
沃顿商学院等机构的研究发现,备受奥特曼喜爱的“直接回答”提示,竟然会显著降低模型准确率。【图1】
就比如,“直接回答”和“思维链提示”(CoT)这种,效果其实并不如预期,甚至还有副作用。
具体来说:
1. “直接回答”准确率下降
- 奥特曼主推的“just answer”策略,研究发现会显著降低模型准确率;
- 特别是在高标准下,表现比“默认模式”差不少。
2. 思维链提示CoT,也没那么神
- 对于推理模型(如o3-mini、o4-mini),加入“Think step by step”提示提升非常有限,甚至可能拖慢回答速度;
- o3-mini时间成本+80%,准确率只涨4.1%;
- Gemini 2.5 Flash更是提示越多,效果越差。
3. 非推理模型情况更复杂
- CoT对非推理模型有一定提升,但提高的是“平均准确率”,不是稳定性;
- 在“100%准确率”这种严格标准下,部分模型表现反而更差;
- 而且计算成本也在飙升。
4. 默认模式反而是最稳妥的选择
- 越来越多模型内置了推理机制和提示模板;
- 这意味着:很多“CoT”、“直接回答”的显式提示,反而可能干扰模型判断;
- 默认模式(无额外提示)+高质量数据,或许是当前最理智的用法。
看来对于直接使用模型应用的用户来说,默认设置就已经是一种很好的使用方式了。奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
研究报告地址:网页链接