ChatGPT翻译水平堪比普通译员但10年以上经验专家仍优于大模型

Fahmi Ruddin Hidayat/iStock

来源：IEEE电气电子工程师学会

This article is part of our exclusive IEEE Journal Watch series in partnership with IEEE Xplore：https://spectrum.ieee.org/tag/ieee-xplore。

几年前，在机器翻译等任务上，人类的表现明显优于机器学习算法。但如今，两者之间曾经清晰的能力界限正在变得模糊。

在最近一项研究中，研究人员将多款大语言模型（LLM）的翻译能力与专业人类译者进行对比，结果发现：只有拥有10年及以上经验的持证专家，才能明显超越这些模型。而在某些翻译维度上，模型表现反而优于人类。该研究成果已于12月15日发表在《IEEE大数据汇刊》上：https://ieeexplore.ieee.org/document/11300973。

中国杭州西湖大学工学院副院长Yue Zhang指出，过去二十年间，机器学习算法的能力发生了“重大范式转变”，并特别提到新一代大语言模型的性能实现了巨大飞跃。但这些模型在翻译任务上的实际表现究竟如何？

他表示：“尽管过去已有模型宣称达到‘人类水平’，但相关结论一直存在争议。我们希望跳出模糊的对比，用更科学的方式，把大语言模型的表现和不同层级的专业译员做对标 —— 从初级到资深译员逐一校准。”

在该研究中，译员等级定义如下：

初级译员：拥有1–2年翻译行业经验
中级译员：拥有3–5年翻译经验，或为目标语言母语者
资深译员：至少10年翻译经验，且持有中国翻译专业资格（水平）考试（CATTI）权威证书 —— 这是中国翻译领域的国家级标准。

研究人员让人类译者与包括GPT-4、ALMA-R、Deepseek-R1在内的大语言模型，对同一批文本样本进行翻译。团队聘请了6名专业标注人员对译文质量进行评估，且评估过程中不知道哪些译文来自人类、哪些来自模型。

研究要求两组对象完成多种语对翻译，既有中英这类常见语对，也包括中-印地语这类相对少见的语对。

结果显示，GPT-4的翻译能力已与初级、中级人类译者相当。Yue Zhang指出，这很可能是人类历史上首次有算法在翻译质量上达到了人类水平。

在包含约200个句子的文本段落翻译测试中，研究覆盖8组语言对。

GPT-4平均出现3.71处重大翻译错误
初级译员平均3.27处
中级译员平均3.30处
资深译员译文质量最高，平均仅1.83处重大错误

在处理小语种/冷门语对（如中译印地语）时，人类与模型的错误率都明显上升。

不过，人类与模型的错误类型截然不同：大语言模型有时会过于直译、生硬。人类则相反，在面对模糊、歧义表述时，容易过度脑补、自行补全含义。例如，研究中一名人类译者把短语entering his second year错误理解为“婴儿满两岁”，而原文实际是在描述进入第二年的运动员。Yue Zhang评价道：“这既是人类译者的优势，也是短板。”

研究显示，人类译者比大语言模型更容易出现过度解读类错误。但正是这种对语言语境的深度理解能力，也让资深译员能够精准处理更细腻、更有隐含意义的文本片段。Yue Zhang表示，在需要高精度、文化适配或复杂创意解读的任务（如文学作品）中，资深人类译者仍然不可或缺。但他同时指出，已有初步迹象表明这一局面正在改变。

他提到，在研究中：“深度推理模型DeepSeek R1尤其擅长避免重大翻译错误，这意味着具备推理能力的模型（如OpenAI o1、GPT-5、DeepSeek v3.2），或许是缩小与资深人类译者差距的关键。”

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。

ChatGPT翻译水平堪比普通译员 但10年以上经验专家仍优于大模型

ChatGPT翻译水平堪比普通译员但10年以上经验专家仍优于大模型