今日arXiv最热NLP大模型论文：微软发布：大模型时代的可解释机器学习，现状与挑战

夕小瑶科技说原创
作者 | 谢年年、Python

自深度学习开启了人工智能的黑盒模式，模型的可解释性一直都是专家学者讨论研究的重点。

为什么可解释性问题这么重要？

举一个简单的例子：让模型给出一个未来房价的预测，如果使用深度学习，则会使用一连串的非线性函数的叠加公式得到一个预测结果。但这对人类来说是难以理解的，数学公式或者是一堆向量特征难以定义结果的可信赖性。

特别是大语言模型虽然在各种复杂的NLP任务中展现出惊艳的效果，但我们对“为什么大模型有如此强大的能力”这一问题仍处于初步探索阶段。数据量与模型参数量暴增的LLMs似乎让我们离可解释性越来越远。

当然，LLMs带来的不仅仅是挑战，或许也是一场关于可解释性学习技术的变革，或者说新思路。

今天介绍的这篇文章来自微软，认为LLM提供了重新思考可解释性的机会。LLM可直接自然语言与人类进行交流，这提供了比深度学习时代更加详尽的解释。

比如，用户可以直接对LLM发问：“你能解释一下你的逻辑吗？”，“为什么你的回答不是（A）？”，或者“给我解释一下这个数据”，并获得即时、相关的回答。

因此结合数据相关的落地和处理技术，LLM能够以易理解的文本表达以往难以理解的模型行为和数据模式。但实现这一目标目前需应对幻觉问题（即不正确或无凭据的解释）、LLM的巨大规模、高成本及不透明性等挑战。本文详细阐述了LLM时代可解释性技术的机遇与挑战，以及技术方法。

论文标题:
Rethinking Interpretability in the Era of Large Language Models

公众号「夕小瑶科技说」后台回复“Rethinking ”获取论文pdf。

1. 背景：可解释性的定义与评估

定义

"可解释性"的概念在没有上下文的情境下模糊不清，其准确定义取决于解释的目的和受众。对于可解释的机器学习，通常关联于特定的技术，如特征归因、显著性图和透明模型。

然而，（LLM）的解释范围更广、表达能力更强。本文采用[1]提出的可解释定义，将LLM可解释定义为从LLM中提取与数据或模型学习到的关系相关的知识。此定义适用于解释LLM及其生成的解释，且强调提取“相关的”知识，即对特定问题和受众有用的信息。例如，在代码生成中，相关解释可帮助用户快速集成LLM生成的代码；在医疗诊断中，相关解释可评估预测的可靠性。

评估

LLM可解释性与人类合作

评估可解释性的理想方式是，它在真实世界环境中与人类合作是否能改善所需的结果。相比之下，仅仅评估人类对解释的判断并不充分，因为这不一定能转化为实际改进效果。最近的一项元分析发现，用NLP解释来配合人类完成任务，可以产生意想不到的好效果。这种评估的一个重要组成部分是互补性的概念，即解释帮助LLM与人类相互补充，而不是孤立LLM与人类。

自动化指标

尽管人类评估最为真实，但自动化指标（可以在不涉及人类的情况下计算）对于简化和扩展评估尤为理想。使用LLM本身进行评估越来越流行，但需避免偏见。减少偏见的一种方式是将LLMs作为结构化评估过程的一部分，针对特定问题进行定制，而不是直接查询LLMs以获取评估分数。评估解释的方法包括衡量解释模拟函数行为的能力、评估LLM在合成数据上的表现，以及衡量解释恢复真实函数的能力。在问答设置中，自动化指标可用于衡量解释对答案准确性的影响。

解释改善模型性能

评估解释的最后一种途径是通过验证解释是否改变或者改善了模型性能的能力。例如，当使用事后解释方法生成的解释与LLM的解释对齐时，few-shot准确性会有所提高，或者使用从LLM中提取的解释进行压缩。此外，在推理期间（而不是训练期间）使用few-shot解释可以显著提高few-shot LLM的准确性。

除了一般性能外，解释还可以用于克服模型的特定缺点。例如，一系列研究识别和解决LLM学到的捷径/虚假相关性。则可以使用模型编辑功能，对某些模型行为进行精确修改，以增强整体性能。

2. 研究思路

下图展示了作者进行LLM可解释研究的思路概览图：

探讨LLM为可解释性研究提供的独特的机会和挑战。机会包括LLM支持自然语言交流，以及可交互性的解释。挑战则有幻觉问题、模型大小、成本等方面。
探讨解释LLM的方法。主要分为局部解释或全局解释两种角度。局部解释传统的方法有特征归因方法，最近多使用LLM本身来产生解释，比如事后自然语言（NL）解释，要求LLM在其生成过程中构建解释，或通过思维链、检索来增强解释。而全局解释则包括利用注意力机制进行LLM内部归因等方法。
探讨LLM可解释的新兴领域——直接解释数据集。在这种设置中，给LLM一个新的数据集（可以由文本或表格特征组成），帮助人类更好的分析数据。基于LLM的数据集解释技术非常多样化，包括帮助构建可解释模型，生成NL解释，生成NL解释链，或构建数据可视化等。

接下来，将详细介绍每个部分。

3.LLMs的解释性挑战与机遇

LLM解释性面临的机遇

LLMs提供了独特的解释性机会，能够以自然语言的形式与人类对话，解释复杂的模式。此外，自然语言可以用来构建人类与其他模态之间的桥梁，例如DNA、化学化合物或图像，这些可能是人类难以独立解释的。在这些情况下，自然语言允许通过不同粒度级别的解释、可能基于证据或反事实讨论来表达复杂概念。
LLMs能够生成交互式解释。交互性允许用户根据自己的独特需求定制解释，例如通过提问后续问题和对相关示例进行分析;与决策者进行交流，主要都以自然语言对话的形式。交互性进一步允许将LLM解释分解为许多不同的LLM调用，每个调用都可以独立审计。

LLMs解释性面临的挑战

幻觉问题。LLM会产生一些不正确或无根据的解释。幻觉解释不仅没有用甚至可能会误导用户，因此识别和对抗幻觉的技术对于LLM解释性的成功至关重要。
LLMs的巨大性和不透明性。随着LLMs的参数规模从数十亿迅速增长到数千亿，人类检查和理解其内部单元变得不切实际。由于生成单个标记都涉及高昂的计算成本，LLMs通常无法在本地运行，只能通过特定的文本API访问。因此，高效的解释算法变得至关重要，这些算法无需完全访问模型（如模型权重或梯度），即可提供必要的解释。

4. LLMs的解释性方法

在探讨LLMs的解释性方法时，可以从局部解释和全局/机械性解释两个层面来理解。局部解释关注于单一生成的解释，而全局与机械性解释则涉及对LLMs整体的理解。以下是对这两种方法的详细阐述。

局部解释：单一生成的解释

局部解释旨在解释LLMs产生的单一输出。这种方法对于在高风险场景中理解和使用LLMs至关重要，例如在医疗保健领域。

token级归因

在语言模型中提供局部解释的最简单方法是为输入token提供特征归因，为每个输入特征分配了一个相关性分数，反映了它对模型生成输出的影响。已经开发了多种归因方法，包括基于扰动的方法、基于梯度的方法以及线性近似方法。最近已针对transformer模型进行了特别调整，以解决离散token embedding和计算成本等特挑战。除了特征归因，LLMs内部的注意力机制提供了可视化token对生成内容的贡献程度，尽管其忠实性和有效性尚不清楚。

以自然语言直接生成局部解释

LLMs具备直接以自然语言生成局部解释的能力，这种解释不仅能够阐明模型的预测，还能模拟反事实情景，并细致入微地表达不确定性。然而，自然语言解释仍可能受到幻觉和不准确性的影响，特别是在事后生成解释时。

一种有效的方法是将解释过程与答案生成紧密结合。例如，CoT要求LLM在提供答案之前，先逐步展示其推理过程。通过确保最终答案与先前的逻辑步骤保持高度一致，通常能够产生更精确和忠实的解释。此外，通过在推理过程中引入扰动并观察其对最终输出的影响，可以进一步测试该方法的稳健性。

另一种方法是检索增强生成（RAG）。LLM在其决策过程中引入了检索步骤，通过使用文本嵌入在参考语料库或知识库中进行搜索，使得输出的信息可以被明确检查，从而更容易解释LLM在决策过程中使用的证据。

全局解释：整体理解LLMs

全局解释旨在从宏观层面理解LLMs的工作原理，不同于仅关注个别生成的解释。它对于模型审计、偏见识别、隐私保护和安全性提升至关重要，有助于构建更高效、可信的LLMs。

为了全面理解LLMs，研究人员运用多种方法总结其行为和机制。这些方法通常需要访问模型权重，因此不适用于仅通过文本API访问的模型，如GPT-4。

探针技术

探针技术理解神经网络表示的流行方法之一，通过分析嵌入信息、测试模型能力等方式来解码模型表示。在LLMs背景下，探针技术已发展到分析注意力头、嵌入及表示的不同方面，直接解码输出标记以揭示不同位置和层次的信息处理方式。

更细粒度的层面

除了探针技术，研究还关注LLMs表示的细粒度层面。这包括从单个神经元中分类或解码概念，以及用自然语言解释注意力头的功能。此外，研究还集中在理解神经元组如何协同工作以执行特定任务，如间接对象识别、实体绑定等。这些分析有助于定位功能而非完全解释神经网络回路。

理解训练数据分布对LLM的影响来解释LLM

该方法需要访问LLM的训练数据集，而这通常是未知或无法访问的。如果数据已知，研究人员可以使用诸如影响函数的技术来识别训练数据中的重要元素。还可以研究模型行为如何由训练数据中的模式产生，例如在长尾数据存在时的幻觉，在重复训练数据存在时的幻觉，或与正确推理相矛盾的统计模式。

LLM解释性改进下游任务性能

借助LLM的交互性，各种解释技术得以进一步优化，让用户能够借助后续查询和调整提示来深入研究模型的不同组件。以Talk2Model为例，它提供了一个自然语言界面，使用户能够通过对话与表格预测模型进行交互，间接利用多种模型可解释性工具。

这些解释技术不仅有助于提升下游任务的性能，而且当前的研究重点——模型编辑、改进指令遵循和模型压缩——也为解释的验证提供了有力支持，同时为增强LLM的可靠性提供了有效途径。

5.LLMs在数据集解释中的应用

随着大语言模型（LLMs）在上下文长度和能力上的改进，它们可以被利用来解释整个数据集，而不仅仅是解释LLMs或其生成物。这对于数据分析、知识发现和科学应用非常有帮助。

下图展示了不同粒度的数据集解释，数据集解释使用LLM理解一个新的数据集(由文本或表格特征组成)。低级别的解释更忠实于数据集，但需要更多的人力来提取有意义的理解。而高级别的解释则更加自动化并为下游任务提供额外的信息。

接下来我们将详细介绍这些方法。

1. 表格数据的解释

交互可视化表格数据

由于LLMs能够无缝理解代码、文本和数字，并将这些多样化的输入统一处理，LLMs得以通过交互式方式可视化并深入分析表格数据。例如，ChatGPT Code Interpreter为用户提供了一个平台，使他们能够上传数据集，并通过直观的文本界面构建数据可视化。这种能力不局限于简单的数据可视化，更涵盖了数据框的自动生成、数据整理的自动化，乃至全面的数据分析。

挖掘深层次规律

LLMs具备直接分析已拟合至表格数据的模型的能力，从而能够深入挖掘数据集中的潜在模式。这种数据集解释方法不同于传统方法，它侧重于通过模型来理解数据中的深层次规律。最近的研究展示了LLMs如何有效分析广义加性模型（GAMs）——一种特别适用于表格数据的可解释模型。GAMs可以表现为一组曲线，每条曲线代表了一个特定特征对输出预测的贡献，并随着该特征值的变化而波动。LLMs通过将这些曲线视为数字令牌的集合，能够精确地检测和描述每条曲线中的模式，从而实现对拟合模型及其背后数据集的深入解析。

2. 文本数据的解释

文本数据的解释与表格数据不同，因为它是稀疏的、高维的，并且建模它需要许多高阶交互。因此，在表格领域成功的可解释模型（例如稀疏线性模型、GAMs、决策树等）在准确建模文本方面遇到了困难。

构建可解释文本模型

最近的研究利用LLMs来构建完全可解释的文本模型，如线性模型或决策树，以解决数据集解释的问题。这些模型通过明确指出哪些特征（即单词或n-grams）对预测不同结果至关重要，为数据集提供了直观的解释。

解释链

还利用提示链来分解LLM的决策过程，从而分析模型从数据集中学习的模式。这些链通常由人类构建或通过实时查询模型生成。对于数据集解释而言，最相关的链是由LLM生成的一系列解释。

自然语言解释

自然语言解释具有生成丰富而简洁的数据集模式描述的潜力，但也可能出现幻觉。为解决这一问题，有学者提出iPrompt，搜索以单个提示形式出现的数据集解释，并验证该提示是否能引导LLM准确预测底层数据集中的模式。相关方法还利用LLMs提供区分数据集中不同组的描述，并由LLM验证这些描述的可信度。

6.未来研究方向

1. 提升解释可靠性

当前，LLMs在生成解释时面临若干关键挑战。其中之一是“幻觉”问题，即所生成的解释可能是错误或缺乏依据的。此外，LLMs对提示语句的微小变动极为敏感，这种敏感性可能导致输出内容发生实质性变化。

因此，未来的研究需要致力于提高解释的可靠性，确保解释能够在不同情境下保持一致性，并且与模型的预测或输入事实紧密相关。

2. 用于知识发现的数据集解释

使用LLMs进行数据集解释可帮助从数据中生成和发现新知识，而不仅仅是帮助加速数据分析或可视化。

数据集解释最初可以帮助在科学假设的层面上进行头脑风暴，然后由人类研究者筛选或测试。后来，LLMs的解释可以帮助使用自然语言理解其他不透明领域的数据，如化学化合物或DNA序列。这些方法可以与实验数据相结合，产生新的思路。

3. 交互式解释

LLMs的进展有望实现更加以用户为中心的交互式解释的开发。LLM解释和后续问题已经在各种LLM应用中得到整合，例如交互式任务规范化，推荐系统以及涉及对话的广泛任务。

7.结论

本文探讨了可解释机器学习的领域，特别是LLMs带来的新机遇和挑战。LLMs通过其强大的自然语言生成能力，为深入解释数据模式和模型行为提供了新途径，使复杂信息更易理解。尽管存在幻觉问题、计算量大、不透明性等挑战，但未来LLMs有望提供可靠且易于理解的复杂信息解释，推动机器学习可解释性的发展。

公众号「夕小瑶科技说」后台回复“Rethinking ”获取论文pdf。

参考资料

[1]W. James Murdoch, Chandan Singh, Karl Kumbier, Reza Abbasi-Asl, and Bin Yu. Definitions, methods, and applications in interpretable machine learning. Proceedings of the National Academy of Sciences of the United States of America, 116(44):22071–22080, 2019.