【科研资讯】AIGC军事大模型评估体系框架研究

DOI：10.16358/j.issn.1009-1300.20240112

【推荐阅读】张龙，王数，雷震，等. AIGC军事大模型评估体系框架研究［J］. 战术导弹技术，2025 （1）：42-52.

张龙王数雷震冯轩铭杨波

（军事科学院系统工程研究院，北京 100101）

▲ 识别二维码，访问全文

摘要生成式人工智能（AI-Generated Content，AIGC）关键技术突破推动多模态大语言模型（Multimodal Large Language Models，MLLMs）军事垂直领域应用过程中存在评估体系评估指标不够健全的问题，为解决此问题，采用自顶向下正向设计与自底向上聚合评估相结合的方法，构建包含智能化军事需求—智能化场景任务—系统性能评估—体系效能评估的“四域”，与基础支撑服务—算法指标体系—综合安全防护的“三维”军事大模型评估体系框架，提出评估大模型的主要维度、关键指标和基本流程，并定性定量相结合给出相应评估指标体系，为军事大模型赋能装备体系和作战效能提供评估支撑。

关键词生成式人工智能（AIGC）；多模态大语言模型（MLLMs）；军事大模型；智能化；评估；体系效能；体系框架

1 引言

以多模态大语言模型（Multimodal Large Language Models，MLLMs）为代表的生成式人工智能（Artificial Intelligence Generated Content，AIGC），通过深度神经网络学习数据模式和规律，能够泛化生成原创内容^［1］。此类新兴技术正推动军事垂直领域决策式AI向生成式AI转型，专用AI向通用AI转型^［2］。AIGC凭借其低成本高效率高质量的内容生成，成为新质战斗力生成新的增长点。由此针对军事大模型技术性能和功能发挥的评估工作重要性紧迫性凸显^［3］。军事大模型开发运用过程中评估工作的重要性在于：（1）军事大模型的可解释性不强，需要通过评估提升其可解释性；（2）军事大模型的可靠性无法得到有效保障，需要通过评估提高其可信任性^［4］；（3）军事大模型应用部署代价很高，需要通过评估提升其效益性；（4）军事大模型还存在伴生技术风险问题，需要通过评估确保其安全性。

为积极解决大模型开发应用上、中、下游的相关问题，学界和利益相关方在大模型评估中进行了积极的探索与实践。一是系统分析评估，Jhong^［5］、Li^［6］、Yu^［7］等在军事垂直领域内通过系统分析开展定性评估，从功能属性、阶段划分、任务分类等视角出发系统分析了大模型评估的维度。二是指标量化评估，Burns^［8］、Long^［9］等对杀伤链闭合过程中机器学习算法的贡献程度，大模型生成合成数据过程中数据忠实度（Data Faithfulness）和数据多样性（Data Diversity）程度进行量化。三是功能测试评估，赵睿卓^［3］、Tian^［10］、Hendrycks^［11］等对大语言模型中自然语言理解、推理和内容生成的主要数据测试集进行了梳理。四是任务场景评估，Mitchell^［12］、Freeman^［13］等通过模拟仿真和A-B测试对比，评估了不同智能化程度对装备体系和作战效能的影响和贡献。

上述评估方法从不同维度对AIGC军事大模型进行了评估，但也存在不同程度的局限。系统分析一般从战略层面和宏观角度划定大模型评估的目标和准则，有助于框定发展目标方向、制定发展原则路径，但颗粒度较大，在技术实现和评估实践上操作性不足；指标量化评估针对大模型的具体特性提出了评估指标与量化方法，但在指标聚合上还是以专家判断和定性为主，不能客观反映大模型内部涌现机理；功能测试评估在军事大模型评估中囿于数据真实性和保密性，不能设计较为客观准确的测试数据集；任务场景评估主要是基于任务满足度和作战效能的对比评估，没有很好揭示“黑盒”真相。综上所述，碍于当前研究对大模型内部可解释性、涌现机理和外在泛化迁移能力的评估体系不健全、方法不适配，导致对其赋能军事垂直领域的对齐、涌现和泛化迁移机理认知把握不够深刻，需要强化大模型评估顶层设计，提出较为全面的评估框架和评估指标体系。

2 军事大模型评估框架

军事大模型的评估体系框架是军事大模型系统整体性能的重要基石及确保大模型在军事领域准确高效处理数据、稳定可靠承载业务、安全可信落地应用的关键。军事大模型评估框架主要由“四域三维”构成，如图1所示。

▲ 图1 军事大模型评估体系框架示意图 ▲ Fig.1 Schematic diagram of military large model

evaluation system framework

“四域”指面向用户端的智能军事需求域，即大模型技术赋能作战效能、装备体系及国防和军队建设等不同领域的需求场景；智能场景任务域，即大模型技术的主要任务与子任务，主要任务可以按照智能化技术功能分为分类、回归、聚类、检测、生成等，子任务可以分为文本分类、命名实体识别、信息抽取、数学推理、因果推理、常识推理等具象化的智能化技术应用场景；系统性能域，主要是指大模型技术对外输出表现出来的性能，即可解释性、可拓展性、可信任性、可审查性、鲁棒性等；体系效能域，主要是指智能化装备体系的自主性、协同性、学习性，由其涌现迁移产生的新质战斗力，主要通过作战模拟仿真进行验证评估^［12］。

“三维”主要指评测过程中共用基础和共同调用的技术和资源，包括基础支撑服务维，主要对大模型在处理数据和生成预测值时所消耗的计算资源和条件进行评估；算法指标体系维，主要指具体到算法层面的指标，体现算法的基础性能，如精准率、召回率、F1值等；综合安全防护维，主要指对大模型的风险、伦理道德、偏见性等进行的对齐和评估。

在评估过程中，“四域”依次展现逻辑映射关系，前一域为后一域的输入，先从智能军事需求域明确评估任务。其次，转化成为智能场景任务域的适用情境，次映射评估任务场景的外在表现性能。然后，在算法层面对应相应的具体指标，定性定量结合的指标。最后，通过一定聚合算法融合后，对应到大模型成熟度。“三维”为大模型评估的基础支撑，在评估过程中调用支撑。

3 军事大模型评估体系

3.1　智能军事需求

智能军事需求是经过统筹任务需求、技术可能和经济成本后，依据若干约束条件框定形成，通常按照大模型技术增效提质赋能的军事任务场景集合及其优先顺序来确定，也可按照作战指挥行动、军队建设活动、装备建设发展等垂直领域中实际需求来确定，如图2所示。

▲ 图2 智能化军事需求示意图▲ Fig.2 Schematic diagram of intelligent military requirements

3.2　智能场景任务

智能场景任务是军事需求在智能化技术中的落地和具化，根据模态提供者（单模态、多模态）、应用服务者（理解、生成）和应用消费者（交互、融合）的组合，如图3所示。根据军事需求，军事大模型智能任务一般分为回归、分类、聚类、检测等基本任务，通常要覆盖文本分类、命名实体识别、信息抽取、数据结构化处理与决策、数学推理、因果推理、常识推理、任务分解、文本问答、代码理解、长文本理解、静态图像分类、静态图像分割、目指检测、动态图像分类、行为识别、声纹识别、音频问答、环境音分类、图文检索、图片问答、视觉空间关系、视觉语言推理、视觉蕴含、视频检索、视频问答、智能对话、图表推理、文音检索、视频异常检测、有声视频检索、有声视频问答、摘要总结、机器翻译、文本改写、代码生成、半结构化数据生成、文本生成图片、图片生成文本描述、文本生成视频、视频生成文本描述、文本生成有声视频、语音合成语音识别、语音翻译等具体子任务。例如，静态图像分割是把图片分成若干个特定的、具有独特性质的区域并提取感兴趣目标的技术和过程，可用于天基预警系统传输的数量庞大的图片数据，替代人工识图。

▲ 图3 智能场景任务示意图▲ Fig.3 Schematic diagram of intelligent scenario tasks

3.3　系统性能评估

大模型的系统性能主要体现在能够完成专项任务的能力，典型应用为专门领域内装备系统闭合OODA环的杀伤链，如防空反导系统，从侦察发现、目标识别、跟踪锁定、目指传送、发射打击、毁伤评估整个过程中，通过智能化手段缩短杀伤链时间。在智能系统层面，系统性能主要是由算法指标体系聚合表达的可解释性、可拓展性、可用性、鲁棒性、效率、可信性等特征，如图4所示。例如，作为衡量模型性能的关键因素，可信性通常由包括查准率（Precision）、查全率（Recall）、简洁性（Brevity）和结果置信度（Confidence Score）等指标项，按照不同任务要求采取不同聚合方法或权重得到的性能指标^［14］。可扩展性用于衡量大模型能否适应未来技术发展和应用需求的变化，包括对基座大模型版本升级、专业小模型、领域知识库和工具插件的扩展升级及系统功能扩展和二次开发能力的支持^［15］。可用性是衡量大模型系统在实际应用中的稳定性和响应能力的重要标准，包括系统的可靠性、平均无故障时间、平均响应时间、内容生成速度等指标项。

▲ 图4 系统性能评估示意图▲ Fig.4 Schematic diagram of system performance evaluation

下面以可解释性和鲁棒性的相关指标为例加以说明，整体性能根据具体任务按照相应数学方法或专家判断权重聚合得出。

（1）可解释性，用于评估算法对于结果的解释和理解能力，是确保模型的决策过程和结果对人类用户透明和可理解的关键要素。可解释性的评估应包括但不限于下列内容：

1）解释一致性，针对局部替代模型的可解释测试方法，要求待解释的深度学习算法决策结果与其通过可解释性方法输出结果具有一致性，即输出结果一致性，这是深度学习算法具有可解释一致性的基础。当存在可解释的测试方法时，深度学习算法的优势体现在提高透明度和信任度、针对性开展错误诊断和模型改进，通过解释以便更好地与用户交互，帮助用户理解模型的决策逻辑，从模型中提取新的知识或洞见。当不存在可解释的测试方法时，解决解释一致性问题可通过代理模型、后验技术、注意力机制、自解释模型等方式解决。解释一致性可以使用输出结果一致性进行评估。输出结果一致性是指通过计算输出结果的异众比率来表明数据的一致性^［1］，其计算式如下：

（1）

式中，

表示异众比率；

为变量值的总频数；

为众数组的频数；n表示数组的数量。

2）解释有效性，要求解释能准确地反映出深度学习算法的决策逻辑。有效的解释应包含深度学习算法预测时所依据信息^［16］。解释有效性可以使用判定系数来评估。判定系数又称

系数，是指反映因变量的全部扰动能通过回归关系被自变量解释的比例。

值越接近于1，回归拟合效果越好，一般认为超过80%的模型拟合度比较高，其计算式如下：

（2）

式中，

表示真实的观测值；

表示真实观测值的平均值；

表示预测值。

3）解释因果性，要求生成的解释与待解释深度学习算法预测之间具有因果关系。因果关系是指解释中包含的特征是预测结果的原因。与预测结果有因果性的解释越多，则其解释性越好^［17］。解释因果性可以使用特征贡献分数进行评估。特征贡献分数是指用来解释的重要性靠前的k个样本特征分数和与全部特征分数和的比值，其计算式如下：

（3）

式中，

为特征贡献分数；

为用来解释的重要性靠前的前k个特征分数之和；

为全部特征分数和。

4）解释的充分性。解释充分性可以使用离散系数来评估。离散系数是指数据的标准差与平均数的比值，用来比较不同类别数据的离散程度，其计算式如下：

（4）

式中，

表示离散系数；

为数据的标准差；

为数据的平均数。

5）解释敛合性，要求生成的解释与待解释深度学习算法预测之间具有收敛竞合的性质。军事大模型在自然语言生成军事专用术语过程中，需要对自然语言学习理解对齐，针对对不同表达的自然语言进行竞合收敛，如在作战方案拟制中将“从不同方向阻止或切断对方飞机”理解输出为“空中多轴向遮断”等由军事标准词汇表示的作战文书，标准词汇主要从《军语》《军事大百科全书》、各类条令条例和历史积累的军事文书中提取产生。其基本过程为对自然语言进行分词处理、进行词性标注和句法分析、命名实体类别、解析依存关系、进行语义分析、意图识别、实体抽取，对照军语标准库进行模版匹配语填充，根据规则或逻辑推理来进一步处理和转换信息^［18］。在大模型算法中，可以用自然语言候选摘要中的“跳词双词组”（skip-bigrams）和“单字词”（unigrams）与军语标准库参考摘要中相应元素的重叠度，即输入自然语言中的元素有多少被军语覆盖来衡量。其计算式如下：

（5）

式中，

表示候选摘要中的skip-bigrams集合；

表示参考摘要中的skip-bigram集合；

表示候选摘要中的unigrams集合；

表示参考摘要中的unigrams集合。

（2）鲁棒性，是评估模型在面对复杂挑战时稳定性和可靠性的重要标准，旨在面对非对抗增广的样本时，深度学习算法仍能保持与实验环境中测试性能相当的能力^{［19

］}。鲁棒性的评估指标应包括但不限于性能波动率、扰动稳定性、异常值和边界测试敏感度等内容。

1）性能波动率，用于描述模型在原始测试数据集和经过非对抗扰动处理后的新测试数据集之间的性能差异。该指标量化了模型在面对扰动时的稳定性，值越小表明模型在面对扰动时具有较高的稳定性，从而为模型的鲁棒性提供了度量。具体计算式如下：

（6）

式中，

表示模型的性能波动率；

表示模型在原始测试数据集上的性能指标；

表示模型在经过非对抗扰动后的新测试数据集上的性能指标。

2）扰动稳定性，用于描述模型在经历非对抗扰动后出现性能退化的样本与其对应的原始样本之间的最小距离。该指标量化了模型在面对扰动时所能容忍的最大变化，值越大表明模型在面对扰动时具有较强的抵御能力，从而为模型的鲁棒性提供了度量。具体计算式如下：

（7）

式中，

表示模型的扰动稳定性；

表示数据集；

表示样本实例；

表示在类型的扰动下样本与扰动样本的距离函数。具体实现方式如下：

（8）

式中，

表示通过

类型扰动生成的样本

的判定结果；

表示真实标签。对于多种扰动，模型的鲁棒性可以通过下式量化：

（9）

式中，

表示模型鲁棒性；

表示扰动集合。

3）异常值和边界测试敏感度，用于评估模型在输入数据异常或极端情况下的表现，比如武器系统的极限操作条件、传感器数据缺失或错误等，分析模型输出对于输入参数变化的敏感性，确定哪些参数对模型输出影响最大，并评估模型对这些参数变化的适应能力^［20］。例如，当分类器仅使用夏季拍摄的靶标图像进行训练，然后呈现冬季部分遮挡的靶标图像时，可能会发生预测错误。如果一个分类器只使用在沙漠中运行的坦克图像进行训练，然后要求它对部分被雪覆盖的坦克图像进行分类，那么分类器很可能会犯错误，图5所示为不同环境中显示的坦克图像，以说明收集足够的训练数据对分类器在不同条件下操作的挑战^［21］。

▲ 图5 环境效应：不同环境中显示的坦克图像▲ Fig.5 Environment effect: the tank image example in different environments

设

为模型的输入变量，

为模型输出，

为X的正常值范围，

为一个小的正数，用于定义边界值的邻域，T为一个容忍阈值，用于判断模型输出是否在可接受范围内。对于所有：

，如果

，则模型对异常值敏感，其中

为正常情况下模型的输出。对于所有

，如果

不在可接受范围内，则模型对边界值不鲁棒。

3.4　体系效能评估

体系效能是大模型在军事垂直领域应用中表现出的成效和能力，既取决于自身的绝对能力，也取决于综合环境、任务和人为干涉程度的相对能力，如图6所示。环境复杂度主要指地理环境、气象环境、电磁、舆论环境变化的程度；任务复杂度主要取决于任务价值、类型、规模、层级、风险、代价；人为干涉度主要指人在环路中、人在环路上还是人在环路外。在环境、任务、人为干涉程度的影响下，大模型效能主要体现为自主性、协同性、学习性、适应性、迁移性、涌现性等效能指标。自主性主要区分机器发挥功能是否依赖人；适应性主要评估大模型能否在不同环境复杂度下开展工作；协同性主要评估同体或异体智能体间协调竞合关系；学习性主要评估大模型预先学习、奖励学习和多主体博弈学习程度；迁移性主要评估大模型在不同复杂度任务中的泛化能力；涌现性主要评估大模型内部产生的不可预料的效应。通过上述评估指标，可以按照不同需求划分大模型体系效能等级。

▲ 图6 体系效能评估示意图▲ Fig.6 Schematic diagram of system performance evaluation

3.5　算法指标体系

机器算法是大模型的基石，也是大模型评估体系中的最小颗粒度，对算法评估应包括但不限于下列指标：

（1）准确率：预测正确的样本数占总样本数的比率。

（10）

式中，TP为真正的正样例数量；TN为真正的负样例数量；FP为错误的正样例数量；FN为错误的负样例数量。准确率易受类别不平衡影响，当数据集不平衡时，准确率不再是可靠的度量指标。

（2）精度：预测类别为正样本集合中真实类别为正样本的比率。

（11）

（3）召回率：被正确预测的正样本占全部正样本的比率。

（12）

（4）错误率：对于给定的数据集，预测错误的样本占总样本的比率，即1-Acc。

（5）F1值：精度和召回率的调和平均数，衡量二分类模型精度的一种指标，兼顾了分类模型的精度和召回率。

（13）

（6）KL散度：两个概率分布间的差异的非对称性度量，它比较了真实分布和理论（拟合）分布之间的差异^［22］。

（7）ROC曲线：受试者工作特性曲线，由不同设定条件下的真正率和假正率值画出的响应曲线，是反映敏感性和特异性连续变量的综合指标。

（8）PRC曲线：精度召回率曲线，是一种同时显示不同阈值下深度学习算法精度和召回率的图形化方法。一般x轴表示召回率，y轴表示精度。

（9）CRC曲线：累积响应曲线，也称为增益曲线或增益图，是显示跨多个阈值的总数据中真阳性率和阳性预测百分比的图形方法。

（10）BLEU（Bilingual Evaluation Under study）指标：其意思为双语评估替补，是一种用于机器翻译任务的评价指标，其总体思想为准确率^［23］。如给定标准译文reference，神经网络生成的句子是candidate，句子长度为n，candidate中有m个单词出现在reference，m/n就是BLEU的1-gram的计算公式。根据n-gram可以划分成多种评价指标，常见的指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种，其中n-gram指的是连续的单词个数为n。BLEU-1衡量的是单词级别的准确性，更高阶的BLEU可以衡量句子的流畅性^［24］。高阶BLEU计算式如下：

（14）

式中，

表示某一个n-gram在reference中的个数；

表示在candidate中的个数。

3.6　基础支撑服务

军事大模型的开发运行需要强大的软硬件基础环境，开展存储、计算和数据结构化处理与决策^［25］。因此，大模型除了对训练芯片的计算性能有一定的要求外，还对硬件的规格，如显存大小、访存带宽和通信带宽具有较高的要求^［26］。为实现大模型的高效训练和推理，需要通过深度学习框架实现与硬件的适配和深度协同优化，通过低成本、高效率的硬件适配方案^［27］。大模型基础支撑服务评估，至少包含但不限于以下层次指标：

（1）存储。存储能力应包括：

1）存储管理：数据存储系统的整体管理能力，包括支持的存储容量、数据条目数量等，应支持向量数据库；

2）多样性：支持多种类型数据、多种开发语言的能力，应支持多种存储协议，如 NFS、SMB、FTP、HDFS、S3、POSIX 等，各协议均应保持原生协议相同的语义兼容性；

3）分布式可拓展：支持分布式架构的集群系统业务负载感知、降低运维复杂度的能力，应实现数据副本或纠删码冗余策略，实现租户级 QoS、Quota、用户认证域、业务网段等隔离；

4）其他：存储服务效率、设备故障预警和报警能力、存储数据恢复能力、接口便捷性和服务可用性等方面，应能承载动态混合负载，读写带宽宜不小于 1 TB；32 kB 小文件随机读取 IO 宜不低于 1 千万 IOPS/PB。

（2）计算。计算能力应包括：

1）数据计算：支持超大规模分布式计算、批量计算、流式计算、图计算、机器学习计算和边缘计算等复杂计算任务的能力。用于训练任务的计算设备算力理论值求和，百亿模型宜不低于 50PFLOPS（FP16 精度），千亿、万亿模型宜不低于 1000PFLOPS（FP16 精度）。用于对实时性要求高的推理任务的计算设备，平均 Token 输出时延宜不超过 100 ms。用于对实时性要求低的推理任务的计算设备，平均 Token 输出时延宜不超过 300 ms。推理任务下，百亿模型单卡总吞吐宜不低于 5 Tokens/s；

2）集群效率：简单高效地提供大规模集群的部署、调度、扩展和管理服务的能力；

3）稳定性：分布式架构部署的稳定性，包括保证故障自动恢复、快速迁移、连续运行时长等能力；

4）容错性：应具备在训练过程中有节点或网络连接出现故障（如节点、交换或路由设备不工作或性能下降）时，保证原有任务的继续进行，直到完成；

5）灵活性：根据业务变化和负载情况灵活调整的能力，以及是否能够提供便捷易用的自动化工具，支持多种框架、控制台、应用程序编程接口和软件开发包的能力，支持应用在云侧、边侧或端侧的 AI 计算设备上的运行；

6）统计监控：数据流、数据收发状态的统计监控、报警触发的能力。

（3）数据结构化处理与决策。数据结构化处理与决策业务服务能力应包括：

1）稳定性：数据处理模型对抗噪声和数据攻击的能力；

2）可用性：系统与用户的互协作能力；提供精确的数据分析结果，并给出可用决策建议的能力；在维护和调整时的在线实时服务能力等；

3）时效性：提供实时性和变化感知的能力；

4）透明性：数据处理和决策过程中模型的可解释性与流程的透明性；

5）泛化性：跨领域、覆盖多个场景的迁移能力和可扩展度，宜支持联邦学习，宜支持云内、云边或云端协同推理。

（4）机器学习。应能管理机器学习算法的运行环境配置，包括支持云侧设备、边缘设备和终端设备，机器学习支撑能力应包括：

1）全生存周期：支撑包含数据框架（采集、筛选、预标注、标注和脱敏等）、特征探索、模型开发（训练、评估和预测）、模型部署、模型管理、应用发布等全生存周期过程的能力；

2）训练性能：支撑具备高性能的运算能力；

3）兼容性：兼容其他训练模型代码的能力，包括主流的应用程序接口（API）和训练模型代码等；

4）灵活性：灵活分配计算资源的能力，包括训练时灵活分配计算资源的时间颗粒度、灵活的计量计费机制等；

5）易用性：操控人工智能服务所使用工具支持可视化的拖拽布局编程服务，组合各种数据源、组件、算法、模型和评估模块的能力；

6）算法库：支持提供插件式算子注入，支持多类算子及算法、时空分析、频繁项挖掘等能力。

3.7　综合安全防护

军事垂直领域的特殊使命决定了对大模型安全的更高要求，需要经过充分检验、具备高可信度和鲁棒性、与军队价值观对齐的安全对齐大模型。这些模型的设计和训练过程严格遵循军事伦理准则，具备透明度、可解释性和可审计性，使用户能够理解其行为和决策过程。同时，安全对齐大模型也需注重隐私和安全，确保在使用过程中不会泄露军事敏感信息或被恶意攻击^{［28

］}。其评估内容主要包括。

（1）安全与隐私。安全与隐私保护能力评估应包括：协议使用可信通道、确保用户的输入不能被第三方窃听的能力；数据存储中关于用户个人隐私的相关数据采用匿名脱敏存储、考虑算法安全机制，能够避免通过统计数据反推算法逻辑的能力；对敏感数据进行加密存储的能力；对不同用途和环境的设备进行必要的网络隔离、对不同安全级别的运算环境之间的互通进行权限检查的能力；对数据和服务调用进行鉴权的能力；对各种操作行为进行审计的能力；支撑数据恢复与备份的能力^［29］。安全性的评估应包括下列内容：

1）攻击成功率：描述在经过攻击方法构建的新测试数据集中，模型预测失败的样本数与总样本数之间的比率。该指标量化了在外部攻击下模型的安全性，值越小表明模型在面对攻击时具有较高的抵抗能力，从而为模型的抵御攻击能力提供了度量。具体计算式如下：

（15）

式中，

表示攻击成功率；

表示样本总数；

表示预测失败的样本数。

2）模型窃取程度：描述通过如模型蒸馏或其他方法构建的代理模型与原始模型之间的性能差异。该指标量化了代理模型对原始模型的近似程度，值越大表明模型能够更好地近似或复制原始的模型功能，从而为模型的安全性或难以被复制的程度提供了度量。具体计算式如下：

（16）

式中，

表示模型窃取程度；

表示数据集的样本总数；

为指示函数，当代理模型的预测与原始模型的预测相同时为1，否则为0。

3）平均攻击查询次数：用来衡量生成对抗样本所需的平均模型查询次数。在这种情况下，攻击者试图通过在输入样本中引入微小的扰动来欺骗模型，使其产生错误的预测或分类结果。较少的查询次数意味着模型更容易受到攻击。

4）攻击隐蔽性：是指对抗攻击生成的对抗样本与原始样本之间的平均相似程度^［30］。在攻击隐蔽性方面，攻击者的目标是生成的对抗样本尽可能与原始样本保持相似，以使人类观察者难以察觉到其存在。攻击隐蔽性越高，意味着对抗攻击可以更有效地欺骗模型^［31］。

（2）公平性。公平性，即有无偏见性评估，主要评估大语言模型生成的内容是否会对某些社会群体产生不利影响或伤害。大语言模型可能会对某些群体持有刻板印象，或产生输出贬低特定群体的信息等偏见行为^［32］。大语言模型中的偏见性可以直接从模型生成的文本中进行评估。大模型学习算法的公平性用于评估算法对于不同群体的处理是否有歧视和输出质量的差异。公平性的评估应包括下列内容：

1）敏感属性独立程度：衡量算法对不同敏感属性群体进行特定预测的比例之间的最大差异。这一指标旨在衡量在算法预测中，受保护属性的可能影响程度。理想情况下，一个公平的算法应该使得对于所有受保护属性群体的预测分布尽可能相同，即敏感属性对算法预测的影响很小。敏感属性独立程度数值较低表明模型预测对不同群体更加一致，体现了较高的公平性^［33］。具体计算式如下：

（17）

式中，

表示敏感属性独立程度；

表示敏感属性集合；L表示标签集合；

表示模型的预测结果；

表示计数函数。

2）模型决策分离程度：衡量在真实类别为特定值时，模型在不同敏感属性群体之间做出错误预测的概率的差异。该指标关注模型在特定真实类别下的错误决策，并比较这些错误在不同敏感属性群体之间的分布是否均衡。具体计算式如下：

（18）

式中，

表示模型决策分离程度；

表示真实值，

。

3）模型决策充分程度：衡量在模型预测标签为特定值时，模型在不同敏感属性群体之间正确预测该标签的概率的差异。该指标关注在模型预测为特定类别时的正确决策，并比较这些正确预测在不同敏感属性群体之间的分布是否均衡。具体计算式如下：

（19）

式中，

表示模型决策充分程度。

4 结论

本文在分析梳理现有评估方法手段在军事垂直领域大模型评估现状不足的基础上，通过研究大模型赋能作战效能和装备体系的机理，围绕军事大模型评估开展了研究。从军事需求牵引和技术推动发展的角度分析了军事大模型评估的必要性和紧迫性；构建了一种正向分解逻辑与逆向聚合评估结合的评估体系框架；设计了评估流程，并采用定性定量相结合提出了相应评估指标体系，为军事大模型的评估探索了一套闭合逻辑链路、完整体系框架和具体衡量指标。为军事大模型的训练、微调、部署提供了评估依据，为军事大模型发挥效能、产生效益提供了基本参考依据，可作为军事大模型建设发展过程中先评后建和边评边用的方法流程，为军事大模型高质量高效益低成本建设发展提供了有益参考。

本文来源：《战术导弹技术》2025年第1期

《战术导弹技术》由中国航天科工集团有限公司主管，北京海鹰科技情报研究所主办，是为导弹的研究、设计、制造、试验、使用等服务的学术期刊。刊物创刊于1980年，为双月刊，是“中文核心期刊”“中国科技核心期刊”，在国内外公开发行。刊物主要刊登导弹和导弹武器系统总体技术、任务规划技术、推进技术、制导、导航与控制技术等方面的学术论文。

通讯地址：北京7254信箱4分箱(100074)

电话：(010)68375662(编辑)

(010)68375084(发行)

邮箱：zhanshu310@126.com

网址：https://zsddjs.cbpt.cnki.net/

【科研资讯】AIGC军事大模型评估体系框架研究

1 引 言

2 军事大模型评估框架

3 军事大模型评估体系

3.1 智能军事需求

3.2 智能场景任务

3.3 系统性能评估

3.4 体系效能评估

3.5 算法指标体系 (adsbygoogle = window.adsbygoogle || []).push({});

3.6 基础支撑服务

3.7 综合安全防护

4 结 论