复旦大学提出GenPTW！AIGC水印技术新标杆！

最新论文解读系列

论文名：GenPTW:In-Generation Image Watermarking for Provenance Tracing and Tamper Localization

论文链接：https://arxiv.org/pdf/2504.19567

开源代码：暂无

导读

生成式模型正以前所未有的速度发展，特别是文本到图像（T2I）扩散模型，如Stable Diffusion、DALL - E 3和Imagen。这些模型能够合成高度逼真且视觉效果引人注目的图像，同时支持灵活编辑，从而重塑了视觉内容创作的格局。然而，这种令人印象深刻的生成能力是一把双刃剑，带来了一系列安全风险，包括内容滥用、版权归属不明确以及篡改检测困难。近年来，涉及AI生成图像被盗用、恶意编辑甚至被伪造为虚假证据的事件越来越普遍，威胁着公众言论和法律系统的公信力。这些问题从根本上凸显了两个关键挑战：验证内容真实性和追溯生成责任。

简介

生成式图像模型的快速发展为人工智能生成内容（AIGC）创作带来了巨大机遇，但也给确保内容真实性和版权归属带来了严峻挑战。现有的图像水印方法虽然部分有效，但往往依赖于后期处理或参考图像，难以在保真度、鲁棒性和篡改定位之间取得平衡。为解决这些局限性，我们提出了GenPTW，这是一种用于潜在扩散模型（LDMs）的生成中图像水印框架，它将来源追溯和篡改定位集成到基于统一水印的设计中。该框架在图像生成阶段嵌入结构化水印信号，实现统一的来源追溯和篡改定位。在提取方面，我们构建了一个频率协调解码器，以提高复杂编辑场景下的鲁棒性和定位精度。此外，引入了一个模拟AIGC编辑的失真层来增强鲁棒性。大量实验表明，GenPTW在图像保真度、水印提取准确性和篡改定位性能方面优于现有方法，为可信的AIGC图像生成提供了一种高效实用的解决方案。

方法与模型

1 GenPTW的总体框架

如图2所示，我们提出了GenPTW，这是一个专为潜在扩散模型量身定制的统一水印框架。它在单一架构中支持来源归属和篡改定位的联合取证目标。与之前将水印提取和篡改检测分离为两个独立模块的方法不同（这些方法通常需要对所有权水印和定位水印进行冗余嵌入），GenPTW将这两个任务集成在一个统一的设计中。

图 2：我们方法的框架。

在嵌入阶段，首先通过扩散过程生成一个潜在表示。给定一个水印消息（例如，用户ID），GenPTW使预训练的潜在解码器能够同时将水印嵌入到潜在空间中并将其解码为带水印的图像。在提取阶段，我们设计了一个频率协调解码器，它利用低频分量的鲁棒性来提取水印，同时利用高频细节的篡改敏感性来检测被篡改的区域。此外，低频分支的水印特征作为辅助线索来引导高频定位流，从而提高准确性。为了提高在现实世界AIGC操作下的恢复能力，我们引入了一个失真模拟层来模拟AIGC编辑。此外，在嵌入阶段应用了一个基于视觉阈值（JND）约束的感知损失，使用逐像素成本图来控制扰动强度和位置，确保水印不可见性的同时保持图像质量。

这种统一设计使GenPTW能够在各种AIGC失真场景下实现鲁棒的水印提取和准确的篡改定位。以下各节将详细介绍该框架的每个组件。

2 多尺度潜在空间嵌入

我们遵循潜在扩散模型（LDM）范式 [41]，其中图像被编码为紧凑的潜在表示，压缩因子为，并由以多阶段方式进行解码。在生成过程中，扩散过程合成，并逐步上采样以重建最终图像。

为了嵌入水印信息，我们采用了一种从粗到细的策略，该策略在多个解码器阶段将消息注入潜在特征中。给定一个位的二进制水印消息，消息处理器生成初始水印嵌入，在解码前将其添加到中。在每个后续的解码器阶段，水印特征编码器以前一个水印特征作为输入，并输出与相应潜在特征形状匹配的空间水印特征。然后计算带水印的潜在特征并将其传递到下一个解码阶段：

修改后的解码器替换以重建带水印的图像。

3 频率协调解码器

我们设计了一种频率协调解码器，它使用高频特征进行篡改定位，并使用低频特征进行水印提取。先前的研究表明，高频分量对局部操作更为敏感，而低频信息在各种失真情况下保持稳定 [39, 56]。如图 3 所示，篡改区域在高频域中通常会表现出更明显的伪影，而低频表示则表现出更强的鲁棒性。为了提高在严重退化情况下的可靠性，我们将低频水印特征图作为辅助线索，以增强篡改定位的鲁棒性和准确性。

图 3：局部编辑前后的高频和低频特征可视化。

如图 2 所示，生成的带水印图像首先通过失真模拟层以获得退化图像。我们应用离散余弦变换（DCT）[15] 来提取其高频和低频分量。低频分量被输入到水印解码器中，以生成空间水印特征图，该特征图进一步由多层感知器（MLP）和 Sigmoid 激活函数处理，以得到最终的预测消息。

水印特征图与高频特征拼接，并输入到基于 ConvNeXt [32] 的全局特征编码器中，以提取多尺度特征：

这里，表示每个尺度上的输出通道总数。然后，每个特征图由多尺度解码器处理，以生成相应的篡改预测掩码：

为了增强多尺度融合，我们引入了一个门控加权网络，该网络以作为输入，并输出一个归一化的权重张量，其中每个通道对应一个特定的尺度：

最终的篡改预测是通过对所有特定尺度的掩码进行加权融合，并将其调整为原始图像大小而得到的：

水印提取的性能通过预测水印与真实消息之间的二元交叉熵损失来衡量：

对于篡改定位，我们使用均方误差（MSE）计算预测掩码和真实掩码之间的逐像素损失，并结合边缘感知损失 [3]：

其中设置为 20。

4 失真层

为了提高对现实世界失真的鲁棒性，我们在水印嵌入和提取之间引入了一个失真模拟层。该层处理嵌入水印的图像并生成一个退化版本，以模拟真实的编辑条件。它仅在训练期间使用，在推理期间移除。

失真层包括两类：AIGC 编辑和常见退化。AIGC 编辑涵盖图像修复、变分自编码器（VAE）重建和内容移除，而常见退化涉及典型的图像扰动，如 JPEG 压缩和亮度调整。在训练期间，每张图像随机经过一种 AIGC 编辑和一种退化操作，以模拟实际的失真流程。附录中提供了更多实现细节。

AIGC 编辑模拟。我们将 AIGC 编辑操作分为三种类型，每种类型旨在提高不同场景下的篡改定位或水印鲁棒性：

真实图像修复编辑：我们采用基于真实扩散模型的图像修复操作来模拟局部 AIGC 风格的内容再生。编辑强度在 0.3 到 1.0 之间随机采样。对于来自 UltraEdit 数据集的样本，我们使用提供的掩码和提示；否则，随机生成掩码并将提示设置为无。此操作使模型能够学习在真实的局部编辑下的篡改定位。
VAE 重建编辑：此操作使用来自 Stable Diffusion 的冻结 VAE 对图像进行编码和解码，以模拟全局语义重写。最近的研究结果 [60] 表明，编辑后水印损坏主要是由 VAE 压缩引起的。因此，我们使用此策略来增强模型在全局修改下保留水印的能力。
水印区域移除：我们通过用原始图像的相应区域替换掩码后的水印区域来模拟激进的局部篡改。此操作模拟有针对性的水印移除攻击，并提高模型对故意删除的鲁棒性。

总之，图像修复和移除操作分别代表真实和模拟的局部编辑，用于训练模型进行水印引导的篡改定位。相比之下，VAE 重建作为全局编辑的替代，确保即使在内容发生显著变化的情况下水印仍然可以提取。

5 确保视觉质量

与仅专注于版权保护的单任务水印方法相比，我们的方法不可避免地嵌入了更多信息，这可能会引入明显的视觉伪影。为了减轻这种质量下降，我们在图像生成期间和之后都应用了约束。

首先，在解码过程中，我们对潜在特征施加多尺度约束，以保持干净表示和嵌入水印表示之间的空间一致性。然后，在图像合成后，我们引入了一个恰可察觉差异（JND）引导的损失来控制水印扰动的可见性。JND 图是一个手工制作的模型，它估计人类视觉系统在每个像素处可察觉的最小失真，使我们能够选择性地约束更容易注意到伪影的残差。

具体来说，在潜在解码过程中，原始解码器和修改后的解码器在每个阶段同时进行解码，分别产生中间潜在特征和。为了确保注入的水印不会显著扭曲潜在表示，我们在所有解码器阶段应用多尺度 MSE 约束：

这种损失鼓励在水印嵌入期间保留潜在空间中的空间结构，从而减轻最终输出中的视觉退化。

图像生成后，我们得到两个输出：干净图像和嵌入水印的图像。为了最小化水印残差的感知可见性，我们引入了一种 JND 引导的调制策略。

对于干净图像，我们计算其视觉最小可觉差图（JND 图）。该图用于估计像素级变化的感知容差。然后，我们构建一个代价矩阵如下：

并将视觉最小可觉差加权残差损失定义为：

为确保加水印图像与原始图像之间的感知相似性，我们采用像素级失真和感知损失函数的组合。像素级失真通过均方误差（MSE）来衡量，定义为。对于感知相似性，我们采用学习型感知图像块相似度损失（LPIPS 损失）[58]，它与人类感知的一致性更好。

最后，整体视觉质量损失定义为：

其中和是相应的损失权重。

6 训练细节

整个训练过程以端到端的方式进行。我们按如下方式初始化损失权重：、和。为进一步提高生成的加水印图像的视觉质量，我们采用动态损失加权策略。具体而言，一旦提取损失低于 0.05 且篡改定位损失小于 0.1，我们通过将权重调整为和来增加对视觉质量的重视。在最初的 10000 个训练步骤中，不应用失真。此后，逐步引入失真模拟层以增强对实际退化的鲁棒性。

消息处理器的架构包括三个全连接层，随后是两个卷积 - 批量归一化 - 缩放指数线性单元（Conv - BN - SELU）块和一个最终的二维卷积层。每个水印嵌入模块由一个 Conv - BN - SELU 块和一个上采样层组成。水印解码器使用堆叠的 Conv - BN - SELU 块和门控卷积模块构建，以支持结构化特征解码。

实验与结果

1 实验设置

我们的训练数据包括微软通用对象上下文（MS COCO）数据集 [29] 和从超级编辑（UltraEdit）数据集 [62] 中精心挑选的 20000 对编辑图像（包括原始图像、编辑后的图像、相应的掩码和编辑指令）。对于来自 UltraEdit 的样本，提供了编辑掩码，而对于其他数据集，使用混合形状策略随机生成掩码。所有图像都调整为的分辨率。使用 AdamW 优化器训练模型，初始学习率为，批量大小为 2。我们采用余弦退火学习率调度。所有实验都在 NVIDIA A100 GPU 服务器上进行。

2 与定位方法的比较

为了评估我们提出的GenPTW（生成式感知水印）的篡改定位性能，我们将其与几种最先进的被动定位方法进行了比较，包括PSCC-Net [31]、MVSS-Net [9]、CAT-Net [25]和IML-ViT [36]，以及基于主动水印的方法EditGuard [59]。OmniGuard [60]未被纳入比较，因为该方法尚未公开发布。我们采用F1分数和AUC作为评估指标。评估在1000张测试图像上进行，其中包括来自公开可用的AGE-Set-C数据集的500个样本和我们自行整理的另外500个样本。每个样本包括一张经过处理的图像、其对应的真实掩码和原始的干净图像。对于处理类型，我们使用了先进的生成式编辑模型，包括Stable Diffusion Inpaint [41]和ControlNet In-paint [57]（提示设置为“无”），以及无条件修复方法Lama [43]。还纳入了经典的图像拼接操作，以涵盖非AIGC编辑场景。为了评估在现实条件下的鲁棒性，我们随机对处理后的图像应用一种常见的退化类型。退化类型包括高斯噪声、JPEG压缩（质量因子）、亮度调整和对比度调整。

图4：使用GenPTW生成图像的定性示例。

表1：所提出的GenPTW和其他最先进的主动或被动篡改定位方法的定位性能。“干净”和“退化”分别表示在干净条件下以及在随机选择JPEG、高斯噪声、亮度调整和对比度调整条件下的检测情况。

如表1所示，GenPTW在一系列操作任务中始终展现出强大的定位性能。在无干扰条件下，其F1分数超过0.96，AUC接近1.0。即使在诸如JPEG压缩、颜色抖动和高斯噪声等常见的图像退化情况下，GenPTW仍能保持较高的准确率和稳定的性能，这表明它在各项任务中具有很强的鲁棒性和泛化能力。与现有方法相比，GenPTW在图像退化的情况下表现更优。例如，在拼接（Splicing）和喇嘛（Lama）任务中，其F1分数分别达到0.908和0.919，显著优于被动检测方法和现有的基于水印的方法。相比之下，EditGuard在图像退化时掩码质量明显下降，并且对阈值设置更为敏感，导致在具有挑战性的条件下表现不稳定。

图5：我们的GenPTW与其他方法的可视化比较。

图5进一步比较了不同方法的视觉定位结果。像PSCC-Net和IML-ViT这样的被动方法在复杂编辑或图像退化的情况下往往会遗漏篡改区域。同时，像EditGuard这样的主动方法通常会生成有噪声或不完整的掩码，其结果高度依赖于超参数调整。相比之下，GenPTW在各种类型的操作中始终能生成准确且对齐良好的掩码，无需大量的后处理或参数调整。值得注意的是，对于像InstructP2P这样的全图像语义重写任务，GenPTW仍然能够可靠地提取嵌入的身份信息并检测篡改。然而，由于此类操作从根本上改变了图像的全局内容结构，模型往往会将整个图像分类为篡改区域。这并非误分类，而是反映了我们的设计理念——优先保护原始视觉结构，而非适应广泛的语义转换。

3 与深度水印技术的比较

我们全面比较了GenPTW与现有的生成中水印方法和生成后水印技术的性能。生成中方法包括Stable Signature、WOUAF和LaWa，而生成后基线方法包括PIMoG [12]、SepMark [50]、EditGuard [59]和Robust-Wide [20]。我们在UltraEdit [62]数据集中的1000张图像及其配对提示上测试了所有结果。退化设置配置如下：高斯噪声强度为，JPEG压缩质量为，亮度扰动调整为。组合攻击包括中心裁剪、亮度缩放2.0和质量为80的JPEG压缩。

表2：所提出的GenPTW与其他最先进（SOTA）水印方法在保真度和比特恢复准确率方面的比较。请注意，“SD Inpaint”表示通过图像修复模型对图像进行再生，而“SD Inpaint”可确保未编辑区域与原始图像完全一致。

如表2所示，GenPTW在大多数退化条件下实现了最高的比特恢复准确率，同时保持了出色的视觉保真度，峰值信噪比（PSNR）为37.12dB。这一性能超过了所有生成内水印基线，并且与几种后处理水印技术相当，甚至更优。具体而言，在局部和全局AIGC编辑情况下，GenPTW显著优于现有的生成内方法。由于同时嵌入了版权水印和可定位篡改水印，GenPTW在PSNR上比EditGuard提高了0.34dB，并且在所有测试场景中比特级准确率都有显著提升。在InstructP2P全图像编辑任务中，GenPTW的比特恢复准确率达到0.963，仅比专门针对AIGC编辑场景训练的Robust - Wide低0.013。同时，GenPTW在结构相似性指数（SSIM）和不同变换下的鲁棒性方面提供了更好的权衡。如图4所示，我们可视化了使用Stable Diffusion v2生成的几个样本，随后使用InstructP2P进行全图像语义重写。即使图像的整体风格和结构发生了显著变化，GenPTW仍然可以准确提取嵌入的水印。这证明了我们的方法在全局和局部编辑以及典型的现实世界退化情况下具有很强的恢复能力和泛化能力。

4 消融研究

4.1

频率引导输入对和的影响。为了研究水印解码器和篡改定位编码器的输入设计的影响，我们对各种输入组合进行了消融研究，总结于表2中。具体来说，我们探索了使用原始图像、低频和高频分量以及辅助水印引导图作为这两个模块的输入。

表3：对和不同输入组合的消融研究。

如表3所示，使用低频输入，使用高频输入并结合的配置实现了最佳的整体性能，PSNR为37.41 ，SSIM为0.873，曲线下面积（AUC）接近完美，达到0.998。这种设置有效地平衡了视觉保真度和取证准确性。相比之下，直接将水印嵌入高频分量会导致明显的质量下降，PSNR降至约，SSIM显著降低，这表明存在可察觉的伪影。虽然这些配置仍可能产生有竞争力的检测指标，但它们的感知质量受到了影响。使用原始图像作为输入可以保持保真度并实现较高的SSIM，但缺乏明确的频率级引导，与我们提出的设计相比，在整体一致性方面表现较差。

4.4.2

空间域和潜在域多尺度损失的影响。我们进行了消融研究，以探究在空间域和潜在域引入损失项的影响。具体而言，我们分析了基于最小可觉差（JND）设计的对比纹理感知损失以及在多尺度潜在特征上计算的潜在一致性损失的贡献。

表4：空间和潜在域中多尺度损失影响的消融研究。

如表4所示，仅引入就使结构相似性指数（SSIM）有显著提升（从0.724提升至0.873），这表明促进潜在空间的一致性可大幅增强感知相似性。同时，引入使峰值信噪比（PSNR）和结构相似性指数（SSIM）都有整体提升，这表明它在视觉敏感区域指导空间保真度保持方面是有效的。当同时应用这两个损失项时，模型在所有指标上实现了最佳权衡，峰值信噪比达到37.48，结构相似性指数提高到0.876。这些结果验证了结合空间域和潜在域监督的互补优势，并强调了感知感知正则化对于高保真水印恢复的重要性。

总结

在本文中，我们提出了GenPTW，这是一个用于主动溯源和篡改定位的统一生成内框架。据我们所知，这是第一个同时支持溯源和篡改定位的生成内图像水印解决方案。为了提高提取精度，我们设计了一个频率协调解码器，将低频水印恢复与高频篡改检测分离。为了增强对人工智能生成内容（AIGC）编辑和常见退化的鲁棒性，我们引入了一个失真模拟层，用于模拟真实的生成操作。此外，为了保持视觉质量，我们结合了一个由逐像素修改成本图引导的最小可觉差（JND）约束感知损失。大量实验表明，在各种篡改场景下，GenPTW在保真度、定位精度和鲁棒性方面始终优于现有的水印和取证基线方法。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～