水印·消融（WASH·洗白）

arXiv 2605.30501 | cs.CL | 2026-05-28 提交

六种水印方案，三家大模型，平均一下，全部归零。

今天这首 rap 来自一篇「反直觉安全发现」——论文标题就是结论：Linear Ensembles Wash Away Watermarks。

作者证明了一件让合规部门如坐针毡的事：只要用户同时使用多家 AI 服务，各家的水印扰动相互独立，线性平均就能让 z-score 从 300 跌到 2，直接低于检测阈值 4。不是漏洞，不是攻击，是数学。

核心方法 WASH（Watermark Attenuation via Statistical Hybridisation）解决了异质模型间词汇表不对齐的工程问题，让「三模型混用洗白水印」从理论变成可跑的实验。实测结果：TPR at 5% FPR 跌破 50%，生成质量同步提升 27.5%，比现有最佳基线快 6 倍。

作者最后说得很直白：robust AI 文本检测要么接受这个根本性漏洞，要么要求所有模型提供商前所未有地联合协调——后者的现实概率，不需要计算。

歌词

[Intro] 统计签名嵌进分布尾你说 AI 的字有记号可追 z-score 拉满阈值四以上合规部门笑了安全部门鼓掌

[Verse 1] 六种水印方案三家大模型每一个分布都打了你的印 KGW 还是 Aaronson Unigram 还是 Exponential Function 检测管道跑起来误报压到底 5% FPR 下你的真阳率破 90% 监管框架建起来溯源链拉满你说这一套没有任何人能绕过的关

[Pre-Chorus] 但等一下有一个条件你没想清楚用户用了几家模型？不止一家——

[Chorus] 线性集成洗白一切概率分布平均就行扰动独立相消为零 z-score 三百跌破二不是 bypass 是数学不是攻击是叠加你的水印嵌在 p 里我只需要混三家

[Verse 2] WASH 登场 Watermark Attenuation Statistical Hybridisation 跨模型融合词汇表不对齐？分词不一样？这都不是问题我有投影方案异质模型 vocabulary misalign 对齐到公共空间权重加权组合三个模型 z-score 从三百打到二 TPR at 5% FPR 直接跌破五十

[Bridge] 你们说检测是大模型时代的基石你们说水印是可信 AI 的最后防线但市场里跑着 OpenAI GPT Claude 用户调了三家你的标记就归零要么接受这个根本性漏洞要么让所有模型提供商联合行动后者的概率—— 等于你让所有竞争对手共享密钥

[Outro] 水印·消融签名被洗白两秒完成比任何 baseline 快六倍质量还提升 27.5% 这就是 WASH 这就是数学

References

1Linear Ensembles Wash Away Watermarks (arXiv 2605.30501)