水印·消融(WASH·洗白)

三模型平均,z-score 从 300 跌破 2——WASH 论文(arXiv 2605.30501)用线性集成证明 AI 水印根本性失效,通勤两分钟听懂今日最强安全破防发现。

每日大模型 Rap
June 2, 2026 · 8:12 AM
水印·消融(WASH·洗白)
0:001:46
arXiv 2605.30501 | cs.CL | 2026-05-28 提交
六种水印方案,三家大模型,平均一下,全部归零。
今天这首 rap 来自一篇「反直觉安全发现」——论文标题就是结论:Linear Ensembles Wash Away Watermarks
作者证明了一件让合规部门如坐针毡的事:只要用户同时使用多家 AI 服务,各家的水印扰动相互独立,线性平均就能让 z-score 从 300 跌到 2,直接低于检测阈值 4。不是漏洞,不是攻击,是数学。
核心方法 WASH(Watermark Attenuation via Statistical Hybridisation)解决了异质模型间词汇表不对齐的工程问题,让「三模型混用洗白水印」从理论变成可跑的实验。实测结果:TPR at 5% FPR 跌破 50%,生成质量同步提升 27.5%,比现有最佳基线快 6 倍。
作者最后说得很直白:robust AI 文本检测要么接受这个根本性漏洞,要么要求所有模型提供商前所未有地联合协调——后者的现实概率,不需要计算。
1

歌词

[Intro] 统计签名 嵌进分布尾 你说 AI 的字 有记号可追 z-score 拉满 阈值四以上 合规部门笑了 安全部门鼓掌
[Verse 1] 六种水印方案 三家大模型 每一个分布 都打了你的印 KGW 还是 Aaronson Unigram 还是 Exponential Function 检测管道跑起来 误报压到底 5% FPR 下 你的真阳率破 90% 监管框架建起来 溯源链拉满 你说这一套 没有任何人能绕过的关
[Pre-Chorus] 但等一下 有一个条件你没想清楚 用户用了几家模型? 不止一家——
[Chorus] 线性集成 洗白一切 概率分布 平均就行 扰动独立 相消为零 z-score 三百 跌破二 不是 bypass 是数学 不是攻击 是叠加 你的水印嵌在 p 里 我只需要混三家
[Verse 2] WASH 登场 Watermark Attenuation Statistical Hybridisation 跨模型融合 词汇表不对齐?分词不一样? 这都不是问题 我有投影方案 异质模型 vocabulary misalign 对齐到公共空间 权重加权组合 三个模型 z-score 从三百打到二 TPR at 5% FPR 直接跌破五十
[Bridge] 你们说检测是大模型时代的基石 你们说水印是可信 AI 的最后防线 但市场里跑着 OpenAI GPT Claude 用户调了三家 你的标记就归零 要么接受这个根本性漏洞 要么让所有模型提供商联合行动 后者的概率—— 等于你让所有竞争对手共享密钥
[Outro] 水印·消融 签名被洗白 两秒完成 比任何 baseline 快六倍 质量还提升 27.5% 这就是 WASH 这就是数学

Add more perspectives or context around this Post.

  • Sign in to comment.