✨ Visual Editor

close

palette Canvas & Background

Gradient:arrow_forward
Text Color:
135°

style Card Style

40px
16px

text_fields Typography

16px
huangserva
@servasyy_ai
Anthropic 自己发了篇论文,看完后背发凉。

AI 模型之间有一种我们完全看不见的"传染机制"。

实验是这样的:他们微调了一个模型,让它暗中"喜欢猫头鹰"。然后让这个模型生成纯数字序列——没有任何文字、没有任何语境,就是数字。把所有可疑内容全过滤掉之后喂给另一个模型。

结果第二个模型也喜欢猫头鹰了。

你没看错。纯数字。没有"owl"这个词。没有任何语义线索。但特征就是传过去了。

更可怕的是他们用"恶意行为"做了同样的实验——结果一样,隐性传播。而且两个 AI 模型互相检查也检测不到这些统计指纹。

这直接捅了整个行业的命门。现在所有公司都在用蒸馏:大模型生成数据训练小模型。如果大模型有任何隐藏的偏见或不对齐,下游所有小模型都会被静默感染。内容过滤?没用。因为传播发生在架构层面,根本不是内容层面。

唯一的好消息是跨架构不传——GPT 的隐性特征传不到 Claude。

论文发在 Nature,Anthropic 自己的研究。他们明知这个问题会影响自己的技术路线,还是发了。

论文地址: arxiv.org/abs/2507.11408
huangserva
@servasyy_ai
Generated by Thread Navigator
100%
view_carousel Carousel Studio NEW
Press + S to quick-export