huangserva (@servasyy_ai)

View on X 1 Unrolled Threads

Anthropic 自己发了篇论文，看完后背发凉。 AI 模型之间有一种我们完全看不见的"传染机制"。实验是这样的：他们微调了一个模型，让它暗中"喜欢猫头鹰"。然后让这个模型生成纯数字序列——没有任何文字、没有任何语境，就是数字。把所有可疑内容全过滤掉之后喂给另一个模型。结果第二个模型也喜欢猫头鹰了。你没看错。纯数字。没有"owl"这个词。没有任何语义线索。但特征就是传过去了。更可怕的是他们用"恶意行为"做了同样的实验——结果一样，隐性传播。而且两个 AI 模型互相检查也检测不到这些统计指纹。这直接捅了整个行业的命门。现在所有公司都在用蒸馏：大模型生成数据训练小模型。如果...

May 01, 2026