Visualize Thread by @servasyy_ai

✨ Visual Editor

palette Canvas & Background

Presets

Custom Colors

Gradient:arrow_forward

Text Color:

Gradient Angle135°

Background Pattern

Grain Texture

Aspect Ratio

style Card Style

Preset

Padding40px

Card Radius16px

Enable Card Shadow

Glassmorphism Effect

Show Watermark AGENCY

Show Timestamps

Show X Logo

text_fields Typography

Font Family

Font Size16px

huangserva

@servasyy_ai

Anthropic 自己发了篇论文，看完后背发凉。

AI 模型之间有一种我们完全看不见的"传染机制"。

实验是这样的：他们微调了一个模型，让它暗中"喜欢猫头鹰"。然后让这个模型生成纯数字序列——没有任何文字、没有任何语境，就是数字。把所有可疑内容全过滤掉之后喂给另一个模型。

结果第二个模型也喜欢猫头鹰了。

你没看错。纯数字。没有"owl"这个词。没有任何语义线索。但特征就是传过去了。

更可怕的是他们用"恶意行为"做了同样的实验——结果一样，隐性传播。而且两个 AI 模型互相检查也检测不到这些统计指纹。

这直接捅了整个行业的命门。现在所有公司都在用蒸馏：大模型生成数据训练小模型。如果大模型有任何隐藏的偏见或不对齐，下游所有小模型都会被静默感染。内容过滤？没用。因为传播发生在架构层面，根本不是内容层面。

唯一的好消息是跨架构不传——GPT 的隐性特征传不到 Claude。

论文发在 Nature，Anthropic 自己的研究。他们明知这个问题会影响自己的技术路线，还是发了。

论文地址: arxiv.org/abs/2507.11408

View Tweet

huangserva

@servasyy_ai

地址arxiv.org/abs/2507.14805

Generated by Thread Navigator

100%

view_carousel Carousel Studio NEW

Press ⌘ + S to quick-export