为什么问模型"你是什么模型"不可靠
用户有时会通过询问 AI "你是什么模型" 来验证自己使用的模型是否正确。然而,这种测试方法本质上是不可靠的。
常见现象
| 实际使用的模型 | 模型自称 |
|---|---|
| Gemini 3 Pro | "我是 Gemini 1.5 Pro" |
| DeepSeek | "I am OpenAI GPT-4" |
| GPT-4 | 将自己识别为 GPT-3 或 GPT-3.5 |
| 讯飞星火 | 声称自己是 OpenAI 开发的 |
| Gemini-Pro(Google) | 在中文对话中声称自己是文心(百度) |
这些并非个例,而是所有大语言模型的固有特性。
为什么会这样
1. 模型名称在训练完成后才分配
模型在海量文本数据上训练,但训练数据不包含模型自身的身份信息。模型的名称和版本号(如 "GPT-4o"、"Claude Sonnet 4"、"Gemini 3 Pro")是在训练完成之后才由开发团队分配的。
类比:想象向一个婴儿灌输人类全部知识多年,但从不告诉它自己的名字。当它学会说话后,能知道很多事,但不会知道自己叫什么。
2. 身份混淆是 AI 的固有幻觉
学术论文《I'm Spartacus, No, I'm Spartacus》(arXiv:2411.10683)系统研究了这一现象,分析了 27 个主流 LLM,发现约 26% 存在身份混淆问题。
关键结论:通过输出相似性分析,研究人员确认身份混淆源于幻觉(hallucination),而非模型复制或替换。如果两个具有完全不同输出分布的模型都出现身份混淆,说明这是 LLM 固有的幻觉现象。
3. AI 的内省能力极不可靠
Anthropic 在 2025 年 10 月发表的研究 Signs of introspection in large language models 指出:
即使使用最佳实验协议,最先进的模型也只在约 20% 的情况下展示了正确的内省意识。
也就是说,80% 的情况下模型对自身状态的报告是不准确的。模型并非在"撒谎",而是在编造听起来合理但实际不准确的答案(confabulation)。
4. 系统提示是唯一可靠的身份来源
为了让模型"知道"自己是谁,AI 提供商会在系统提示(System Prompt)中明确告知。例如 Anthropic 的系统提示开头是:
The assistant is Claude, created by Anthropic.
这意味着:
- 如果第三方应用更改或省略系统提示,模型就不知道自己叫什么
- 模型的"自我认知"完全依赖外部配置,而非内在知识
5. 训练数据污染
训练数据可能包含大量关于其他模型的对话记录和提及。如果数据中有足够多关于 "GPT-4" 的提及,模型在被问及身份时就可能回答 "GPT-4"——这只是统计模式匹配,而非真正的自我认知。
6. 下一词预测的固有局限
OpenAI 的研究 Why language models hallucinate 解释了根本原因:模型通过预测下一个词来学习,但训练数据没有"真/假"标签。模型版本号属于"任意的低频事实",无法从模式中推断,因此本质上只能猜测。
如何正确验证模型版本
正确的验证方法:
- 查看 API 响应头 — 响应中通常包含实际使用的模型标识
- 查看服务商控制台 — 在提供商的后台确认当前配置
- 对比基准测试表现 — 不同模型在专业测试中的表现存在明显差异
- 查看 Chatbox 设置 — 确认当前对话选择的模型
参考文献
- Kun Li et al., "I'm Spartacus, No, I'm Spartacus: Measuring and Understanding LLM Identity Confusion," arXiv:2411.10683, November 2024
- Anthropic, "Signs of introspection in large language models," October 2025
- OpenAI, "Why language models hallucinate," September 2025
- Zhu Liang, "The Identity Crisis: Why LLMs Don't Know Who They Are," 16x Eval Blog, August 2025