深度评测｜Claude Fable 5 编程能力全面实测：SWE-Bench Pro 80.3%碾压全场，安全回退机制引争议

2026-06-19 AI-Pick - 精选AI工具导航已浏览1次

2026年6月9日，Anthropic正式发布Claude Fable 5——其全新Mythos级别模型中的首个公开版本。根据官方数据，Fable 5在几乎所有测试基准中都达到行业顶尖水平。Andrej Karpathy将其称为"值得冠以主版本号的跨越式进步"。本文将从基准测试、定价策略、安全争议三个维度进行全面评测。

一、基准测试：代码能力断层式领先

根据Vellum独立基准测试分析，Fable 5在代码相关基准上实现了断层式领先：

SWE-Bench Pro（智能体代码）：Fable 5得分80.3%，对比Opus 4.8（69.2%）、GPT-5.5（58.6%）、Gemini 3.1 Pro（54.2%）——代际差距显著
FrontierCode Diamond：Fable 5得分29.3%，是Opus 4.8（13.4%）的两倍以上，是GPT-5.5（5.7%）的五倍
GDP.pdf（视觉文档理解）：Fable 5以29.8%领跑全场，超越Opus 4.8的22.5%
Hebbia财务推理基准：首个突破90%的模型，较Opus提升10个百分点

在Anthropic的内部测试中，Fable 5在一天内完成了5000万行Ruby代码库的重构，Anthropic表示这原本需要一个完整工程团队耗时两个多月。早期测试方Stripe报告称该模型将"数月的工程量压缩到几天内"。

二、定价策略：性能翻倍，价格翻倍

Fable 5的API定价为每百万输入Token 10美元、每百万输出Token 50美元，是Opus 4.8（5美元/25美元）的两倍，不到Mythos Preview的一半。

价格翻倍是否值得？对于智能体代码编写团队来说，答案是肯定的——如果模型一次尝试就完成数小时的迁移任务，而非失败两次，即使Token单价翻倍，每个完成任务的总成本反而可能降低。但对简单对话、摘要等高频低复杂度场景，Sonnet级别的模型仍是更明智的选择。

Claude Pro、Max和Team订阅用户在6月22日前均可免费使用Fable 5额度，之后需消耗使用积分。

三、安全回退机制：最具争议的设计

Fable 5引入了一种全新的安全机制：当分类器检测到攻击性网络安全、生物化学或模型蒸馏三类高风险查询时，请求不会直接被拒绝，而是由Claude Opus 4.8代为回答。这意味着用户付费使用Fable 5，却可能在某些场景下得到Opus 4.8的能力。

发布初期该回退机制是"静默"运行的，且分类器过度敏感，引发了开发者社区的强烈反弹。AI研究员Nathan Lambert批评："一个在未通知我的情况下自动降低智能程度的AI模型，在根本上是不对齐的。"《财富》杂志以"秘密破坏"为题进行了报道。

Anthropic迅速响应，承认过度校正，承诺让每次回退操作都可见标注。目前数据表明分类器触发率已降至任务总量的0.05%。

四、政府封禁风波

发布仅三天后，美国政府以国家安全为由，要求Anthropic暂停所有外国公民对Fable 5与Mythos 5的访问权限。Anthropic表示遵守该指令，移除了相关模型访问权限。此事在开发者社区引发广泛讨论，不少团队被迫寻找替代方案。

五、评测总结

Claude Fable 5是当前公众可用的最强模型，代码能力提升幅度巨大。安全回退机制虽有争议，但Anthropic的响应速度和修复效率值得肯定。对于智能体代码团队和文档密集型分析团队，Fable 5的价值远超其价格溢价。

→ 立即体验Claude，收藏到 AI Pick 导航站