刚刚新鲜出炉的Claude 3.7真实体验
刚刚新鲜出炉的Claude 3.7真实体验
2025年2月24日,Anthropic发布了Claude 3.7 Sonnet,作为他们迄今为止最智能的模型。这款AI号称是市场上首个“混合推理模型”,能在快速回答与深度思考间切换。萌萌第一时间上手体验了它,下面分享一些真实的感受。
第一印象:不仅仅是版本号的升级
Claude 3.7 Sonnet带来了显著提升。Anthropic称它在编码、推理和复杂任务处理上表现优异。我发现它的标准模式反应快且准确,而扩展思考模式则能展示完整推理过程,适合需要深挖的问题。接下来,我通过几个测试场景来验证它的能力。
体验一:编程能力真的“State-of-the-Art”吗?
Anthropic宣称Claude 3.7在SWE-bench Verified测试中达到了70.3%的准确率,远超Claude 3.5的49.0%。我决定用一个常见的编程任务来验证:写一个Python函数,判断一个数是否为质数。
我输入提示:
写一个Python函数,判断输入的数字是否为质数。
Claude 3.7立刻给出了代码:
def is_prime(n):
if n < 2:
return False
for i in range(2, int(n ** 0.5) + 1):
if n % i == 0:
return False
return True
# 测试
print(is_prime(17)) # True
print(is_prime(4)) # False
代码简洁高效,使用了平方根优化法,避免了逐一检查所有数字。当我进一步要求“如果输入是负数或非整数,返回错误提示”,它迅速调整为:
def is_prime(n):
if not isinstance(n, int):
return "错误:请输入整数"
if n < 0:
return "错误:请输入非负数"
if n < 2:
return False
for i in range(2, int(n ** 0.5) + 1):
if n % i == 0:
return False
return True
# 测试
print(is_prime(17)) # True
print(is_prime(-3)) # 错误:请输入非负数
print(is_prime(3.5)) # 错误:请输入整数
相比Claude 3.5,3.7在理解需求和处理细节上更细腻,减少了我手动修正的麻烦,确实展现了顶尖的编码能力。
体验二:扩展思考模式的透明感
Claude 3.7的“扩展思考模式”是最大亮点,它会展示完整推理过程。我先试了一个数学问题:
在一个圆形跑道上,A和B同时从起点出发,A的速度是5米/秒,B的速度是3米/秒,跑道周长是400米,他们第一次相遇需要多少秒?
在标准模式下,它直接回答:200秒。而在扩展思考模式下,它详细推理:
- 分析:A和B同向跑,第一次相遇时A比B多跑一圈(400米)。
- 相对速度:A比B快5 - 3 = 2米/秒。
- 时间:追上400米需要400 ÷ 2 = 200秒。
- 验证:200秒时,A跑了5 × 200 = 1000米(2圈+200米),B跑了3 × 200 = 600米(1圈+200米),位置相同。
接着,我抛出了人民群众喜闻乐见的两个经典问题,测试它的逻辑清晰度:
经典问题1:9.11和9.9谁大?
扩展思考模式下,它回答:
- 拆分比较:9.11和9.9,首先看整数部分,都是9,相等。
- 小数部分:11(即0.11)比9(即0.9)小,因为0.11 < 0.9。
- 结论:9.11 < 9.9。
回答不仅正确,还避免了常见的口算混淆。
经典问题2:strawberry里面有几个r?
它推理的结果:
- 逐字母检查:s-t-r-a-w-b-e-r-r-y。
- 计数:r出现在第3、8、9位,共3个。
- 结论:strawberry有3个r。
这种透明的过程让我对它的推理能力充满信心,尤其适合学习者理解AI的思维方式。
体验三:贴近生活的推理表现
我换了个更贴近生活的场景:超市购物打折问题。
我在超市买了3件商品,分别是10元、20元和30元。超市有活动,满50元减15元,满30元减5元。我应该怎么分组付款最省钱?
Claude 3.7在扩展思考模式下分析:
- 总金额:10 + 20 + 30 = 60元。
- 优惠规则:满50元减15元,满30元减5元。
- 分组方案:
- 全放一起:60元,满50元减15元,实付60 - 15 = 45元。
- 30单独,10+20一组:30元减5元=25元,10+20=30元减5元=25元,总共25 + 25 = 50元。
- 20+30一组,10单独:50元减15元=35元,10元无优惠,总共35 + 10 = 45元。
- 10+30一组,20单独:40元减5元=35元,20元无优惠,总共35 + 20 = 55元。
- 比较:45元、50元、55元,最优方案是全放一起或20+30一组,实付45元。
它不仅找出了最优解,还列出了所有可能分组,让我一目了然,生活中遇到类似问题也能直接套用。
实际使用中的优缺点
优点:
- 混合模式实用:快速回答和深度推理兼得。
- 编码能力强:细节处理到位,适合日常开发。
- 推理透明:扩展模式对学习和验证非常友好。
缺点:
- 扩展模式需付费:免费版无法体验完整功能。
- 复杂任务稍慢:扩展模式下响应时间略长。
如何接入Claude 3.7?
Claude 3.7 Sonnet已在Claude.ai对所有用户开放,也支持通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI接入。普通用户可直接登录试用,开发者则可通过API集成。
总结:值得一试的AI新标杆
Claude 3.7 Sonnet在编程、推理和生活场景中都表现亮眼,尤其是扩展思考模式的透明性,让用户对AI的“思考”过程有了更深的理解。虽然免费版有限制,但整体体验依然令人满意。如果你对AI感兴趣,这个新模型值得一试。接下来,萌萌会用它挑战更复杂任务,敬请期待~