Claude4系列模型来了！编码能力强于o3和GPT-4.1，记忆性能大幅提升

摘要

Claude Opus 4在写作助手功能上取得突破，能够深度学习用户风格特征，其输出与本人风格几乎不可区分，可完成大部分专业写作任务。在测试中，Claude Opus 4能保持近7个小时对复杂开源重构项目的专注能力，标志着AI从快速响应工具转变为全天候协作伙伴。Claude Opus 4在编码能力测试中超越了OpenAI的Codex和GPT-4.1，但在多模态理解和博士级学科难题测试中仍落后于OpenAI的o3模型。

2025年人工智能产业全面转向推理模型开发，这些模型通过模拟类人思维过程完成思考，而非简单匹配训练数据模式。OpenAI、谷歌等公司纷纷推出推理模型，推动了AI应用范式的根本性进化。Claude 4系列模型通过将工具使用直接整合至推理过程，实现了更自然高效的问题解决体验。

Claude 4系列模型采用双模式架构，简单查询时提供近即时响应，复杂问题时启动深度思考模式，平衡了速度与深度。此外，Claude 4系列还具备记忆持久性，能够从文档提取关键信息、创建摘要，并在跨会话中延续知识，攻克了AI应用的“记忆缺失”难题。

Claude Opus 4在内部测试中表现出较强的生成能力，但也引发了安全担忧。因此，Claude Opus 4在比以往更严格的安全措施下发布，限制涉及化学、生物或核武器相关能力的AI系统的使用。Anthropic还计划加快模型迭代频率，通过持续优化增强模型能力，推动AI技术的进一步发展。

当地时间5月22日消息，人工智能初创公司Anthropic在美国旧金山举办的首届开发者大会中发布两款Claude 4模型——Claude Opus 4和Claude Sonnet 4。

其中，Claude 4 Opus向付费Claude订阅用户开放，Claude Sonnet 4向免费和付费用户开放。

Claude 4系列模型具备分析大型数据集、执行长期任务和采取复杂行动的能力。这两款模型都针对编程任务进行了优化，非常适合编写和编辑代码。

在生产力赋能方面，Claude Opus 4通过深度学习用户风格特征，正在重构人机协作范式。该公司首席产品官迈克·克雷格透露，Claude Opus 4写作助手功能已突破技术瓶颈：“Opus 4的写作输出与本人风格具备不可区分性，目前完成了我90%的专业写作任务。”

在测试中，旗舰模型Claude Opus 4在测试中保持了近7个小时对复杂开源重构项目的专注能力。这项突破性进展标志着，人工智能从快速响应工具转变为能处理全天候项目的真正协作伙伴。

这项技术突破意义深远：人工智能系统已具备承接从概念设计到完整落地的复杂软件工程项目能力，可在整个工作周期内保持上下文连贯性和专注度。

Anthropic联合创始人、首席科学家贾里德·卡普兰对此表示，该公司从去年底已停止对聊天机器人领域的投入，转而将研发资源集中投向提升Claude模型执行复杂任务的专业能力。

Claude Sonnet 4作为Sonnet 3.7的“即插即用替代品”，在编码和数学方面相较于Anthropic之前的模型有所改进，并且能更精准地遵循指令。

Claude 4系列模型在编码与推理任务中的表现全面超越竞争对手

Anthropic表示，Claude Opus 4模型在评估编码能力的SWE-Bench Verified基准测试中获得72.5%的成绩，超越OpenAI新发布的Codex，并且远超今年4月发布的GPT-4.1（当时得分为54.6%），这一突破性进展让Anthropic在竞争白热化的人工智能领域占据了重要位置。

此外，Anthropic还显著减少了模型在完成任务时试图走捷径或利用漏洞的行为。在某类AI智能体任务上，模型特别容易走捷径，但这次的两款新模型发生此类行为的概率，比Sonnet 3.7要低65%。

不过需要客观看待的是，技术优势具有领域局限性—虽然Claude Opus 4在编程能力测试中同时领先于谷歌的Gemini 2.5 Pro和OpenAI的o3及GPT-4.1，但在衡量多模态理解能力的MMMU评估，以及涉及博士级生物、物理、化学等学科难题的GPQA Diamond测试中，仍未突破OpenAI o3模型保持的领先水平。

这反映出当前AI技术发展呈现明显的专业化分野特征，不同模型在不同应用场景下各有所长。

Claude 4系列模型在Amazon Bedrock及Google Vertex AI平台上的收费标准如下：Opus 4每百万Token（输入/输出）收费为15美元/75美元，Sonnet 4为3美元/15美元。

推理革命重塑人工智能格局

2025年人工智能产业全面转向推理模型开发。这些系统不仅仅是简单匹配训练数据模式，在回应前会系统化处理问题，通过模拟类人思维过程完成思考。

OpenAI于2024年12月通过”o”系列模型率先启动这场变革，随后谷歌推出具备实验性“深度思考”功能的Gemini 2.5 Pro5。DeepSeek的R1模型则以卓越问题解决能力和价格优势异军突起，意外抢占市场份额。

此次转型标志着人工智能应用范式的根本性进化。据Poe《2025春季AI模型使用趋势报告》显示，推理模型使用率在4个月内激增5倍，占所有AI交互比例从2%跃升至10%。用户正将人工智能视为复杂问题的思维伙伴，而非基础问答工具。

随着新型AI模型激发用户兴趣，2025年初推理类会话占比急剧攀升

Claude新模型通过将工具使用直接整合至推理过程实现突破。这种同步研究与推理的方式，相较传统系统先收集信息后分析的流程，更接近人类认知模式。在推理过程中暂停、获取数据并整合新发现的机制，创造了更自然高效的问题解决体验。

双模式架构平衡速度与深度

Anthropic通过混合方法解决了人工智能用户体验中的长期痛点。

Claude 4系列模型在简单查询中提供近即时响应，对复杂问题则启动深度思考模式成功消除了早期推理模型在处理基础问题时产生的延迟卡顿。

这种双模式功能既保留了用户期待的即时交互体验，又能在需要时释放深度分析能力。系统根据任务复杂性动态分配算力资源，实现了早期推理模型难以企及的平衡状态。

记忆持久性是Claude 4系列的另一重大突破。这两款模型具备从文档提取关键信息、创建摘要文档的能力，并在获得授权后实现跨会话知识延续。

此项能力攻克了长期制约AI应用的“记忆缺失”难题，使AI在需要持续数日或数周上下文关联的长期项目中真正发挥作用。

这种技术实现方式与人类专家开发知识管理系统的方式类似，人工智能会自动将信息整理成适合未来检索的结构化格式。通过这种方式，Claude 4系列模型能够在长时间的互动过程中不断深化对复杂领域的理解。

数月前，Anthropic在直播时演示Claude 3.7 Sonnet在《精灵宝可梦红》中的表现，致力于解决复杂任务场景下AI决策逻辑的理解与引导问题，这一探索对推进智能体技术具有关键意义。据该公司披露，Claude 4 Opus在《精灵宝可梦》游戏场景中展现出显著的迭代优势：以代理模式持续运行时长从初代的45分钟提升至24小时。

对比前代产品，Claude 4 Opus在长期记忆与任务规划维度实现突破：当识别到关卡需特定能力时，模型可通过为期两天的自主能力迭代再继续推进游戏。这证明了Claude 4 Opus在任务连贯性维持方面的技术跃升，为复杂工作流自动化场景提供了重要技术验证。

升级Claude Code功能

为使模型更贴近程序员使用需求，Anthropic正在针对Claude Code功能进行升级。Claude Code允许开发者通过终端直接运行Anthropic模型执行特定任务，现已实现与集成开发环境（IDE）的深度整合，并推出软件开发工具包（SDK），使开发人员能将其与第三方应用程序对接。

Anthropic还发布了针对Microsoft VS Code、JetBrains系列IDE及GitHub的Claude Code扩展程序与连接器。其中GitHub连接器允许开发人员标记Claude Code以响应代码审查者的反馈意见，同时支持尝试修复代码中的错误或实施其他类型的自动化修改。

AI模型在生成高质量软件代码方面仍面临挑战。这类代码生成工具常因编程逻辑理解等核心能力的不足，导致生成的代码存在安全漏洞或错误。然而其提升编码效率的潜力，正推动企业和开发者加速将其融入工作流程。Anthropic对此有着清醒认知，并承诺将加快模型迭代频率。

这家AI初创公司在公告草案中表示："我们正在转向更高频的模型更新节奏，通过持续不断的优化流，加快突破性功能落地客户侧的速度。这种模式通过持续优化增强模型能力，将助力用户保持技术领先地位。"

安全措施更为严格

Anthropic联合创始人、首席科学家贾里德·卡普兰

Anthropic联合创始人、首席科学家贾里德·卡普兰表示，在内部测试中，Claude Opus 4在指导新手制造生物武器方面比以往模型更为有效。他表示：“你可以尝试合成类似新冠或更危险版本的流感病毒—基本上，我们的模型表明这可能是可能的。”

正因为如此，Claude Opus 4是在比以往任何Anthropic模型都更严格的安全措施下发布的。这些措施—在内部称为人工智能安全等级3或“ASL-3”——用于对具备基础 STEM（科学、技术、工程和数学）背景的个人。在他们获取、制造或部署涉及化学、生物或核武器相关能力的AI系统时，Anthropic将会采取措施加以限制，以检测和拒绝特定类型的有害行为。

Claude4系列模型来了！编码能力强于o3和GPT-4.1，记忆性能大幅提升

推理革命重塑人工智能格局

双模式架构平衡速度与深度

升级Claude Code功能

安全措施更为严格

热门文章

相关推荐

站点推荐

热门标签