2026年的这一天将铭刻在人工智能发展的历史上。 Claude Opus 4.6 和 GPT-5.3 Codex 的发布间隔不到一个小时。两家公司似乎都屏住呼吸,同时等待发送回复。危机的背后是资本、技术和市场力量的争夺。就在两周前,英伟达宣布向 Anthropic 投资 100 亿美元,使 Anthropic 的估值升至 3500 亿美元。消息传出后不到 72 小时,Nvidia 改变了方向,向 OpenAI 追加注资 200 亿美元。黄仁勋的算计非常清楚。双方都下注,如果他赢了,就没有人输。但对于 Anthropic 和 OpenAI 来说,这不仅仅是获得报酬。两家公司均计划于2026年下半年至2027年左右启动上市程序。现在是企业展示技术实力、争夺市场定价权的关键时刻。投资者希望看到的是能够生产出来的产品,不是PPT的承诺。那些在现实应用中拥有更强大、更引人注目的模型的人将能够在 IPO 期间获得更高的价格并获得更多筹码。一山不能有两只老虎。 Anthropic 和 OpenAI 需要让彼此明白谁是老大。因此,这款产品的节奏并不是巧合,而是时间的碰撞。两家公司都认识到,目前每一次产品发布都是一次融资之旅,每一项技术进步都会直接影响投资者决策和市场预期。然而,当审视产品本身时,两家公司无疑都展示了其真正的潜力。 01Claude Opus 4.6Anthropic对Claude Opus系列的更新重点是“更智能地思考”。Opus 4.6最重要的变化是模型学会了“自适应思维”,根据任务的复杂程度自动调整思维深度,花更多的时间思考困难问题,加快e的速度简单的任务。至于编码功能,Opus 4.6 在 Terminal-Bench 2.0 评估中获得最高分。获得。该测试专门考察AI在终端环境下运行的能力。模型需要知道使用什么命令以及何时使用,如何组合不同的工具,以及如何通过错误消息发现问题。这就像测试一个程序员使用各种开发工具的熟练程度。他不仅需要编写代码,还必须能够调试、部署和读取日志以查找错误。更重要的是,Opus 4.6 是 Anthropic 第一个 Opus 级别的模型,提供了 100 万个 d 上下文 window.e 代币。这个数字意味着该模型可以同时处理相当于两本中等重量的小说。在长文本处理测试中,Opus 4.6 在 MRCR v2 的 8 针 1M 版本上得分为 76%。上一代Sonnet 4.5只有18.5%。理解这一点的一个简单方法是为您的模型提供大量文档并向其提出问题不需要结合多个数据来回答。在以前的模型中,人们在看到之前“忘记”了他们正在阅读的内容,或者无法找到重要信息。 Opus 4.6 可以在大量文本中准确找到您需要的信息,而不会因为文档太长而降低性能。在知识可操作性的GDPval-AA评估中,Opus 4.6比OpenAI的GPT-5.2高出约144个Elo点,比上一代Opus 4.5高出190点。该测试涵盖金融、法律等领域的实用领域,例如撰写财务分析报告、起草法律文件和进行市场研究。 Anthropic 还进行了许多产品级支持更新。 Claude Code 现在支持“代理团队”功能,允许您同时启动多个 AI 代理,每个代理负责不同的子任务并自动协调各自的工作。此功能在大型代码库中特别有用其中工作可以在不同的代理之间划分以实现并行性。在办公软件集成方面,Anthropic 发布了 Claude for PowerPoint 研究预览版,并对 Claude for Excel 进行了重大更新。 Claude 现在支持数据透视表编辑、图表修改和条件格式等功能,使您可以直接在 Excel 中处理更复杂的任务。在 PowerPoint 中,Claude 可以读取现有布局、字体和主布局,并使用这些样式创建新幻灯片。它是为了让人工智能成为日常工作中真正的工具。无需来回复制和粘贴。只需直接在 Excel 或 PowerPoint 的侧栏中与 Claude 交谈,他就会帮助您修改表格、创建图表并生成演示文稿。学习你的风格,这样你所做的一切就不会显得不合时宜。在API层面,Anthropic引入了“努力”参数,它提供了四个档位:低、中、高和最大。开发者可以根据自身情况选择合适的级别任务的复杂性,并在成本、速度和质量之间找到平衡。还有一个“上下文压缩”功能,当对话接近上下文窗口的限制时,它会自动总结并替换以前的内容,确保超出限制的长时间运行的任务不会被中断。这可以理解为给予开发者更多的控制权。对于简单的任务使用较低的设置可以节省资金并提高速度。对于复杂的任务使用更高的设置以确保质量。如果对话时间过长,系统会自动压缩之前的内容,使对话永远持续下去。在安全方面,Anthropic 进行了有史以来最全面的安全评估。在 Opus 4.6 中,自动行为审计显示欺诈行为(例如欺骗、奉承、宣扬用户欺骗以及串通滥用)的发生率较低。自 Opus 4.6 以来,随着网络安全功能的显着改进,Anthropic 已经开发了六种新的网络安全“探针”来检测潜在的欺诈活动。同时,他们也在使用我们的模型来查找和修复开源软件中的漏洞,我们希望防御者也能利用人工智能的力量。 02推进金融:金融领域的详细应用 Anthropic专门发表了一篇文章,详细介绍了Claude Opus 4.6在金融领域的应用。在金融行业,专业人士需要人工智能来做三件事:研究、分析和创造结果。 Opus 4.6 在这三个方面都达到了行业领先水平。在研究能力方面,Opus 4.6 在 BrowseComp 和 DeepSearchQA 基准测试上有所改进。这两项测试验证了模型从大量非结构化数据中提取特定信息的能力。对于金融分析师来说,这意味着他们可以向人工智能发送大量公司财务报告、行业报告和新闻文章,并提出非常具体的问题,允许人工智能提供具体的答案而不是一般性的总结。您将其包含在财务报告中。以前,如果你问人工智能“这家公司盈利多少?”,它会显示很长一段文字,有时会重复财务报告中所说的内容。现在我们可以直接告诉您哪些指标很重要,它们与行业平均水平的比较如何,以及存在哪些风险因素。分析能力方面,Opus 4.6在Financial Agent外部基准测试中取得了60.7%的准确率。这比 Opus 4.5 的准确度高 5.47%。 Opus 4.6 在 TaxEval 上也取得了业界最高的 76% 成绩。 Anthropic 将其与一项企业尽职调查任务进行了比较,其中要求 Claude Opus 4.6 评估潜在的收购目标。高级分析师通常需要两到三周才能完成此类工作。不过,Opus 4.6 的初步结果在结构、内容和格式上都比 Opus 4.5 更接近可直接使用的标准。这意味着哟您可以使用刚刚创建的内容进行一些修改。报告和 这种效率提升对于需要快速创建演示文稿的财务专业人士来说是实实在在的。 Anthropic 对“现实世界金融”的内部评估涵盖了大约 50 个金融和投资分析用例,包括生成和审查电子表格、幻灯片和文档。这些是投资银行、私募股权、公开市场投资和公司财务分析师的常见任务。 Opus 4.6 比几个月前的 Sonnet 4.5 提高了 23 个点以上。新的 Cowork 功能允许财务团队同时启动多个分析任务。 Cowork 允许 Claude 访问特定的本地文件夹并直接在其中读取、编辑和创建文件。对于财务团队来说,这意味着他们可以同时分配多个分析任务。您将监督 Claude 创建每个可交付成果的过程,确保 Claude 符合他自己的标准。 Codex 03GPT-5.3:训练您的 o在Claude Opus 4.6发布几十分钟后,奥特曼突然发了一条X,宣布Codex GPT-5.3。在这里我们也代表了AI这个词,给奥特曼和阿莫迪打脸,并分别给他们点赞和转发。 GPT-5.3 Codex 最好的部分是您可以像真正的同事一样与它一起工作,并在工作时进行对话。旧的 AI 是“说点什么,我就会做”,而 Codex GPT-5.3 是“随时问我”。给机器人一项复杂的任务,它会独自思考几个小时甚至几天。一路上你也可以主动汇报进展并寻求反馈。您可以随时停止并调整方向。有趣的是,OpenAI 使用了 Codex GPT-5.3 的早期版本来帮助开发更高版本。换句话说,让 AI 帮助您调试 AI 训练过程、修复错误并优化您的系统。 OpenAI 团队表示,这使得开发速度变得异常快。 GPCodex T-5.3在多项基准测试中创造了新的行业记录测试。 SWE-Bench Pro 是一项严格的真实软件工程评估,准确率达到 56.8%。与仅测试Python的SWE-bench Verified不同,SWE-Bench Pro涵盖四种编程语言,并且更耐污染,更具挑战性,更多样化,更接近行业现实。在 Terminal-Bench 2.0 中,Codex GPT-5.3 达到 77.3%,显着高于之前的 64%。该测试衡量代码代理所需的终端技能,以及在命令行环境中完成各种操作的能力。值得注意的是,Codex GPT-5.3 使用的代币比以前的型号更少,允许用户以相同的成本做更多的事情。在 OSWorld-Verified 测试中,GPT-5.3 Codex 得分为 64.7%,而 GPT-5.2-Codex 仅得分 38.2%。这是对座席计算机使用情况的对比测试,其中需要人工智能在可视化桌面环境中完成生产力任务。人类在此测试中的得分约为 72%,Codex GPT-5.3 接近人类水平。来自网络开发从角度来看,OpenAI 提供了一个比较示例,说明 GPT-5.3 Codex 和 GPT-5.2-Codex 如何分别为 SaaS 产品创建登陆页面。 Codex GPT-5.3自动将包年套餐显示为每月折扣价格,使优惠显得更清晰、更贴心。列出,而不是简单地将其乘以全年总价。 GPT-5.3 CodexGPT-5.2 Codex 还创建了一个自动切换的用户评论轮播,现在包含三个不同的用户评论,而不是只有一个,使整个页面感觉更完整,更接近准备在线发布。简而言之,就是兼顾用户体验和营销效果。我们不是机械地实现功能,而是思考“如何才能做得更好”。这种细节和对最终效果的理解将有助于使您的创作更接近专业水平。 Codex GPT-5.3 的功能不仅限于加密。我们支持所有软件生命周期活动,包括包括调试、部署、监控、产品需求文档创建、写作编辑、用户研究、测试和指标分析。在 GDPval 测试中,GPT-5.3 Codex 的表现与 GPT-5.2 一样,取得了 70.9% 的胜率或平局率。该测试衡量模型在 44 种职业的显性知识工作任务上的表现,包括创建演示文稿、电子表格和其他工作产品。有趣的是,两家公司都强调“使用自己的产品”。 Anthropic 表示:“我们用 Claude 打造了 Claude”,OpenAI 表示:“Codex GPT-5.3 在其开发过程中发挥了关键作用。”其实,这就是最好的广告。如果自己的工程师都不愿意用,怎么指望别人用呢?而从技术演进的角度来看,这两种模型都代表了人工智能从“回答问题”到“做工作”的转变。他们不再满足于简单地生成一段文本或代码;他们必须能够执行完整的工作流程并生成可直接使用的工件。这种转变需要人工智能拥有更大的空间。人工智能需要了解业务和技术。不仅要能做,而且要能做好。它不仅要快,还要稳定。特别是,两家公司都没有回避与提高人工智能能力相关的风险。 Anthropic 进行了“有史以来最全面的安全评估”,OpenAI 实施了“最全面的网络安全保障措施”。从用户角度来看,两家公司之间的竞争是一件好事。可以针对不同的需求和不同的任务找到不同的解决方案。您可以根据自己的风格选择不同的工具。更重要的是,竞赛将鼓励双方不断创新,突破AI能力的边界。而这两款产品的推出也标志着AI进入了一个新的阶段。这不再是“我们能做到吗?”的问题。这是一个问题of“我们怎样才能做得更好?”
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布。它是一个社交媒体平台,仅提供信息存储服务。