延边管道保温厂家刚刚，ChatGPT 和 Claude 同期大新，不会给 AI 当雇主的工东谈主要被淘汰

就在刚刚延边管道保温厂家，硅谷 AI 圈献技了出「火星撞地球」。

OpenAI 和 Anthropic 像约好了样，同期甩出了自的重磅新：Claude Opus 4.6 和 GPT-5.3-Codex。

淌若说昨晚之前，咱们还在有计划「怎么写好 Prompt 提拔职责」；那么今天凌晨，咱们可能被动要学会「如何算作雇主去管束 AI 职工」。

AI 造 AI，趁便接纳你的电脑

就在昨天，Sam Altman 刚在 X 平台上凡尔赛了把 Codex 的「百万活跃用户」里程碑。短短天后，OpenAI 再次乘胜逐北，扔出炸—— GPT-5.3-Codex。

本事文档里藏着句具重量的话：「这是咱们个在创造我方的经由中，施展了要道作用的模子。」

说东谈主话即是：AI 也曾学会了我方写代码、我方找 Bug，致使启动我方考研下代的 AI 了。这种自我进化才调，也平直体当今了连串跑分数据上。

还难忘阿谁模拟东谈主类操作电脑的 OSWorld-Verified 基准测试吗？前代模子唯有 38.2 的准确率，连格线都达不到。

但此次延边管道保温厂家，GPT-5.3-Codex 平直跳涨到了 64.7！

要知谈，东谈主类的平均水平也就 72。这意味着，AI 距离像你样练习地甩鼠标、切屏、操作软件，只剩基层窗户纸的距离。

而在 Terminal-Bench 2.0（敕令行操作）中，它是拿下了 77.3 的分，把 GPT-5.2（62.2）远远甩在死后。

著名 SWE-Bench Pro 基准测试秘密四种编程谈话，不仅抗浑浊，还全是真实全国的硬核工程结巴。

GPT-5.3-Codex 在这里不仅拿下了 SOTA（水平），何况用的 Token 比以往任何模子都少。这意味着什么？意味着它不仅干活猛，解决问题的旅途还比东谈主类短、省钱。

OpenAI 致使展示了它立构建的才调：延边管道保温厂家

在几天内，它从构建了款包含多张舆图的赛车游戏 v2，顺遂还管束了款管束氧气系统的海潜水游戏。

手机：18632699551（微信同号）

让我印象刻的是 GPT-5.3-Codex 对无极意图的通晓。

在构建「Quiet KPI」落地页时，它自动把「年度策划」换算成了「折后的月付价钱」，致使还贴心肠自动补充了用户评价轮播——这切，都不需要你下指示。

OpenAI 的贪心也曾写在脸上了：曩昔微软常说 AI 将会成为东谈主类的驾驶（Copilot），但当今 AI 想作念阿谁能掌控向盘、致使能我方修车的司机。

对了，还有个艳羡的细节。

此前外界哄传 OpenAI 对英伟达的 AI 芯片颇有微词，但此次官博客有益强调：GPT-5.3-Codex 的盘算推算、考研和部署都在 NVIDIA GB200 NVL72 系统上完成。

这波情商的「感谢英伟达」，属实是给足了黄仁勋好意思瞻念。

告别「金鱼记念」Claude 迎来地反击

在 GPT-5.3-Codex 发布的前后脚，Anthropic 也端出了我方的春节大礼包。

坏讯息是，大期待的 Claude「中杯」Sonnet 模子莫得新；但好讯息是，Anthropic 平直端出了「大杯」—— Claude Opus 4.6。

比拟于 OpenAI 在「行能源」上的激进，Anthropic 今天发布的 Claude Opus 4.6 则是在「想考力」和「可用」上死磕。

好多企业用户都有个名为 Context Rot（险峻文腐蚀）的痛点：堪称撑捏 200k 险峻文，但塞进去的数据多，AI 就启动顾前不顾后。

此次，Claude Opus 4.6 拿出的数据简直是「降维击」。

在 MRCR v2（长文本大海捞针）测试中，Claude Opus 4.6 的调回率达 76。

算作对比，上代 Sonnet 4.5 唯有耳不忍闻的 18.5。从某种进度上说，这是个从基本不成用到「可靠」的质变。

这是 Claude Opus 4.6 次引入了的确可用的 1M 险峻文窗口。

这意味着什么？意味着你不错把几百页的财报、几十万字的代码库平直扔给它，它不仅能读完，还能地告诉你 342 页脚注里的阿谁数字有问题。

让工东谈主目下亮的是它的分娩力。

面，Anthropic 这回平直把 Claude 塞进了 Excel 和 PowerPoint。它能凭证 Excel 数据平直生成 PPT，不仅保留排版作风，连字体和模板都能对都。在 Claude Cowork 互助环境中，它致使能进行自主多任务处理。

另面，Anthropic 趁势在 Claude Code 中出了施行的 Agent Teams ，让平凡建树者也能体验这种「训诫千军万马」的嗅觉：

角单干：你不错指定个 Claude Session 担任 Team Lead（组长），设备保温施工它不干脏活累活，门厚爱拆衔命务、分拨工单、并代码；其他的 Session 则是队友（Teammates），各自任务去干。

立作战：每个队友都有立的险峻文窗口（无谓惦记 Token 爆炸），它们致使能背着你彼此发讯息（Inter-agent messaging），有计划本事细节，后只把效果陈说给组长。

并行跑马：这东西有什么用？设想下查个执意 Bug，你不错生成 5 个 Agent，分歧考证 5 种不同的假定，像「跑马」样并行排雷；大致在 Code Review 时，让个队友扮「安全」查破绽，个扮「架构师」看能，互不干豫。

为了展示 Opus 4.6 的限，Anthropic 的掂量员 Nicholas Carlini 搞了个狂的施行：Agent Teams（智能体团队）。

他莫得躬行写代码，而是扔了 2 万好意思元的 API 额度，让 16 个 Claude Opus 4.6 构成个「全自动软件建树团队」。

效果在短短两周内，这群 AI 自主进行了 2000 多个编程会话，从手写了个 10 万行代码的 C 谈话编译器（基于 Rust）。

这个 AI 写的编译器，还获胜编译了 Linux 6.9 内核（涵盖 x86、ARM 和 RISC-V 架构），致使跑通了 Doom 游戏。

天然它还不够（比如生成的代码率不如 GCC），但这个案例也标明咱们不再是和 AI 起编程，而是看着个 AI 团队自主互助、查错、进面貌。

此外，它还学会了 Adaptive Thinking（自相宜理），能凭证难度我方决定「想多久」。加上新增的「智能强度」甘休，你不错在 Low 到 Max 四档之间切换。

订价面，Anthropic 此次很良心，看守在每百万 Token $5/$25 的基础订价。看来是为了占企业市集，铁了心要和 OpenAI 卷到底。

个是激进天才，个是靠谱老牛

著名 AI 评测东谈主 Dan Shipper 在时分搞了个「盲测」（Vibe Check），他的评价相称：

Claude Opus 4.6 是「上限，差」（High Ceiling, High Variance）。

它像是个才华横溢但偶尔跳脱的天才。在测试中，它平直解决了个让 iOS 团队卡了两个月的结巴；在 LFG Benchmark 中拿到了 9.25/10 的分。

但它偶尔也会「过度自信」，本正经地瞎掰八谈。淌若你需要打破的灵感，选它。

GPT-5.3-Codex 是「可靠，低差」（High Reliability, Low Variance）。

它像是个教会丰富、不掉链子的资工程师。理速率普及 25，简直不犯低舛错，持重得让东谈主快慰。

天然在创造任务上略逊筹（LFG 得分 7.5/10），但在闲居的 Coding 和运维任务中，它是的老黄牛。淌若你需要康健拜托，选它。

时分步入 2026 年，咱们的角启动发生变化。

在这个时分节点，关于平凡用户而言，大的变化莫过于此：Prompt Engineering（教唆词工程）的迫切正鄙人降，而 Agent Management（智能体管束）的才调启动浮出水面。

当 ChatGPT 不错自主修 Bug 致使操作你的终局，当 Claude 不错次隐隐 100 万字并定位细节时，咱们不再需要像教小学生样，把指示拆解得碎碎念。

咱们需要作念的，是学会如缘何「管束者」的身份，去界说想法、审核效果、以及——决定在什么时候，把什么任务交给哪位「职工」。

这即是 2026 年的新职场：你的团队里混入了群硅基天才延边管道保温厂家，而你是唯的碳基雇主。

延边管道保温厂家 刚刚，ChatGPT 和 Claude 同期大新，不会给 AI 当雇主的工东谈主要被淘汰

推荐资讯

热点资讯

推荐资讯

延边管道保温厂家刚刚，ChatGPT 和 Claude 同期大新，不会给 AI 当雇主的工东谈主要被淘汰