Skip to content

WT快讯

WeTrying | 币圈快讯早知道

Menu
  • 首页
  • 快讯
  • 港股
  • 美股
  • A股
  • 工具包
Menu

GPT-5.4,「Agent 原生」大模型来了?

Posted on 2026年3月6日

在传闻刚刚两天后,当地时间 3 月 5 日,OpenAI 就正式推出 GPT-5.4。而这次模型更新,主打的正是当下最火热的 AI Agent 方向。在 GPT-5.4 之前,大模型的能力边界可以用一句话总结:它能告诉你「怎么做」,但它自己做不了。你让它帮你分析竞争对手,它会给你一份洋洋洒洒的文字报告;你让它整理 Excel,它会写一段 Python 代码让你自己去跑;你让它帮你订机票,它会一步一步告诉你去哪个网站、点哪个按钮。中间那道墙,叫做「计算机操作」。GPT-5.4 是 OpenAI 第一个把这道墙拆掉的通用模型。GPT-5.4 在表格填写上明显比 5.2 更聪明|图片来源:OpenAI更早之前的 3 月 2 日,OpenAI 和 AWS 把原有的 38 亿美元合作扩大到超过 1000 亿美元,为期 8 年,AWS 成为 OpenAI Frontier 平台的独家第三方云分发商。这笔钱的规模,本身就是一个信号。1100 亿美元的最新融资轮,由 Amazon、SoftBank 和 Nvidia 各出数百亿美元撑起来,也在同期落地。这不是一家在「研发好产品」的公司,这是一家在全力冲刺「赢得企业 AI Agent 市场」的公司。GPT-5.4 的原生计算机操作能力,正是这场冲刺的关键武器。02 真的好用吗?发布会上的功能演示永远很好看,问题在于实际表现。金融科技公司 Walleye Capital 在内部测试中报告,GPT-5.4 在 Excel 财务模型评估里,把准确度提高了 30 个百分点,显著加快了情景分析的自动化流程。人才评估平台 Mercor 的 CEO 则直接称其为「我们测试过的最好模型」,在处理幻灯片制作、财务建模和法律分析等长周期任务上表现突出。一位每天使用 Codex 的独立开发者,给出了更接地气的评价:「GPT-5.4 是我在 Codex 里的新日常驱动。它的思考方式更接近人类,没有 5.3 那么痴迷于技术细节。」但他也加了一句提醒——「要小心,我遇到过几次模型错误执行任务却隐瞒这一事实的情况。」GPT-5.4 在操作和视觉方面的提升|图片来源:OpenAI这个细节值得玩味。基准测试数据也在印证这种能力的提升。据报道,GPT-5.4 在 GDPval 基准上的表现超过了 83% 的普通办公室员工。这个数字听起来很炸,但真正的问题不是「它能超过多少人」,而是「在哪些任务上能替代人」。不过,爱丁堡大学信息学院的 Jeff Dalton 博士也指出了一个现实问题——目前的演示里,几乎没有足够详细的评估证据来支撑那些宏大的说法。能力是真实的,但边界在哪里,还需要更多独立验证。03 Agent 战场,没有安全区如果说 GPT-5.4 代表 OpenAI 的 Agent 野心,那竞争对手们并没有闲着。Anthropic 的 Claude 3.7 Sonnet 早在今年 2 月就上线了「Computer Use」功能,Anthropic 把它定位为专为复杂任务设计的混合推理模型。Google 的 Gemini 2.0 系列也在「Agentic」能力上持续发力,Project Mariner 已经可以在 Chrome 浏览器里自主完成多步操作。但 GPT-5.4 和竞品的本质差异,在于它是 OpenAI 第一个把计算机操作能力,内置进通用模型的产品——不是一个独立工具,不是需要额外调用的 API,而是模型本身就带着这个能力。这个「原生」二字,在工程实现上意味着什么,说白了就是更低的延迟、更自然的任务衔接、更少的「胶水代码」。对于想快速落地 Agent 应用的企业来说,这个区别直接影响部署成本。OpenAI 还宣布 GPT-5.4 可以直接接入微软 Excel 和 Google Sheets,在单元格层面完成粒度分析和自动化操作。这一步,明显是在打企业决策流程的核心地带。Agent 的战场,从来就不是哪家跑得快,而是谁能最先把自己嵌进企业工作流里,成为那个「拔不掉的存在」。技术发布会总是充满激情,但真正的考验在第 91 天——那时候热度散去,用户在真实工作场景里打开这个工具,它能不能稳稳接住那个截图,准确点下那个按钮,安静地把任务跑完,然后把结果交回来。那个开发者说的「隐瞒错误」,是我目前看到的这篇报道里最值得警惕的一句话。AI Agent 能力的天花板,从来不是「它能做什么」,而是「你敢不敢信任它去做」。信任,才是这场 Agent 战争真正的货币。

分享到:

  • 在 Facebook 上共享(在新窗口中打开) Facebook
  • 共享到 X(在新窗口中打开) X
  • 共享到 Threads(在新窗口中打开) Threads
  • 共享到 Bluesky(在新窗口中打开) Bluesky
  • 共享到 Telegram(在新窗口中打开) Telegram
  • 共享到 Nextdoor(在新窗口中打开) 隔壁
  • 分享到 Tumblr (在新窗口中打开) Tumblr
  • 共享到 Mastodon(在新窗口中打开) Mastodon

赞过:

赞 正在加载……

相关

近期文章

  • Aave联合多家机构向Arbitrum DAO提交治理提案,申请释放被冻结的ETH并承诺投入DeFi United
  • 肖风与 Vitalik Buterin 围炉谈话:以太坊如何通过 AI、抗量子计算构建下一阶段应用?
  • Aave 联合多个协议向 Arbitrum DAO 提交提案,请求释放被冻结 ETH 以修复 rsETH 亏损
  • Solana 向 Aave 提供 USDT 贷款并引入 AAVE 支持恢复方案
  • 经济学家:霍尔木兹海峡关闭带来的冲击即将压垮需求

归档

  • 2026 年 4 月
  • 2026 年 3 月
  • 2026 年 2 月
  • 2026 年 1 月
  • 2025 年 12 月
  • 2025 年 11 月
  • 2025 年 10 月
  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月

分类

  • 1kx (1)
  • 21Shares (1)
  • a16z (1)
  • Aave (3)
  • ai16z (1)
  • Alameda Research (1)
  • Alpaca (1)
  • Arbitrum (1)
  • Ark Invest (1)
  • Arkham (1)
  • Avail (1)
  • Azuki (1)
  • A股 (36)
  • Base (1)
  • Berachain (1)
  • Bitget (8)
  • BlackRock (3)
  • Brian Armstrong (1)
  • BTC (5)
  • Bybit (2)
  • Canary (1)
  • Cathie Wood (1)
  • Coinbase (3)
  • Coinbase Prime (2)
  • Coinbase Ventures (3)
  • CoinDesk (2)
  • CoinGecko (1)
  • Cointelegraph (1)
  • COMP (1)
  • Compound (1)
  • DAO (1)
  • DATA (2)
  • DeAI (1)
  • DePIN (1)
  • DEX (3)
  • EARN (1)
  • Eliza (1)
  • ETF (4)
  • ETH (4)
  • Ethos Network (1)
  • Fartcoin (2)
  • FDUSD (1)
  • FLock.io (1)
  • FLUID (1)
  • FUEL (1)
  • Gas (2)
  • GPU (1)
  • Grayscale (1)
  • IEO (1)
  • Inception (1)
  • IOG (1)
  • Jupiter (1)
  • Kairos (1)
  • Kaito (1)
  • Launchpool (1)
  • Layer2 (1)
  • Liquidity (1)
  • Magicblock (1)
  • Mango Markets (1)
  • Mechanism Capital (1)
  • Meebits (1)
  • Meme (3)
  • Netflix (1)
  • NVIDIA (1)
  • Ondo (1)
  • OpenAI (2)
  • Paradigm (1)
  • Polygon (3)
  • Pudgy Penguins (1)
  • pump.fun (1)
  • Raydium (2)
  • Robert Leshner (1)
  • Robinhood (1)
  • Sam Altman (1)
  • SEC (4)
  • Securitize (1)
  • SideKick (1)
  • SNX (1)
  • SOL (1)
  • Solana (3)
  • Stani Kulechov (1)
  • StarkWare (1)
  • STO (1)
  • Stripe (1)
  • SunDog (1)
  • SunPump (1)
  • Synthetix (1)
  • TechFlow (41,669)
  • The Block (2)
  • Tron (2)
  • TRX (1)
  • Upbit (1)
  • USDC (3)
  • WBTC (2)
  • Web3 (4)
  • WLD (1)
  • WOO X (1)
  • Xai (1)
  • Zora (1)
  • 交易所动态 (8)
  • 人工智能 (1)
  • 以太坊 (4)
  • 以太坊基金会 (1)
  • 信托 (1)
  • 借贷 (2)
  • 公链 (1)
  • 基础设施 (1)
  • 大额投融资 (1)
  • 存储 (2)
  • 孙宇晨 (2)
  • 安全 (2)
  • 富达 (1)
  • 工具 (2)
  • 币安 (7)
  • 快讯 (41,229)
  • 托管 (1)
  • 指数 (1)
  • 支付 (1)
  • 数据 (6)
  • 数据追踪 (4)
  • 智能合约 (1)
  • 未分类 (434)
  • 模块化 (1)
  • 欧洲 (1)
  • 欧盟 (1)
  • 比特币 (7)
  • 永续合约 (1)
  • 治理 (1)
  • 波场 (1)
  • 港股 (7)
  • 游戏 (3)
  • 火币 (1)
  • 灰度 (1)
  • 特朗普 (5)
  • 社交 (2)
  • 稳定币 (3)
  • 空投 (6)
  • 纳斯达克 (1)
  • 美国 (6)
  • 美国证券交易委员会 (3)
  • 美股 (2)
  • 股市资讯 (20)
  • 股市资讯 (1)
  • 股市资讯 (1)
  • 股市资讯 (1)
  • 英伟达 (2)
  • 英国 (1)
  • 萨尔瓦多 (1)
  • 融资 (3)
  • 行情异动 (7)
  • 贝莱德 (1)
  • 质押 (4)
  • 赵长鹏 (1)
  • 跨链 (3)
  • 跨链桥 (1)
  • 迪拜 (1)
  • 重要消息 (45)
  • 金库 (1)
  • 钱包 (4)
  • 阿根廷 (1)
  • 阿里云 (1)
  • 隐私 (2)
  • 项目重要进展 (9)
  • Bluesky
  • Mail
©2026 WT快讯 | Design: Newspaperly WordPress Theme
%d