WT快讯

WeTrying | 币圈快讯早知道

WT快讯

WeTrying | 币圈快讯早知道

TechFlow

模型之外皆属Harness:Deepseek下场,国内AI竞争主战场为何变了?

2026年5月,DeepSeek组建Harness团队,进军代码智能体,对标Claude Code,标志AI竞争从“炼大模型”转向“造工具链”。Harness是Agent的运行时基础设施,负责工具调度、上下文管理、错误恢复。模型公司亲自掌控它,才能获取应用层数据飞轮,优化模型。实测中,工具输出占Agent上下文的67.6%,Harness的压缩与恢复机制决定任务成功率。国内腾讯推WorkBuddy企业版,做组织协同连接器;阿里开源PageAgent,让网页秒变AI原生应用。海外Viktor以AI员工模式实现2000万美元ARR,验证企业愿为自主执行付费。挑战在于Token爆炸,需要沙箱、断点续传等“厚框架”特性。受海外工具限制影响,国产Harness填补真空,企业选型应侧重工程交付与生态兼容性。

2026年5月中下旬,Deepseek内部组建了全新的Harness团队,方向为代码智能体产品,内部对标Anthropic旗下的Claude Code。前Jane Street明星量化工程师崔天一在3月加入该团队,资深研究员陈德里公开证实并负责招聘。在Deepseek的招聘JD中,明确写着一个公式:“Model + Harness = Agent”。当基础大模型的能力逐渐拉平,单纯拼参数的时代正在过去。Deepseek亲自下场组建工具链团队,标志着国内AI竞争的主战场正从“炼大模型”转向“造工具链与办公落地”。

Deepseek为何亲自下场做Harness?

在很长一段时间里,开发者对Deepseek的期待停留在开源更强大的基础模型上。但代码能力强不等于开发者会将其作为生产力工具。真正改变工作方式的不是聊天框里的代码回答,而是能进入终端、理解项目、读写文件、运行命令、修复错误的工程智能体。在官方出手前,开发者社区已基于Deepseek模型做出了各类开源终端Agent。Deepseek此时组建Harness团队,意在掌握接口设计权与训练数据闭环,将社区踩出的路收编为官方主干产品。

要理解这一战略意图,必须先弄清楚Harness到底是什么。对于非技术背景的读者而言,“Harness”这个词可能有些陌生。在Deepseek的公式中,模型负责推理,Harness负责其他一切。Harness原本在工程领域有“马具”或“安全带”的意思,引申到AI领域,它指的是Agent的“运行时基础设施”。

为了更通俗地理解,我们可以把大模型比作一个高智商打工人的“大脑”和“智力”,而Harness就是这名打工人的“岗位职责说明书、KPI考核标准、办公防爆墙以及工具箱”。它不是运行前组装的“脚手架”,也不是提供构建块的“框架”,而是一个持续运行的系统。它负责编排执行循环,分发工具调用,管理上下文,执行安全检查,并负责错误恢复与状态持久化。大模型本身是无状态、无环境交互能力的,它只能接收文本输入并输出文本。而Harness弥补了这些缺陷,让模型能够真正与外部世界交互,执行具体任务。

为什么基础模型公司必须亲自掌握这套运行时?核心在于Agent产品不仅是模型能力的出口,更是模型能力的训练场。Deepseek的JD中强调“实现模型与Harness的共同进化”。在真实的复杂任务中,模型会遇到各种由于环境限制、工具返回异常导致的失败。Harness记录这些失败轨迹,能够反哺模型训练,形成飞轮效应。如果任由社区代建,模型厂商将失去最核心的应用层数据反馈,沦为单纯的算力与权重提供商。

从工程角度看,优化Harness比单纯优化Prompt更能决定Agent的成败。据技术专家分析,在Agent运行中,工具输出占Agent在上下文中实际看到内容的67.6%,而系统提示词仅占3.4%。这意味着模型的大部分“视野”被工具调用的结果占据。如果Harness对工具输出的格式处理不当,或者未能有效压缩冗余信息,模型就会陷入“上下文腐烂”,导致后续推理质量急剧下降。

更致命的是复合错误问题。一个包含10个步骤、每步可靠性为99%的Agent过程,端到端成功率约为90%;当任务复杂度提升到50步时,成功率暴跌至60%。在真实的代码库维护或企业办公自动化场景中,几十个步骤的连续操作是常态。此时,模型本身的推理能力再强,也无法弥补概率上的累积损耗。只有通过Harness中的错误处理与恢复机制,才能在步骤失败时进行重试或路径修正。这正是Harness的工程价值所在,也是Deepseek必须亲自下场的原因。

腾讯做连接器,阿里做前端渗透:大厂工具链的差异化路径

Deepseek的转向并非孤例。据行业媒体报道,强化Agent能力已成为国产基础大模型2026年的重要发展方向。基础模型逐渐沦为“水电煤”,竞争主战场转向应用层。国内其他大厂也在通过工具链寻找差异化卡位,但路径各不相同,这背后反映了各家生态禀赋和目标用户的差异。

腾讯在2026年6月打出了企业Agent新底牌,推出WorkBuddy企业版。其核心定位是全场景职场智能体桌面工作台,主打从个人提效走向组织协同。WorkBuddy企业版支持多Agent并行与业务系统Connector接入,试图抢占AI办公统一入口。腾讯的卡位逻辑依托于其庞大的企业微信与腾讯云生态。对于大型企业而言,AI办公的痛点不在于单点工具的极致体验,而在于能否打通内部孤立的办公系统。腾讯通过做连接器,让Agent能够直接调度企业数据与流程,侧重于组织级的协同与复杂任务交付。这种路径的优势在于壁垒高,一旦接入企业核心业务流程,替换成本极大;挑战则在于需要极强的企业服务能力和定制化支持。

阿里则另辟蹊径,选择在Web端降低自动化门槛。阿里开源了纯前端浏览器内GUI Agent框架PageAgent。这一框架无需后端部署,一行代码即可让网站集成AI操作员能力。阿里的卡位逻辑在于赋能Web开发者,让任何网页秒变AI原生应用。在大量传统企业系统无法提供API接口的现实下,通过前端DOM操作实现自动化,是一条务实的降维打击路径。这种路径的优势在于轻量、易集成,能够快速覆盖海量长尾网站;但前端DOM结构频繁变动也可能带来稳定性挑战,对Harness的错误恢复能力提出了更高要求。

对比来看,各家不再单纯比拼模型跑分,而是根据自身的生态禀赋构建工具链。腾讯做连接器,阿里做前端渗透,Deepseek则从开发者最刚需的代码工程场景切入。这种分化表明,国内AI行业已经认识到,没有完美的通用Agent,只有在特定场景下通过厚重的Harness工程打磨出的垂直解决方案。对于企业采购而言,选择哪家工具链,本质上是在选择哪种自动化路径:是深度绑定办公生态,还是灵活嵌入现有Web系统,或是赋能开发者的工程工作流。

Viktor的2000万美元ARR证明:企业愿意为自主执行付费

工具链的成熟,正在改变AI参与办公领域的范式。原生Copilot的逻辑是“起草并等待人类完成”,AI生成一段文案或一段代码,最后一步仍需人工介入修改和执行。这种模式下,AI只是一个提效工具,无法真正替代劳动力。企业员工需要时刻盯着AI的输出,进行校验和落地,这实际上增加了认知负担。

海外市场已经出现了范式转移的明确信号。作为海外趋势参照,波兰AI办公自动化公司Viktor定位为Slack内的AI员工,在无销售团队的情况下实现了2000万美元年化收入(ARR),服务3万家企业,并于2026年5月获7500万美元A轮融资。Viktor的模式代表了新型AI员工的终局形态:拥有云端电脑,能长时间持续作业,牢牢把握海量上下文,直接交付结果。

Viktor定位为Tier 3 AI Coworker,这意味着它处理的不再是简单的问答,而是营销审计、广告管理、线索研究等需要多步骤、长时运行的复杂任务。企业端对这种无需人类最后确认、能长时间持续作业的AI存在巨大付费意愿。这种商业数据的爆发,证明了办公自动化的价值锚点已经从“辅助生成”转移到了“自主执行”。

国内厂商布局Harness与Agent工具链,正是为了承接这一趋势。当Harness能够提供足够的安全护栏、状态持久化和错误恢复能力时,AI就能从需要人类时刻盯着的“实习生”,变成可以独立交付工作成果的“外包商”。企业采购的关注点也将从模型参数大小,转向Agent能否稳定运行8小时而不崩溃,能否自动处理API限流与网页结构变更。对于开发者而言,这意味着构建AI应用的焦点将从“如何写好Prompt”转向“如何设计稳健的运行时环境”。

Token爆炸与“厚框架”的工程壁垒

转向工具链竞争后,企业采购和开发者在实际落地中面临的挑战并未减少,反而更加聚焦于工程层面。

首当其冲的是Token爆炸问题。长时运行的Agent在“思考、行动、反馈”的循环中,极易因冗余的工具输出导致上下文迅速膨胀。开发者社区广泛讨论这一难题,认为这不仅推高了推理成本,更会导致模型注意力分散,任务失败率骤升。例如,在执行一个网页数据抓取任务时,如果Harness将整个网页的HTML源码原封不动地塞入上下文,模型很快就会迷失在冗余信息中,忘记最初的任务目标。因此,Harness的上下文压缩与记忆管理能力,成为企业采购时的核心考量指标。一个优秀的Harness必须知道哪些历史信息可以丢弃,哪些工具返回结果需要摘要,这考验的是深厚的工程架构能力,而非模型本身的智力。

这也引发了开发者对“套壳”薄框架的警惕。如果大模型厂商推出的Harness只是简单的API封装,提供基本的对话窗口和工具调用接口,将缺乏实际的调试价值。生产环境中的脆弱性,要求Harness必须具备沙箱隔离、细粒度权限控制、断点续传等“厚框架”特性。只有具备深厚工程壁垒的运行时,才能真正解决企业级应用的稳定性需求。例如,在代码执行场景中,Harness必须提供安全的沙箱环境,防止模型生成的恶意代码破坏宿主系统;在长时任务中,必须支持断点续传,避免因网络波动导致整个任务从头再来。

此外,地缘政治因素为国产Harness留出了巨大的市场真空。Claude Code等海外顶尖工程智能体产品对中国大陆及中资企业实施访问限制。国内开发者在无法直接使用这些顶尖工具的情况下,只能寻求国产替代。Deepseek组建Harness团队,不仅是对技术趋势的跟进,更是对这一庞大替代需求的响应。

对于企业采购和开发者而言,理解Harness的价值,意味着在选择AI产品时,不再被炫酷的对话演示所迷惑,而是去追问它的错误恢复机制是什么,上下文管理策略是什么,以及它能否真正融入现有的工作流。在工具链竞争阶段,企业应优先考察厂商的工程交付能力和生态兼容性,而非单纯比较模型跑分;开发者则应关注Harness框架的开放程度和调试工具链完善度,选择能够提供深度可控运行时的平台。


发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注