Skip to content

WT快讯

WeTrying | 币圈快讯早知道

Menu
  • 首页
  • 快讯
  • 港股
  • 美股
  • A股
  • 工具包
Menu

a16z:大模型部署即失忆,「持续学习」能打破这个死循环吗?

Posted on 2026年4月24日

作者: Malika Aubakirova、Matt Bornstein 编译: 深潮 TechFlow 深潮导读: 大语言模型训练完就被「冻住」了,部署后只能靠上下文窗口、RAG 等外部补丁维持运转,本质上和《记忆碎片》里的失忆症患者一样——能检索,但无法真正学到新东西。a16z 两位合伙人系统梳理了「持续学习」这一前沿研究方向,从上下文、模块到权重更新三条路径,拆解了这个可能重新定义 AI 能力天花板的技术赛道。在克里斯托弗·诺兰的《记忆碎片》(Memento)里,主角 Leonard Shelby 活在一个破碎的当下。脑损伤让他患上了顺行性遗忘症,无法形成新记忆。每隔几分钟,他的世界就重置一次,被困在永恒的「此刻」,不记得刚才发生了什么,也不知道接下来会怎样。为了活下去,他在身上纹字、拍拍立得,靠这些外部道具来替代大脑无法完成的记忆功能。大语言模型也活在类似的永恒当下。训练结束后,海量知识被冻结在参数里,模型无法形成新记忆,无法根据新经验更新自己的参数。为了弥补这个缺陷,我们给它搭了一堆脚手架:聊天历史充当短期便签,检索系统当外部笔记本,系统提示词就像身上的纹身。但模型本身,从来没有真正内化过这些新信息。越来越多的研究者认为,这样不够。上下文学习(ICL)能解决的问题,前提是答案(或答案的碎片)已经存在于世界的某个角落。但对于那些需要真正发现的问题(比如全新的数学证明),对抗性场景(比如安全攻防),或者那些太隐性、无法用语言表达的知识,有充分的理由认为:模型需要一种方式,在部署之后把新知识和经验直接写入参数。上下文学习是临时的。真正的学习需要压缩。在我们允许模型持续压缩之前,可能都困在《记忆碎片》的永恒当下里。反过来说,如果我们能训练模型学会自己的记忆架构,而不是依赖外挂的定制工具,可能会解锁一个全新的 scaling 维度。这个研究领域叫持续学习(continual learning)。这个概念并不新(参见 McCloskey 和 Cohen 1989 年的论文),但我们认为它是当前 AI 领域最重要的研究方向之一。过去两三年模型能力的爆发式增长,让模型「已知」和「能知」之间的鸿沟越来越明显。这篇文章的目的是分享我们从该领域顶级研究者那里学到的东西,帮助厘清持续学习的不同路径,并推动这个话题在创业生态中的发展。注:这篇文章的成型得益于与一群优秀的研究者、博士生和创业者的深度交流,他们慷慨地与我们分享了自己在持续学习领域的工作和见解。从理论基础到部署后学习的工程现实,他们的洞见让这篇文章比我们独自撰写的要扎实得多。感谢你们贡献的时间和想法!先聊上下文在为参数级学习(即更新模型权重的学习)辩护之前,有必要承认一个事实:上下文学习确实管用。而且有一种很有力的论证认为它会继续赢下去。Transformer 的本质是基于序列的条件化下一个 token 预测器。给它正确的序列,你就能得到令人惊讶的丰富行为,根本不需要碰权重。这就是为什么上下文管理、提示工程、指令微调和少样本示例这些方法如此强大。智能封装在静态参数里,而表现出来的能力随着你喂进窗口的内容剧烈变化。Cursor 最近关于自主编程智能体 scaling 的深度文章就是一个好例子:模型权重是固定的,真正让系统跑起来的是对上下文的精心编排——放什么进去、什么时候做摘要、如何在数小时的自主运行中维持连贯状态。OpenClaw 是另一个好例子。它爆火不是因为有特殊的模型权限(底层模型所有人都能用),而是因为它把上下文和工具极其高效地转化成了工作状态:追踪你在做什么、结构化中间产物、决定什么时候重新注入提示词、维持对之前工作的持久记忆。OpenClaw 把智能体的「外壳设计」提升到了一个独立学科的高度。当提示工程最初出现时,很多研究者对「只靠提示词」能成为正经接口这件事持怀疑态度。它看起来像个 hack。但它是 Transformer 架构的原生产物,不需要重新训练,而且随着模型进步自动升级。模型变强,提示就变强。「简陋但原生」的接口往往能赢,因为它直接耦合到底层系统,而不是和它对着干。到目前为止,LLM 的发展轨迹正是如此。状态空间模型:上下文的类固醇版当主流工作流从原始 LLM 调用转向智能体循环时,上下文学习模型面临的压力越来越大。过去,上下文窗口被完全填满的情况相对少见。这通常发生在 LLM 被要求完成一长串离散任务时,应用层可以用比较直接的方式裁剪和压缩聊天历史。但对智能体来说,一个任务就可能吃掉总可用上下文的很大一部分。智能体循环的每一步都依赖于前序迭代传递的上下文。而且它们经常在 20 到 100 步之后失败,因为「断了线」:上下文被填满,连贯性退化,无法收敛。因此,主要 AI 实验室现在投入了大量资源(即大规模训练运行)来开发超长上下文窗口的模型。这是一条自然的路径,因为它建立在已经有效的方法(上下文学习)之上,并且与行业向推理时计算转移的大趋势契合。最常见的架构是在普通注意力头之间穿插固定记忆层,即状态空间模型(SSM)和线性注意力变体(下文统称为 SSM)。SSM 在长上下文场景下提供了根本性更好的 scaling 曲线。图注:上下文学习失败、参数学习可能胜出的问题类别更重要的是,上下文学习只能处理能用语言表达的东西,而权重可以编码提示词无法用文字传达的概念。有些模式维度太高、太隐性、太深层结构化,放不进上下文。比如,医学扫描中区分良性伪影和肿瘤的视觉纹理,或者定义一个说话人独特节奏的音频微波动,这些模式不容易被分解成精确的词汇。语言只能近似它们。再长的提示词也传递不了这些东西;这类知识只能存活在权重里。它们活在学习表征的潜空间中,不是文字。无论上下文窗口增长到多大,总有一些知识是文本无法描述的,只能被参数承载。这也许能解释为什么显式的「机器人记住你」功能(比如 ChatGPT 的 memory)经常让用户感到不适而非惊喜。用户真正想要的不是「回忆」,而是「能力」。一个已经内化了你行为模式的模型可以泛化到新场景;一个只是回忆你历史记录的模型做不到。「这是你上次回复这封邮件时写的内容」(逐字复述)和「我已经足够理解你的思维方式,能预判你需要什么」之间的差距,就是检索和学习的差距。持续学习入门持续学习有多种路径。分界线不在于「有没有记忆功能」,而在于:压缩发生在哪里? 这些路径沿一个光谱分布,从无压缩(纯检索,权重冻结),到完全内部压缩(权重级学习,模型变得更聪明),中间还有一个重要地带(模块)。图注:权重级学习的研究方向概览权重级研究涵盖了多条并行路线。正则化和权重空间方法历史最久:EWC(Kirkpatrick et al., 2017)根据参数对先前任务的重要性来惩罚参数变化;权重插值(Kozal et al., 2024)在参数空间中混合新旧权重配置,但两者在大规模上都比较脆弱。测试时训练由 Sun et al.(2020)开创,后来发展为架构原语(TTT 层、TTT-E2E、TTT-Discover),思路截然不同:在测试数据上做梯度下降,在需要的那一刻把新信息压缩进参数。元学习问的是:我们能否训练出懂得「如何学习」的模型?从 MAML 的少样本友好参数初始化(Finn et al., 2017)到 Behrouz et al. 的嵌套学习(Nested Learning, 2025),后者将模型结构化为一个分层优化问题,不同时间尺度上运行快速适配和慢速更新的模块,灵感来自生物记忆巩固。蒸馏通过让学生模型匹配冻结的教师检查点来保留先前任务的知识。LoRD(Liu et al., 2025)通过同时裁剪模型和回放缓冲区,让蒸馏高效到可以持续运行。自蒸馏(SDFT, Shenfeld et al., 2026)翻转了来源,用模型自己在专家条件下的输出作为训练信号,绕过了序列微调的灾难性遗忘。递归自我改进运作在类似的思路上:STaR(Zelikman et al., 2022)从自生成的推理链中引导推理能力;AlphaEvolve(DeepMind, 2025)发现了几十年未被改进的算法优化;Silver 和 Sutton 的「经验时代」(2025)把智能体学习定义为一个永不停止的持续经验流。这些研究方向正在汇聚。TTT-Discover 已经融合了测试时训练和 RL 驱动的探索。HOPE 把快慢学习循环嵌套在单一架构内。SDFT 把蒸馏变成了自我改进的基本操作。列与列之间的边界正在模糊。下一代持续学习系统很可能会组合多种策略:用正则化来稳定,用元学习来加速,用自我改进来复利。一批越来越多的创业公司正在押注这个技术栈的不同层级。持续学习创业版图光谱的非参数端最为人熟知。外壳公司(Letta、mem0、Subconscious)构建编排层和脚手架,管理放进上下文窗口的内容。外部存储和 RAG 基础设施(如 Pinecone、xmemory)提供检索骨干。数据存在,挑战是在正确的时间把正确的切片放到模型面前。随着上下文窗口扩展,这些公司的设计空间也随之增长,特别是在外壳端,一波新的创业公司正在涌现来管理日益复杂的上下文策略。参数端更早期、也更多元。这里的公司在尝试某种版本的「部署后压缩」,让模型在权重中内化新信息。路径大致可以分成几种不同的赌注,关于模型在发布后应该「怎样」学习。部分压缩:不重训也能学。 一些团队在构建可插拔的知识模块(压缩的 KV 缓存、适配器层、外部记忆存储),让通用模型在不动核心权重的情况下实现专业化。共同的论点是:你可以获得有意义的压缩(不只是检索),同时把稳定性-可塑性的权衡控制在可管理范围内,因为学习是隔离的,而不是分散在整个参数空间。8B 模型配上合适的模块,可以在目标任务上匹配远大模型的表现。优势是可组合性:模块可以和现有 Transformer 架构即插即用,可以独立交换或更新,实验成本远低于重训。RL 和反馈循环:从信号中学习。 另一些团队押注的是,部署后学习最丰富的信号已经存在于部署循环本身——用户纠正、任务成败、来自真实世界结果的奖励信号。核心理念是模型应该把每次交互都当作潜在的训练信号,而不只是推理请求。这和人类在工作中进步的方式高度类似:干活、拿到反馈、内化哪些方法有效。工程挑战在于把稀疏、嘈杂、有时带有对抗性的反馈转化为稳定的权重更新,同时不灾难性遗忘。但一个真正能从部署中学习的模型,会以上下文系统做不到的方式产生复利价值。以数据为中心:从正确的信号中学习。 一个相关但有区别的赌注是,瓶颈不在学习算法,而在训练数据和周边系统。这些团队专注于筛选、生成或合成正确的数据来驱动持续更新:前提是一个有高质量、结构良好的学习信号的模型,只需要少得多的梯度步就能有意义地改进。这和反馈循环公司自然衔接,但强调的是上游问题:模型能不能学是一回事,它应该从什么学、学到什么程度是另一回事。新架构:从底层设计学习能力。 最激进的赌注认为 Transformer 架构本身就是瓶颈,持续学习需要从根本上不同的计算原语:具备连续时间动态和内建记忆机制的架构。这里的论点是结构性的:如果你想要一个持续学习的系统,你应该把学习机制嵌入底层基础架构。图注:朴素权重更新的失败模式工程问题已有充分记录。灾难性遗忘意味着对新数据足够敏感以学习的模型,会摧毁已有的表征——稳定性-可塑性困境。时间解耦是指不变规则和可变状态被压缩进了同一组权重,更新一个就会损坏另一个。逻辑整合的失败是因为事实更新不会传播到其推论:更改局限在 token 序列层面,不是语义概念层面。遗忘(unlearning)仍然不可能:不存在一个可微分的减法操作,因此虚假或有毒知识没有精确的手术切除方案。还有第二类问题被较少关注。当前训练和部署的分离不只是工程上的便利,它是安全性、可审计性和治理的边界。打开这个边界,多件事会同时出问题。安全对齐可能不可预测地退化:即便是在良性数据上的窄范围微调也可能产生广泛的失调行为。持续更新创造了一个数据投毒的攻击面——一种缓慢、持久的提示注入版本,但它活在权重里。可审计性崩塌,因为一个持续更新的模型是一个移动靶,无法做版本控制、回归测试或一次性认证。当用户交互被压缩进参数时,隐私风险加剧,敏感信息被烘焙进表征,比检索上下文中的信息更难过滤。这些是开放问题,不是根本性的不可能。解决它们和解决核心架构挑战一样,是持续学习研究议程的一部分。从「记忆碎片」到真正的记忆Leonard 在《记忆碎片》中的悲剧不在于他无法运转——在任何一个场景中他都足智多谋,甚至堪称出色。他的悲剧在于他永远无法复利。每一次经历都停留在外部——一张拍立得、一个纹身、一张别人笔迹的便条。他能检索,但他无法压缩新知识。当 Leonard 在这个自我建构的迷宫中穿行时,真实和信念之间的界限开始模糊。他的病症不只是剥夺了他的记忆;它迫使他不断重建意义,让他同时成为自己故事中的侦探和不可靠叙述者。今天的 AI 运行在同样的约束下。我们构建了非常强大的检索系统:更长的上下文窗口、更智能的外壳、协调的多智能体群,而且它们管用。但检索不等于学习。一个能查到任何事实的系统没有被迫去寻找结构。它没有被迫去泛化。让训练如此强大的有损压缩——把原始数据转化为可迁移表征的机制——恰恰是我们在部署那一刻就关掉的东西。前进的路径很可能不是一个单一突破,而是一个分层系统。上下文学习仍将是第一道适应防线:它是原生的、经过验证的、在不断改进的。模块机制可以处理个性化和领域专业化的中间地带。但对于那些真正困难的问题——发现、对抗适应、无法用文字表达的隐性知识——我们可能需要让模型在训练之后继续把经验压缩进参数。这意味着稀疏架构、元学习目标和自我改进循环的进步。它可能还需要我们重新定义「模型」的含义:不是一组固定的权重,而是一个进化中的系统,包含它的记忆、它的更新算法,以及它从自身经验中抽象的能力。档案柜越来越大。但再大的档案柜还是档案柜。突破在于让模型在部署后做训练时让它强大的那件事:压缩、抽象、学习。我们站在从失忆模型到拥有一丝经验之光的模型的转折点上。否则,我们会困在自己的《记忆碎片》里。

分享到:

  • 在 Facebook 上共享(在新窗口中打开) Facebook
  • 共享到 X(在新窗口中打开) X
  • 共享到 Threads(在新窗口中打开) Threads
  • 共享到 Bluesky(在新窗口中打开) Bluesky
  • 共享到 Telegram(在新窗口中打开) Telegram
  • 共享到 Nextdoor(在新窗口中打开) 隔壁
  • 分享到 Tumblr (在新窗口中打开) Tumblr
  • 共享到 Mastodon(在新窗口中打开) Mastodon

赞过:

赞 正在加载……

相关

近期文章

  • 美国威斯康星州加入预测市场监管之争,起诉Kalshi、Polymarket等平台
  • ARK Invest:比特币坚定信念买家的持仓量Q1激增69%,创2020年以来新高
  • 摩根士丹利推出稳定币储备投资组合,供稳定币发行方存放储备金
  • DeBox宣布vBOX服务将于4月30日下线
  • Bitwise:看好比特币下半年行情,AI与监管将催生新一轮山寨季

归档

  • 2026 年 4 月
  • 2026 年 3 月
  • 2026 年 2 月
  • 2026 年 1 月
  • 2025 年 12 月
  • 2025 年 11 月
  • 2025 年 10 月
  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月

分类

  • 1kx (1)
  • 21Shares (1)
  • a16z (1)
  • Aave (3)
  • ai16z (1)
  • Alameda Research (1)
  • Alpaca (1)
  • Arbitrum (1)
  • Ark Invest (1)
  • Arkham (1)
  • Avail (1)
  • Azuki (1)
  • A股 (36)
  • Base (1)
  • Berachain (1)
  • Bitget (8)
  • BlackRock (3)
  • Brian Armstrong (1)
  • BTC (5)
  • Bybit (2)
  • Canary (1)
  • Cathie Wood (1)
  • Coinbase (3)
  • Coinbase Prime (2)
  • Coinbase Ventures (3)
  • CoinDesk (2)
  • CoinGecko (1)
  • Cointelegraph (1)
  • COMP (1)
  • Compound (1)
  • DAO (1)
  • DATA (2)
  • DeAI (1)
  • DePIN (1)
  • DEX (3)
  • EARN (1)
  • Eliza (1)
  • ETF (4)
  • ETH (4)
  • Ethos Network (1)
  • Fartcoin (2)
  • FDUSD (1)
  • FLock.io (1)
  • FLUID (1)
  • FUEL (1)
  • Gas (2)
  • GPU (1)
  • Grayscale (1)
  • IEO (1)
  • Inception (1)
  • IOG (1)
  • Jupiter (1)
  • Kairos (1)
  • Kaito (1)
  • Launchpool (1)
  • Layer2 (1)
  • Liquidity (1)
  • Magicblock (1)
  • Mango Markets (1)
  • Mechanism Capital (1)
  • Meebits (1)
  • Meme (3)
  • Netflix (1)
  • NVIDIA (1)
  • Ondo (1)
  • OpenAI (2)
  • Paradigm (1)
  • Polygon (3)
  • Pudgy Penguins (1)
  • pump.fun (1)
  • Raydium (2)
  • Robert Leshner (1)
  • Robinhood (1)
  • Sam Altman (1)
  • SEC (4)
  • Securitize (1)
  • SideKick (1)
  • SNX (1)
  • SOL (1)
  • Solana (3)
  • Stani Kulechov (1)
  • StarkWare (1)
  • STO (1)
  • Stripe (1)
  • SunDog (1)
  • SunPump (1)
  • Synthetix (1)
  • TechFlow (41,598)
  • The Block (2)
  • Tron (2)
  • TRX (1)
  • Upbit (1)
  • USDC (3)
  • WBTC (2)
  • Web3 (4)
  • WLD (1)
  • WOO X (1)
  • Xai (1)
  • Zora (1)
  • 交易所动态 (8)
  • 人工智能 (1)
  • 以太坊 (4)
  • 以太坊基金会 (1)
  • 信托 (1)
  • 借贷 (2)
  • 公链 (1)
  • 基础设施 (1)
  • 大额投融资 (1)
  • 存储 (2)
  • 孙宇晨 (2)
  • 安全 (2)
  • 富达 (1)
  • 工具 (2)
  • 币安 (7)
  • 快讯 (41,208)
  • 托管 (1)
  • 指数 (1)
  • 支付 (1)
  • 数据 (6)
  • 数据追踪 (4)
  • 智能合约 (1)
  • 未分类 (431)
  • 模块化 (1)
  • 欧洲 (1)
  • 欧盟 (1)
  • 比特币 (7)
  • 永续合约 (1)
  • 治理 (1)
  • 波场 (1)
  • 港股 (7)
  • 游戏 (3)
  • 火币 (1)
  • 灰度 (1)
  • 特朗普 (5)
  • 社交 (2)
  • 稳定币 (3)
  • 空投 (6)
  • 纳斯达克 (1)
  • 美国 (6)
  • 美国证券交易委员会 (3)
  • 美股 (2)
  • 股市资讯 (20)
  • 股市资讯 (1)
  • 股市资讯 (1)
  • 股市资讯 (1)
  • 英伟达 (2)
  • 英国 (1)
  • 萨尔瓦多 (1)
  • 融资 (3)
  • 行情异动 (7)
  • 贝莱德 (1)
  • 质押 (4)
  • 赵长鹏 (1)
  • 跨链 (3)
  • 跨链桥 (1)
  • 迪拜 (1)
  • 重要消息 (45)
  • 金库 (1)
  • 钱包 (4)
  • 阿根廷 (1)
  • 阿里云 (1)
  • 隐私 (2)
  • 项目重要进展 (9)
  • Bluesky
  • Mail
©2026 WT快讯 | Design: Newspaperly WordPress Theme
%d