Skip to content

WT快讯

WeTrying | 币圈快讯早知道

Menu
  • 首页
  • 工具包
Menu

发布 ChatGPT 健康 6 天后,OpenAI 在自家医疗健康 Benchmark 上被反超

Posted on 2026-01-14 10:23

作者:Li Yuan你有没有向 AI 助手问过你的健康问题?如果你和我一样是一个 AI 的深度用户,大概率你也试过。OpenAI 自己给出来的数据是,健康已成为 ChatGPT 最常见的使用场景之一,全球每周有超过 2.3 亿人提出与健康和保健相关的问题。正因如此,跨入 2026 年,健康领域也大有成为 AI 领域必争之地的迹象了。1 月 7 日,OpenAI 发布 ChatGPT 健康,允许用户连接电子医疗记录和各类健康应用,让用户能够获得更针对性的医疗回复;而 1 月 12 日,Anthropic 也立马推出了 Claude for Healthcare,并强调了新模型的医学场景能力。不过有趣的是,这次,中国公司没有落下,甚至大有领先之意。1 月 13 日,百川智能宣布发布百川 M3 模型,在 OpenAI 发布的医疗健康领域评估测试集 HealthBench,反超 OpenAI 的 GPT-5.2 High,获得 SOTA。在宣布 All-in 医疗受到诸多质疑后,百川智能似乎终于证明了自己。极客公园此次也专程与王小川聊了聊百川智能如何看待此次 M3 模型的能力,以及 AI 医疗的终局。01 首次在健康领域测试集超越 OpenAI此次发布的 M3 模型,最亮眼的成绩之一,在于模型第一次在 OpenAI 发布的医疗健康领域评估测试集 HealthBench,超越 OpenAI 的 GPT-5.2 High,获得 SOTA。结果十分有趣。百川此次不仅和模型进行了对比,还找来了真人医生进行对比。而在四个象限中,真人医生实际上都已经落后于模型能够达到的水平了。极客公园特意对此向百川团队进行了提问,得到的回答是:此次的测评,全都是真人的专科医生在专科案例上与模型进行的比较。模型能够获胜,其一,在于模型更耐心,但更重要的是,模型拥有更好的跨学科的知识的掌握能力。比如在一个案例中,提到 10 岁孩子反复发热,而发热是一个非常综合的医疗现象,如果只询问咳嗽等肺部情况,就容易忽略关节和泌尿系统中的严重问题,误判为普通感染。人类医生通常只对分科的病情比较擅长,这也是复杂症状常常需要专家会诊,或者疑难病症专家也常常要去翻书找资料的原因。而没有经过专门训练,只是扮演医生的普通模型,往往也很难回答好这类问题。03 下一步:逐渐开始做 C 端产品,推进更严肃的医疗对于百川智能而言,超过人类医生这个节点,意义十分重大:这意味着 AI 开始迈过可用性的门槛,开始能够被部署到使用场景中了。从 1 月 13 日起,用户已经可以开始在百小应的网站和 app 中,体验到 M3 模型提供的回答了。目前的网站设计十分有趣,虽然都是使用 M3 模型进行回答,但是区分医生版和用户版。在医生版,回答更加简洁,引用更多参考文献,也更「不说人话」。而在普通病人版,模型几乎不会一次性给出回答,都会进行更多追问,进行更明确的诊断。百川智能提到,模型在后台的思考很有意思。 「 我们经常能看到这个模型在思维链中提到,『这个患者没有理我的这个问题,但是这个问题我必须要问。』甚至我们有看到过那种极端的,说我已经问了患者 20 轮了,这个已经超出了设定的最大轮数,但是这个问题我还是要问。这是因为在训练的过程中模型把话说得讨巧,是得不到奖励的,它必须真的得到了足够多的关键的信息,得到正确的诊断,才能得到奖励。这个是我们跟其他人训练模型的一个明显的不同。」近来很多 AI 公司都开始介入医疗领域。这也是百川智能认为自己的最大不同之处——要做更严肃的医疗。「这意味着百川在选择场景时,并不是看哪个场景最好做就去做哪个。相反,百川坚持要不断上推技术能力,挑战更难的问题。」王小川讲到。一个典型的例子是未来百川会优先做肿瘤专科的解决场景,而心理疗愈排在百川的优先级的比较靠后的位置。在通俗观点中,普遍认为 AI 提供心理疗愈会更简单,也是一个更容易落地的场景。百川的判断逻辑则不同。他们认为肿瘤领域有更严格的科学依据。在这里,AI 更有可能做出严肃的医疗效果,从而达到或者超越人类医生的水平。相比之下,心理学领域缺乏这种确定性的科学锚点。再比如有的公司选择给医生做分身,王小川则认为这种方向并不是百川想要做的方向。医生的分身本身不能完整复用医生的水平,更不能超越医生的水平。这样的 AI 最终只能沦为幌子和获客工具,并不能真正推动严肃医疗。这种对严肃性的坚持,深刻影响了百川的很多商业选择。这直接关系到王小川对医疗 AI 下个阶段根本问题的思考。他认为,当前这个阶段最重要的任务是在增强 AI 能力的基础上,逐渐提供更多的医疗供给。中国多年来一直尝试推行分级诊疗和全科医生制度。初衷是希望老百姓先在基层看病,解决大医院挂号难、排队长、拥堵不堪的现状。这个制度之所以推行困难,本质上是因为医疗资源的供给不足。基层医疗机构缺乏高水平的医生。大家即便只是感冒也愿意去三甲医院排队,是因为对基层的诊疗水平不放心。这正是医疗 AI 发挥作用的关键点。大模型能够把顶尖的医学知识实现规模化分发。它填补了基层的供给缺口,让每一个社区、每一个家庭都能拥有像三甲医院专家一样的诊疗能力。而长远来开,这还能有更广泛的影响,可能让医疗的让决策权从医生手中逐渐转移到用户身上。在传统的医疗场景中,患者是利益的受益方,但往往没有决策权。决策权集中在医生手中。这种权力的不对称往往会带来沟通成本和治疗中的痛苦。而百川希望通过 AI,让患者能够更容易地获得优质医疗资源的供给。「很多人觉得医疗太复杂了,患者是永远理解不了的。但我们想的在美国的司法体系里面有个叫陪审团制度。法律也是非常专业的一个事,陪审团的普通人不懂,那就要求在法官、律师和检察官能够进行带领,做充分的辩论,把话说清楚,说到一个普通人能判断有罪没罪的程度,让普通人能依据逻辑正常判断即可。」王小川讲到。这也是百川智能不愿意只做简单场景,而是希望不断向高难度的严肃诊疗推进的原因之一。当被问到解决高难度问题是否在商业上最有回报时,王小川给出了深刻的回答。他认为,解决感冒发烧这类小问题,很难在用户心中建立起足够的信任。医疗是一个高度依赖信任的行业。只有当 AI 能够解决重疾等高难度难题时,才能真正建立起信任的基础。从商业逻辑上看,患者面对严肃的健康问题时,也更有意愿为高质量的 AI 服务付费。这种信任不仅是商业回报的前提,更是 AI 医疗能够规模化应用的核心。而从更根本的意义上讲,医疗对于百川智能和王小川本人而言,仍然意味着是一条接近通用人工智能(AGI)的路径。王小川认为,AI 目前在文、理、工、艺等领域都已找到了切实的解法,医疗则是一个极为独特的领域。人类对医学的探索尚未穷尽,AI 在这一领域也正处于摸索阶段。百川的路线图非常清晰。首先通过 AI 提升诊病效率,解决当前医疗供给短缺的问题。在此基础上,百川致力于建立与患者之间的深度信任。当患者愿意使用 AI 工具,长期进行医疗咨询,AI 就能在长期的陪伴中积累真实且高质量的医疗数据。这些数据的终极目标是构建生命的数学模型。这是一条人类医生至今尚未完全走通的道路,未来很有可能由 AI 率先实现。如果能完成对生命本质的建模,这将成为推动通用人工智能迈向更高阶进步的关键一步。

相关

近期文章

  • 「币安人生榜一」浮盈 263 万美元,投资回报率为 154341.1%
  • 现货白银总市值已突破 5 万亿美元大关,成为仅次于黄金的全球第二大资产
  • 昨日以太坊现货 ETF 净流入 1.2972 亿美元
  • 昨日比特币现货 ETF 净流入 7.5373 亿美元
  • 英伟达和 YC 投了家公司,想在 2032 年到月球上建家酒店

归档

  • 2026 年 1 月
  • 2025 年 12 月
  • 2025 年 11 月
  • 2025 年 10 月
  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月

分类

  • 1kx (1)
  • 21Shares (1)
  • a16z (1)
  • Aave (3)
  • ai16z (1)
  • Alameda Research (1)
  • Alpaca (1)
  • Arbitrum (1)
  • Ark Invest (1)
  • Arkham (1)
  • Avail (1)
  • Azuki (1)
  • Base (1)
  • Berachain (1)
  • Bitget (8)
  • BlackRock (3)
  • Brian Armstrong (1)
  • BTC (4)
  • Bybit (2)
  • Canary (1)
  • Cathie Wood (1)
  • Coinbase (3)
  • Coinbase Prime (2)
  • Coinbase Ventures (3)
  • CoinDesk (2)
  • CoinGecko (1)
  • Cointelegraph (1)
  • COMP (1)
  • Compound (1)
  • DAO (1)
  • DATA (2)
  • DeAI (1)
  • DePIN (1)
  • DEX (3)
  • EARN (1)
  • Eliza (1)
  • ETF (4)
  • ETH (4)
  • Ethos Network (1)
  • Fartcoin (2)
  • FDUSD (1)
  • FLock.io (1)
  • FLUID (1)
  • FUEL (1)
  • Gas (2)
  • GPU (1)
  • Grayscale (1)
  • IEO (1)
  • Inception (1)
  • IOG (1)
  • Jupiter (1)
  • Kairos (1)
  • Kaito (1)
  • Launchpool (1)
  • Layer2 (1)
  • Liquidity (1)
  • Magicblock (1)
  • Mango Markets (1)
  • Mechanism Capital (1)
  • Meebits (1)
  • Meme (3)
  • Netflix (1)
  • NVIDIA (1)
  • Ondo (1)
  • OpenAI (2)
  • Paradigm (1)
  • Polygon (3)
  • Pudgy Penguins (1)
  • pump.fun (1)
  • Raydium (2)
  • Robert Leshner (1)
  • Robinhood (1)
  • Sam Altman (1)
  • SEC (4)
  • Securitize (1)
  • SideKick (1)
  • SNX (1)
  • SOL (1)
  • Solana (3)
  • Stani Kulechov (1)
  • StarkWare (1)
  • STO (1)
  • Stripe (1)
  • SunDog (1)
  • SunPump (1)
  • Synthetix (1)
  • TechFlow (32,046)
  • The Block (2)
  • Tron (2)
  • TRX (1)
  • Upbit (1)
  • USDC (3)
  • WBTC (2)
  • Web3 (4)
  • WLD (1)
  • WOO X (1)
  • Xai (1)
  • Zora (1)
  • 交易所动态 (8)
  • 人工智能 (1)
  • 以太坊 (4)
  • 以太坊基金会 (1)
  • 信托 (1)
  • 借贷 (2)
  • 公链 (1)
  • 基础设施 (1)
  • 大额投融资 (1)
  • 存储 (2)
  • 孙宇晨 (2)
  • 安全 (2)
  • 富达 (1)
  • 工具 (2)
  • 币安 (7)
  • 快讯 (33,189)
  • 托管 (1)
  • 指数 (1)
  • 支付 (1)
  • 数据 (6)
  • 数据追踪 (4)
  • 智能合约 (1)
  • 未分类 (311)
  • 模块化 (1)
  • 欧洲 (1)
  • 欧盟 (1)
  • 比特币 (7)
  • 永续合约 (1)
  • 治理 (1)
  • 波场 (1)
  • 游戏 (3)
  • 火币 (1)
  • 灰度 (1)
  • 特朗普 (5)
  • 社交 (2)
  • 稳定币 (3)
  • 空投 (6)
  • 纳斯达克 (1)
  • 美国 (6)
  • 美国证券交易委员会 (3)
  • 英伟达 (2)
  • 英国 (1)
  • 萨尔瓦多 (1)
  • 融资 (3)
  • 行情异动 (7)
  • 贝莱德 (1)
  • 质押 (4)
  • 赵长鹏 (1)
  • 跨链 (3)
  • 跨链桥 (1)
  • 迪拜 (1)
  • 重要消息 (45)
  • 金库 (1)
  • 钱包 (4)
  • 阿根廷 (1)
  • 阿里云 (1)
  • 隐私 (2)
  • 项目重要进展 (9)
  • Bluesky
  • Mail
©2026 WT快讯 | Design: Newspaperly WordPress Theme