声明:本文来自于微信公众号 光锥智能,作者:白 鸽,授权站長之家转载发布。
声明:本文来自于微信公众号 光锥智能,作者:白 鸽,授权站長之家转载发布。
專注醫療後,百川智能交出第一份答卷!
8月11日,百川智能發布第二款開源醫療增強推理大模型Baichuan-M2,其以32B的參數量,在OpenAI的Healthbench評測集上,超越其剛剛發布5天的開源模型gpt-oss-120b。
除gpt-oss-120b外,Baichuan-M2還領先GPT-5以外所有開源與閉源前沿模型,以更小尺寸模型實現醫療能力反超,在所有開源模型中登頂世界第一。
同時,在落地應用浪潮下,大模型所追求的,不再只是效果好,還要能低成本落地。
尤其是在醫療健康領域,模型涉及更多敏感隱私信息,醫療健康機構對私有化部署有著強烈的需求,而私有化部署往往意味著高昂的部署成本。
Baichuan-M2的落地門檻則非常低,其支持RTX4090單卡部署,進一步提升了模型在真實醫療場景中的落地可能性與可擴展性。
这短短5天 “攻防战”,不仅改写了全球医疗大模型的实力排名,更重要的一点在于,在中美通用大模型差距持續擴大的背景下,中國團隊可以在AI垂直行業大模型賽道中,實現彎道超車。
當前,醫療是大模型最重要、最有潛力的應用領域之一,正在逐漸成爲全球共識。不過,作爲應用底座的醫療大模型,現階段行業中並未有特別突出的産品。
即使是OpenAI最新發布的GPT-5,其數學能力滿分,代碼、寫作、知識能力的成績也都很高,但醫療領域的得分依舊很低。
這也說明,醫療大模型仍有很長的路要走。
而中美垂直行業大模型的能力差距並不大,作爲中國頭部大模型企業代表,百川智能此次在醫療大模型上,已實現與OpenAI的並駕齊驅。
那麽,作爲國內最早全力押注醫療AI賽道的大模型創企,百川智能又是如何做到彎道超車的?
力壓全球醫療大模型
拆解Baichuan-M2硬實力
长期以来,模型在医学考试(如 USMLE)上的表现被视为衡量其医疗能力的重要指标,但随着相关题库的饱和,这类选择题或短回复的评测已难以全面反映模型的真实临床实用性。
畢竟,醫療AI並不等于“刷題機器”,考試分數再高,也未必意味著在真實醫療場景中好用。
因此,醫療能力的評測需要有系統化的方法,驗證模型在推理決策、臨床溝通等關鍵能力上的綜合表現。
今年5月,OpenAI發布權威且貼近真實臨床場景的HealthBench醫療健康評測集。
該測評集包含了5000個廣泛場景覆蓋的醫患多輪對話,並通過由262個人類醫生編寫的48562個醫療評價規則來對模型能力進行評估,是全球公認的醫療大模型“能力試金石”。
該數據集主要包含2個版本:
HealthBench:標准版本,包含5000條對話和對應准則。
HealthBench Hard:包含1000个特别具有挑战性的案例。
在HealthBench中,Baichuan-M2得到60.1高分,反超OpenAI最新开源模型gpt-oss120b(得分57.6),还力压Qwen3-235B、Deepseek R1、Kimi K2等当前世界所有开源大模型。
同时,Baichuan M2在医疗对话任务中展现出显著优势,如紧急医疗响应、医疗上下文理解、医患沟通能力、全球健康知识覆盖及医学思维完备性等核心医疗场景性能全面领先。
HealthBench Hard,是一个针对更复杂困难场景的数据集,用于验证模型多维度、全景化解决疑难复杂医学问题的能力。
據悉,此前該測試集發布時,世界上所有頂尖模型得分都沒超過32分,許多前沿模型得分甚至爲0。
GPT-5发布时,OpenAI也特别强调,其是HealthBench Hard评测全球唯一超過32分的模型。
但現在Baichuan-M2打破了這一紀錄,其以34.7分成爲全球第二款超過32分的模型,力壓世界所有其他頂尖闭源大模型。而Baichuan-M2和GPT-5也是目前全球唯二超過32分的模型。
事實上,盡管HealthBench已收集大量真實醫療場景,但現實情況往往更加複雜多樣。
不過,基于其評測,也至少能夠證明在多數醫療場景上的問答質量,GPT-5和Baichuan-M2已經超越資深醫生,特別是在知識更新速度和全面性上,完全可以給人類醫生強大支持。
那麽,百川智能的Baichuan-M2醫療大模型,是如何以32B參數,實現以小博大?其核心思路,就是讓大模型像醫生一樣思考、應對真實醫患場景。
从技术角度来说,其背后则是百川智能在大型验证系统(Large Verifier System)、端到端强化学习、AI患者模拟器、多类型医疗数据用于深度推理等4个方面的创新探索。
近一年来,大语言模型后训练范式的升级,特别是基于RLVR(Reinforcement Learning with Verifiable Rewards)方法的大规模强化学习训练,带来了大模型效果的显著提升,尤其是在有明确答案的数学、代码、科学等领域。
但是,強化學習在數學、代碼、科學等領域之所以能夠顯著提升模型能力,是因爲這些領域的數據是靜態的,由簡潔的問題和答案構成。
而醫療問題卻是複雜問題,沒有標准答案,同一個症狀可能存在不同病因,同一病因,患者的體格、病史、用藥史、藥物耐受程度不一樣,治療方案也會不同。
因此,醫療領域的強化學習不僅要驗證診斷結果、治療方案的准確性,還要驗證大模型的問診對話過程是否符合醫生思維,是一個動態驗證的形式,也就導致傳統強化學習規則在醫療領域表現並不好。
针对这一现状,百川智能则以构建Large Verifier System为核心,在通用Verifier之外,结合医疗场景自身特点设计了一套较为全面的医疗Verifier系统。
用通俗的話來理解,如果將大模型比作一位醫學實習生,那麽這個系統就像是一個要求極高、異常挑剔的醫療專家。它會從醫療正確性、完備性、安全性以及對患者的友好性等多個維度,細致地評估模型的輸出,指出其不足並引導模型改正,使其思維方式更貼近專業醫生。
但想要讓這個系統成爲嚴謹的醫療專家,最大的難點在于,人類醫生在聽取患者描述病情時,很容易分辨患者描述中的邏輯漏洞、從含混不清的表達中辨別出真實病因。現實中患者幾乎無法全面准確表達自己的症狀,僅基于靜態的病例、指南等醫療數據訓練,模型無法掌握人類醫生的這一能力。
而爲了突破這一瓶頸,百川技術團隊升級叠代了今年初首創的“AI患者模擬器”。
今年1月,百川在arXiv上發表AI患者模擬器,用真實數據構造上萬個不同年齡性別症狀的AI患者,能夠模擬千差萬別患者的症狀和表達,特別是包含錯誤噪聲的表達,最大程度還原真實醫療場景。
7個月後,百川升級患者模擬器並引入模型端到端強化學習,訓練的Baichuan-M2在HealthBench等評測上取得更大突破。
这个模拟器的具体作用就是让AI在训练时,不断和这个虚拟病人聊天,而在聊天的过程中,“考官” 会实时根据聊天情况,动态调整打分标准,帮AI练出“随机应变”的能力,即就算病人说的信息乱、不全,也能重新判断病情,以及会看病人说的信息够不够,决定是继续问还是直接给结论。
而为了AI能够更好的学习医学知识,百川智能还采用了多阶段强化学习策略(Multi- Stage RL),将复杂的强化学习任务分解为几个易于管理的、分层的训练阶段。
就像學車要先練直線、再練轉彎、最後上馬路,AI學當醫生也分階段練,先練“醫學常識”,再練“和病人聊天的技巧”,最後練“複雜病例的診斷”,一步步提升,避免一下子學太難而懵圈。
综合来看,用“智能考官”判断AI表现,用“真实病例 + 虚拟病人”模拟实战,分阶段训练让AI既懂医学知识,又能灵活应对真实医患场景,百川智能最终使大模型具备了一个靠谱医生的能力。
但在當前AI大模型落地應用浪潮中,大模型不僅僅要有能力,更重要的還是能落地,尤其是在垂直行業中,很多時候都面臨著大模型效果是很好,但部署運營成本太高,終成demo的情況。
醫療大模型落地既要效果好還要成本低
早在2016年的深度學習浪潮中,AI就已經開始在醫療場景落地,但彼時更多是聚焦在語音語義、圖像等方面的應用,以及單點功能(病例錄入、智能閱片)的落地。
但這一代醫療大模型開啓了全新範式,其能力與上一代醫療AI相比已經産生了質的飛躍,醫療大模型不僅僅是醫學知識的問答引擎與效率提升的工具,它能夠通過Agent的方式全流程融入到診中、診前、診後的各個環節,爲AI落地醫療真實場景打開了更廣闊的空間。
百川智能醫療大模型的叠代和落地正是這一顛覆性變化的側寫。
在實踐應用中,今年2月,以Baichuan-M1爲底座的AI兒科醫生在國家兒科醫學中心多學科會診中大放異彩,獲得會診專家一致認可。M2則在醫療溝通、診斷合理、檢查合理、醫療治療、醫療安全六個維度相較于M1均顯著提升。
這背後最關鍵的一點在于,Baichuan-M2爲了更適配中國醫療場景,也從中國醫學指南對齊、醫療政策適配和患者需求洞察等多個維度進行了深度優化。
在中國臨床診療場景的問題評測中,對比gpt-oss系列模型,Baichuan-M2展現出更明顯的可用性優勢,其中部分優勢就來源自中國醫療場景的適配性,例如針對臨床診療的案例,M2更貼合中國醫療場景,更遵循中國權威指南推薦。
以某一个真实的肝癌治疗案例中,针对CNLC IIa期(BCLC B期)的肝细胞肝癌患者,M2首選推薦在具備手術條件的情況下進行解剖性肝右葉切除(或根據腫瘤具體位置,可考慮擴大右半肝切除、右三葉切除等),目標是R0切除。
原因在于,依據國家衛健委發布的《原發性肝癌診療指南》(2024版),肝切除術是潛在根治性治療,可提供最佳的長期生存獲益。
同樣的案例,gpt-oss-120b建議首選治療經動脈化療栓塞術(TACE),理由是符合BCLCB期治療指南,當前情況下手術切除和移植風險不理想。
臨床醫學專家認爲,類似這樣的情況還有很多。
僅就這個案例來說,手術切除或TACE都是可選方案,只是中西方指南不同,不是醫學上的高下之分,而是基于本地患者特點、醫療資源與當前醫學發展水平權衡之下的最優解。
畢竟,醫療大模型能否將全球醫學知識、醫學證據轉化爲符合本地優勢特長的臨床決策,也是爲醫生和患者提供切實服務能力的關鍵。
Baichuan-M2則爲此所做的專門優化,讓中國臨床場景有了專屬的頂尖模型。此外,更爲重要的一點在于,Baichuan-M2能夠讓中國萬千醫療機構以更低的成本部署使用。
業內皆知,醫療大模型落地面臨“兩難”,即追求高精度往往意味著高成本,如閉源模型授權費、定制化開發投入,而低成本方案又難以滿足臨床核心需求,尤其是在複雜場景的推理上。
Baichuan-M2則通過技術優化和開源的方式,降低了醫療機構的部署成本。
百川智能通過多種PTQ量化策略,對Baichuan-M2進行權重4bit量化,量化後模型精度接近無損,可在RTX4090上單卡部署,相比DeepSeek-R1H20雙節點部署方式,成本降低了57倍。
同時,其基于Eagle-3訓練了Baichuan-M2-Spec版本,單用戶場景下token吞吐可獲得74.9%的提升。
另外,開源大模型特性是支持二次開發,可根據具體場景輕量化訓練,避免“大而全”的冗余成本,模型權重、訓練代碼全開放,企業/機構無需支付授權費。
百川M2开源医疗大模型为中国医疗AI提供了“低成本突破”的路径,推动医疗AI技术的普惠应用。它通过“高精度推理 + 开源低成本”的组合,证明医疗大模型落地无需在效果与成本间妥协。
直面全球差距
中國醫療AI的突圍之道
今年是AI大模型浪潮興起的第三年,但在全球市場中,中國通用大模型一直處于跟隨者地位。
近期在由谷歌Kaggle推出的首届全球AI象棋争霸赛中,一众中国大模型也表现并不佳,首轮睙狳中就被淘汰出局。
我們可以看到,在通用大模型上,中美之間始終存在著差距,無論是在能力上,還是在技術創新層面,差距也仍在不斷擴大。
但相比較來說,中國更擅長的地方,則在于推動大模型走向落地應用,而這也是我們在AI垂直行業賽道能夠彎道超車的關鍵。
百川智能作为中国大模型创企之一,选择医疗这一“中国有需求、有数据优势” 的领域深耕,用反超OpenAI的成绩证明 “中国可以在垂直赛道做全球第一”。
而通過開源大模型的模式,也可以降低醫療AI技術門檻,讓全球研究者、醫療機構可直接複用模型,在細分的醫療領域構建出自己的專屬模型,加速醫療AI的落地與創新。
此次发布会后,M2模型将进入全面落地期,百川将与国家儿童医学中心、北京大学第三医院、海淀卫健委等探索AI医疗的深度应用,真正推动AI医疗从 “实验室” 走向 “临床一线”。未来,随着模型的落地,将为基层医疗、疾病诊断等场景带来革新,推动“AI医疗惠及全民”。
(舉報)