智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影

過去一年,醫(yī)療AI成為大模型落地中最熱鬧的賽道之一。

互聯(lián)網(wǎng)巨頭扎堆發(fā)布健康助手,創(chuàng)業(yè)公司密集上線AI問診產(chǎn)品,普通用戶第一次開始頻繁地與“醫(yī)療AI助手”打交道。看病前問一嘴、體檢后拍個單子、用藥前查一下,正在成為一種新的用戶習慣。

根據(jù)知名行研機構(gòu)Fortune Business Insights最新數(shù)據(jù),2025年,全球醫(yī)療保健AI市場規(guī)模達到393.4億美元(約合2717億元人民幣),預(yù)計2026年該市場的規(guī)模將同比上漲42%至560.1億美元(約合3869億元人民幣)。

但在這股熱潮之下,一個重要的問題逐漸顯現(xiàn):醫(yī)療可能是所有大模型落地場景中,對專業(yè)性、準確性、可靠性要求最嚴苛的領(lǐng)域。做一個“能聊健康問題的AI”并不難——接入通用大模型、套一層醫(yī)療術(shù)語Prompt,幾周就能上線一個Demo;但做一個“真正具備??萍壞芰?、能輔助臨床決策、敢對用戶健康管理的醫(yī)療大模型”,中間卻隔著難以快速跨越的專業(yè)鴻溝。

這道鴻溝究竟有多深?又是由哪些能力共同構(gòu)成的?為什么有的玩家能做到專業(yè),有的只能停留在“表面問答”?

本文嘗試以剛剛完成X2底座升級的星火醫(yī)療大模型為核心分析樣本,從技術(shù)底座、專業(yè)壁壘與真實場景實測三個層面,拆解醫(yī)療大模型這條賽道的真實門檻。

能聊健康≠懂醫(yī)療:醫(yī)療AI助手爆火一年,“專業(yè)斷層”比想象中大
▲基于訊飛醫(yī)療大模型的訊飛曉醫(yī)界面

一、技術(shù)底座:決定醫(yī)療模型的能力上限

在醫(yī)療這樣高度專業(yè)化的垂直領(lǐng)域,通用能力是決定專業(yè)能力天花板的地基。

醫(yī)療問診、報告解讀、用藥審核,這些醫(yī)療AI應(yīng)用實際上是高度復(fù)雜的語言理解與推理任務(wù):癥狀往往并不完整,描述存在主觀偏差;疾病判斷依賴多輪信息補全;結(jié)論不僅要“合理”,還要符合醫(yī)學指南、風險可控。一旦通用能力不足,所謂的“醫(yī)療能力”往往只能停留在模板化問答或淺層知識檢索。

2月11日,科大訊飛發(fā)布基于全國產(chǎn)算力訓練的星火X2大模型,通用能力實現(xiàn)代際躍升,推理性能相比上一代提升50%,在數(shù)學、推理、語言理解等核心能力上對標國際頂尖水平。這一底座升級直接決定了其上生長的醫(yī)療垂類模型能走多遠。

基于真實居民健康檔案構(gòu)建的MedLLM-EHR-EVAL-V2評測集顯示,星火醫(yī)療大模型在智能健康分析、報告解讀、運動飲食建議、輔助診療、智能用藥審核等關(guān)鍵任務(wù)上,得分均顯著超越國內(nèi)外主流大模型。

能聊健康≠懂醫(yī)療:醫(yī)療AI助手爆火一年,“專業(yè)斷層”比想象中大
▲星火醫(yī)療大模型X2的評測情況

這一層的核心結(jié)論是:醫(yī)療大模型的專業(yè)深度,首先建立在足夠強的通用底座之上。通用能力若在第一梯隊之外,垂類能力的上限將被牢牢鎖死。

二、醫(yī)療大模型要達到專業(yè)水平,至少要邁三道“坎”

當越來越多玩家涌入醫(yī)療大模型賽道,真正拉開差距的是做到了什么深度。這種深度,往往由長期積累、方法體系與規(guī)?;炞C共同決定。

本次,升級后的訊飛曉醫(yī)推出了全新個人數(shù)字健康空間,可系統(tǒng)化管理家庭成員健康資料,實現(xiàn)病程全周期追蹤與健康指標深度解析;但醫(yī)療AI大模型的升級絕不僅限于應(yīng)用界面的更新,而是有至少以下三道更深的“坎”需要邁過。

1、第一道坎是能力和數(shù)據(jù)積累,醫(yī)療不是一個能“冷啟動”的領(lǐng)域

醫(yī)療并不是一個可以通過短期數(shù)據(jù)堆疊或提示詞工程快速起量的行業(yè)。

醫(yī)學知識體系高度結(jié)構(gòu)化,疾病路徑具有明確的臨床邏輯,??颇芰π枰谡鎸嶀t(yī)療環(huán)境中反復(fù)打磨。沒有長期扎根積累的能力與數(shù)據(jù),便無法跨過第一道專業(yè)門檻。

以訊飛醫(yī)療為例,其深耕這一領(lǐng)域能力已達十年。其自2016年成立起便專注這一賽道,“智醫(yī)助理”系統(tǒng)是全球首個且唯一通過國家執(zhí)業(yè)醫(yī)師資格考試筆試的AI系統(tǒng),得分456分,超越96.3%的人類考生。這一專業(yè)醫(yī)療能力里程碑,至今未被任何其他醫(yī)療AI達成。星火醫(yī)療大模型在門診場景診療能力、住院場景診療能力上實現(xiàn)關(guān)鍵突破,??艫I能力在業(yè)界首次達到等級醫(yī)院主任級醫(yī)師水平。

更重要的是,經(jīng)年累月的醫(yī)療實踐將能力進一步固化為可復(fù)用的知識資產(chǎn)。訊飛曉醫(yī)現(xiàn)已構(gòu)建起覆蓋500余種疾病管理路徑的專業(yè)知識體系,這是其將三甲醫(yī)院專家共識、學協(xié)會臨床路徑與一線診療經(jīng)驗結(jié)構(gòu)化沉淀的結(jié)果。

更稀缺的是診療場景中真實流轉(zhuǎn)的數(shù)據(jù)積累。訊飛醫(yī)療大模型在多年時間里持續(xù)接收真實診療場景的反饋數(shù)據(jù),訊飛醫(yī)療累計提供的11億次AI輔診建議。比如基層醫(yī)生采納了哪些建議、忽略了哪些提醒、患者在后續(xù)診療中實際被確診為什么疾病,這類深扎場景的數(shù)據(jù)積累,是任何新入局者短期內(nèi)都難以復(fù)制的。

這種十年如一日地“在場”,深扎場景、滾動積累的數(shù)據(jù)飛輪,是任何新入局者短期內(nèi)無法復(fù)制的底層壁壘。

2、第二道坎是驗證,專業(yè)能力必須被“驗證”,而不是被“宣稱”

在醫(yī)療領(lǐng)域,“我們很專業(yè)”是一句沒有分量的陳述。真正的專業(yè)度必須經(jīng)得起權(quán)威評測和真實臨床場景的雙重檢驗。

在這一方面,訊飛醫(yī)療跨越這道坎的方式,是從基層到三甲、從路徑到評測,層層遞進地完成了閉環(huán)驗證。

在基層實踐驗證方面,智醫(yī)助理已覆蓋全國31個省、801個區(qū)縣的7.7萬余家基層醫(yī)療機構(gòu),服務(wù)超過25萬名基層醫(yī)生。基層醫(yī)生在日常診療中持續(xù)調(diào)用、采納、反饋,使智醫(yī)助理在錯診漏診風險預(yù)警、用藥合理性審核等核心任務(wù)上完成了海量實戰(zhàn)檢驗。

在等級醫(yī)院實踐驗證方面,其智慧醫(yī)院解決方案已進入?yún)f(xié)和、華西、同濟等500余家等級醫(yī)院,其中包括40多家全國百強醫(yī)院、7家十強醫(yī)院。在頂級醫(yī)療場景中,AI不是替代者,而是臨床決策的協(xié)同者。更直觀的證據(jù)來自慢病管理:基于訊飛大模型的區(qū)域慢病管理平臺,已實現(xiàn)高血壓人群總住院率與心腦血管疾病住院率顯著下降——這是一個可以直接換算成醫(yī)保結(jié)余、患者生存質(zhì)量的關(guān)鍵臨床指標。

在路徑驗證方面,訊飛曉醫(yī)構(gòu)建的500余種疾病管理路徑,是全部經(jīng)過三甲醫(yī)院及權(quán)威學協(xié)會專家評審;評審之后,又在全國500多家等級醫(yī)院完成了規(guī)模化落地驗證,構(gòu)成了可量化、可追溯的專業(yè)度證據(jù)。

以上所有實踐驗證,最終匯聚成專業(yè)評測的“A”級成績單。訊飛星火醫(yī)療大模型是國內(nèi)首個通過上海市醫(yī)療大模型應(yīng)用檢測驗證中心權(quán)威評測的模型,在面向居民的健康分析、報告解讀、飲食建議、運動建議四項任務(wù)中,星火醫(yī)療大模型獲得全A評價——目前全國僅此一家。

這些“硬指標”構(gòu)成了可量化的專業(yè)度證明,也是區(qū)分深度玩家與輕量入局者的關(guān)鍵分水嶺。

3、第三道坎是能力結(jié)構(gòu),??粕疃取⒅改弦缽男耘c推理一致性

進一步拆解,醫(yī)療大模型的專業(yè)差距,往往集中體現(xiàn)在一些看似不顯眼、但極其關(guān)鍵的能力維度上:

其一,是否具備真正的??萍壷R深度。 比如普通感冒和早期心衰都可能表現(xiàn)為“氣短”,區(qū)分兩者需要模型理解誘因、伴隨癥狀、危險分層——這是典型的??颇芰Α?/p>

訊飛曉醫(yī)此次升級的“智能思考引擎”,能夠根據(jù)問題復(fù)雜度自動判斷是否啟動深度推理模式,在遇到多癥狀疊加、慢性病史干擾等情形時,調(diào)用??萍壷R路徑進行判別,而非停留在表層科普。

其二,是否嚴格遵循臨床指南與規(guī)范。 醫(yī)療大模型的回答不能是“參考意見”,而應(yīng)當錨定權(quán)威指南。

訊飛構(gòu)建的疾病管理知識體系以500余種疾病路徑為骨架,每一條路徑對應(yīng)明確的指南依據(jù),這在面對高血壓用藥調(diào)整、糖尿病飲食干預(yù)等標準治療場景時,能有效避免“自由發(fā)揮”式的風險。

其三,面對復(fù)雜病史時是否能保持判斷一致性。 患者不會按照教科書生病,多病共存、既往史干擾是常態(tài)。

評測顯示,在用戶健康檔案中疊加多種慢性病史后,部分通用模型會出現(xiàn)前后矛盾或偏離核心問題的傾向,而訊飛曉醫(yī)基于星火醫(yī)療大模型的“深度思考”模式,能夠始終圍繞用戶主訴與檔案數(shù)據(jù)進行遞進推理。

訊飛曉醫(yī)會結(jié)合多源報告綜合分析和歷史報告綜合分析。真實用戶往往持有來自不同醫(yī)院、不同時間段的多份檢查報告,訊飛曉醫(yī)基于個人數(shù)字健康空間,能夠?qū)Χ嘣磮蟾孢M行綜合分析,將不同時間節(jié)點的檢驗指標進行縱向?qū)Ρ龋R別指標變化趨勢與潛在風險信號,而非孤立解讀單次結(jié)果。這是判斷一致性的重要支撐,也是區(qū)別于其他產(chǎn)品的關(guān)鍵能力點。

其四,醫(yī)療數(shù)據(jù)是最敏感的個人信息,用戶是否愿意把真實健康信息交給AI,取決于平臺的隱私保護能力。

訊飛曉醫(yī)支持隱私模式咨詢,無痕問答,對話不存檔、不沉淀、不用于模型訓練;其已通過國家信息系統(tǒng)安全等級保護三級認證、ISO 27701、ISO 27001等多項權(quán)威認證。對醫(yī)療AI來說,隱私保護不是附加功能,而是醫(yī)療AI獲得用戶長期信任的基礎(chǔ)設(shè)施,也是能力結(jié)構(gòu)中不可缺少的一環(huán)。

三、在真實剛需場景中,專業(yè)能力最易現(xiàn)形

技術(shù)參數(shù)和專業(yè)認證是“后臺能力”,普通用戶無法感知。真正的專業(yè)差距,最終要回到真實使用場景中才能被看見。

從幾個應(yīng)用案例中我們能有直觀的感受。

用戶提問1:“我有高血壓3年,最近一周早上起床后頭暈、后腦勺脹痛,測血壓145/95,平時吃藥是硝苯地平,需要去醫(yī)院嗎?要不要換藥?”

這是我們常見的復(fù)雜癥狀咨詢,當遇到多癥狀、慢性病史疊加的情況,一些醫(yī)療助手可能會給出“正確但無用”的籠統(tǒng)建議,如“血壓偏高,建議就醫(yī)”“遵醫(yī)囑調(diào)整用藥”。

而訊飛曉醫(yī)的回答路徑明顯不同,其明確告訴了用戶風險有多急、應(yīng)該做什么、去哪里做,在風險分層、藥理知識和行為引導(dǎo)上都給出了準確建議。

能聊健康≠懂醫(yī)療:醫(yī)療AI助手爆火一年,“專業(yè)斷層”比想象中大

▲訊飛曉醫(yī)回答的完整內(nèi)容

用戶提問2:(上傳包含“輕到中度脂肪肝、尿酸偏高”的體檢報告)“這些指標有沒有關(guān)聯(lián)?我平時應(yīng)酬多,是不是戒酒就行?”

這是體檢報告深度解讀的應(yīng)用場景,我讓AI進行多指標異常關(guān)聯(lián)分析。一些醫(yī)療AI助手的回答可能只是會提出單項問題,讓我定期復(fù)查,停留在“報告說了什么”層面。

而訊飛曉醫(yī)完成了從“是什么”到“為什么”再到“怎么辦”的完整推理鏈,且具備風險分級和計劃生成的能力。這是通用問答與專業(yè)健康管理之間的本質(zhì)差異。值得一提的是,它還能聯(lián)系本人的健康檔案提供建議,這就更體現(xiàn)出一個長期醫(yī)療保健伙伴的價值。

能聊健康≠懂醫(yī)療:醫(yī)療AI助手爆火一年,“專業(yè)斷層”比想象中大

▲訊飛曉醫(yī)回答的完整內(nèi)容

結(jié)語:醫(yī)療大模型,終將回歸專業(yè)能力的長期競爭

醫(yī)療大模型的競爭,從一開始就不是聲量之爭,而是長期專業(yè)能力的積累之爭。

當行業(yè)逐漸從“能不能用”走向“靠不靠譜”,真正決定勝負的,將是技術(shù)底座的上限、醫(yī)學體系的深度、以及是否經(jīng)得起真實場景反復(fù)驗證。從這個角度看,醫(yī)療大模型的專業(yè)門檻,遠比外界想象得更高。

而在這條高門檻賽道上,訊飛并非唯一玩家,但無疑是目前走得最深、驗證最充分的玩家之一。

從2016年進入這個領(lǐng)域,到2024年成為“醫(yī)療大模型第一股”,它用十年時間完成了通用底座自研、醫(yī)學知識體系構(gòu)建、臨床場景驗證、規(guī)?;瘮?shù)據(jù)反哺這一完整閉環(huán)。

可以預(yù)見,隨著更多玩家進入,醫(yī)療大模型的技術(shù)代差將持續(xù)拉大。醫(yī)療大模型的熱度或許會退潮,但專業(yè)能力的競爭,才剛剛進入深水區(qū)。