智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 心緣

智東西2月13日報道,2月7日,中文醫(yī)療大模型評測平臺MedBench公布最新多模態(tài)大模型評測榜單,數(shù)坤科技的數(shù)坤坤多模態(tài)醫(yī)學大模型V3以63.6分拿下第一。

在榜單中,V3的表現(xiàn)超過微醫(yī)、云知聲旗下醫(yī)療行業(yè)大模型,以及OpenAI、谷歌、阿里千問旗下通用大模型。

國產(chǎn)醫(yī)療大模型登頂權威榜單!核心秘籍:PB級訓練數(shù)據(jù)、模擬醫(yī)生真實會診過程

數(shù)坤科技成立于2017年,根據(jù)官方信息,數(shù)坤科技已陸續(xù)推出超100款數(shù)字醫(yī)生產(chǎn)品組合,其產(chǎn)品已在超過5000家公立醫(yī)院和超1000家體檢機構日常高粘性使用,其中包括90%的Top 100醫(yī)院和目標公立三甲醫(yī)院。

數(shù)坤科技創(chuàng)始人兼董事長毛新生透露,該模型的性能提升得益于其訓練數(shù)據(jù)與訓練策略。數(shù)坤科技深耕醫(yī)療領域8年,已經(jīng)積累了PB級醫(yī)療專業(yè)數(shù)據(jù)。在訓練策略上,研究人員采用醫(yī)學MDT(多學科會診)式訓練策略,讓模型像人類專家會診一樣,對同一病種的影像特征、病理報告、臨床指標進行深度關聯(lián)學習。

一、兩大細分指標拿下第一,更貼近臨床醫(yī)生水平

數(shù)坤科技2025年6月正式發(fā)布數(shù)坤坤多模態(tài)醫(yī)學大模型V3,其參數(shù)規(guī)模為72B。根據(jù)數(shù)坤科技公眾號,V3具備更接近人類臨床專家的系統(tǒng)化、邏輯化診療思維鏈,能勝任如鑒別診斷、個體化治療等復雜真實任務。

此次V3登頂?shù)?span id="2cdw7mi" class="s1">MedBench來頭也不小。

MedBench由上海AI實驗室發(fā)起,基于醫(yī)學權威標準,評估大語言模型、多模態(tài)大模型及智能體在醫(yī)療領域的能力。2026年1月,上海AI實驗室發(fā)布了MedBench 4.0,并稱這是全國首個且唯一面向垂直模型、專業(yè)模型和應用場景的醫(yī)療大模型評測與驗證體系。

該榜單考驗的是模型能夠在影像信息、文字描述之間完成穩(wěn)定的跨模態(tài)關聯(lián),并順利完成多項需要綜合理解的醫(yī)療任務。

國產(chǎn)醫(yī)療大模型登頂權威榜單!核心秘籍:PB級訓練數(shù)據(jù)、模擬醫(yī)生真實會診過程

榜單中列出了醫(yī)療視覺感知與文本提取、跨模態(tài)語義理解與推理、臨床決策支持與推理三大細分指標。

V3在醫(yī)療視覺感知中排名第一,該指標主要考驗模型對醫(yī)學影像、醫(yī)療文檔的識別、定位與病灶檢測能力,模型需要從X光、CT等醫(yī)學影像中識別病灶,以及從病歷、檢查報告中提取關鍵醫(yī)療信息。

跨模態(tài)語義理解與推理考察的是模型對影像、文本等多模態(tài)信息的統(tǒng)一表征與關聯(lián)推理能力,V3同樣拿下了第一。

在臨床決策支持與推理中,V3的表現(xiàn)僅次于微醫(yī)醫(yī)療大模型。這一模塊檢驗的是模型在掌握醫(yī)學知識基礎上,模擬臨床醫(yī)生進行診療決策的能力。

國產(chǎn)醫(yī)療大模型登頂權威榜單!核心秘籍:PB級訓練數(shù)據(jù)、模擬醫(yī)生真實會診過程

V3在MedBench拿下綜合能力第一,從基礎的感知理解,到深度的跨模態(tài)推理,再到最終的臨床決策,三大能力在多模態(tài)大模型應用于醫(yī)療領域中環(huán)環(huán)相扣。

對于此次模型登頂,數(shù)坤科技CTO鄭超稱,大模型在評測榜單上的得分越高,越能說明其在醫(yī)療領域的應用能力更接近臨床醫(yī)生水平,但不能唯分數(shù)論。

二、PB級醫(yī)療數(shù)據(jù)、MDT式訓練,要讓模型學會醫(yī)生真實看病過程

數(shù)坤科技在訓練大模型時,其核心在于從設計、訓練到評測,始終圍繞真實醫(yī)療問題的形成邏輯展開,使不同模態(tài)的信息能夠按臨床路徑被理解和使用。

真實醫(yī)療場景中,醫(yī)學信息往往是連續(xù)的、多序列的,且存在不完整、不確定的情況,基于這一痛點,數(shù)坤科技在訓練數(shù)據(jù)的積累、訓練策略的選擇上進行了優(yōu)化。

首先在模型訓練的數(shù)據(jù)上,數(shù)坤科技創(chuàng)始人兼董事長毛新生透露,數(shù)坤科技已經(jīng)和全球上千家醫(yī)院合作,積累了大量的醫(yī)療專業(yè)數(shù)據(jù),其訓練數(shù)據(jù)規(guī)模已經(jīng)達到了PB級別。

其次在訓練方式上,該公司采用的策略是“醫(yī)學MDT(多學科會診)式訓練策略”。鄭超稱,簡單來說就是讓大模型模擬醫(yī)生的看病過程。

醫(yī)生在臨床診療中,會綜合分析多模態(tài)檢查數(shù)據(jù),例如查看CT時會結合不同層面的影像,分析核磁時則會參考DCE、DWI、T1WI等不同序列的圖像,再結合患者的病史、主訴等臨床信息,形成對病情的綜合判斷。大模型的訓練過程,正是對這一真實診療邏輯的模擬,通過學習如何整合、解讀各類醫(yī)學影像序列與臨床文本信息,逐步掌握類似醫(yī)生的病情分析與決策思路。

鄭超補充說,數(shù)坤科技的模型不是簡單地把圖像和文本拼在一起,而是讓模型像人類專家會診一樣,對同一病種的影像特征、病理報告、臨床指標進行深度關聯(lián)學習。

他們直接以病種、檢查路徑和臨床決策流程為主線,讓不同模態(tài)的信息在模型中形成可協(xié)同使用的結構。這也對應著數(shù)坤科技要做“最懂醫(yī)療的AI”的目標,讓模型能夠按照醫(yī)學問題本身的結構來組織和理解信息。

三、8年深耕醫(yī)療賽道,數(shù)坤已積累海量真實醫(yī)療數(shù)據(jù)

當下,AI醫(yī)療賽道的熱度飆升,螞蟻集團旗下AI健康助手螞蟻阿福,去年12月成為中國首個躋身AI App前五的健康類AI,大模型獨角獸百川智能連發(fā)多款醫(yī)療大模型,刷新行業(yè)SOTA。

V3此次登頂,得益于其在AI醫(yī)療領域的積累。

根據(jù)官方資料,數(shù)坤科技曾全球首創(chuàng)數(shù)字人體技術平臺,并且是國內(nèi)唯一覆蓋影像全模態(tài)的AI企業(yè),其已經(jīng)滲透到放射、超聲、手術等領域。

不同于通用模型,醫(yī)療大模型想要長期穩(wěn)定的應用在醫(yī)療領域難度頗高。

毛新生提到了兩大技術難點,首先在訓練中需要讓大模型多方位了解某一疾病的相關醫(yī)學數(shù)據(jù);其次是盡量減少模型輸出的幻覺。

這是因為,每一個疾病從預防、篩查、干預、診斷、治療、康復的全生命周期會涉及到大量的醫(yī)學專業(yè)知識,對大模型輸出錯誤的容忍度極低,因此這對大模型企業(yè)提出了非常高的要求,需要醫(yī)學和AI領域知識的雙重積累。

因此,數(shù)坤科技的團隊中有大量具備醫(yī)學背景的研發(fā)人員,他們對肺結節(jié)的CT影像特征與病理報告的細胞形態(tài)描述對應有深入理解,并且能快速了解冠脈CTA的狹窄程度如何與患者的心電圖變化關聯(lián)。

深耕醫(yī)療領域8年的數(shù)坤科技,從計算機視覺到當下大模型的應用,已經(jīng)在AI醫(yī)療領域積累了大量客戶與實際落地案例。

計算機視覺在醫(yī)療領域的早期應用,主要圍繞CT、核磁、超聲等醫(yī)學影像數(shù)據(jù)展開,而多項關鍵技術的首次落地,均由數(shù)坤科技率先推動。毛新生稱,數(shù)坤科技不僅是業(yè)內(nèi)首個將三維神經(jīng)網(wǎng)絡用于醫(yī)學圖像處理的企業(yè),也是最早從心臟領域切入并實現(xiàn)技術突破的醫(yī)療AI公司。

進入大模型時代后,多模態(tài)醫(yī)學大模型已具備接近??漆t(yī)生的深度臨床專家思維,能夠為診療工作提供專業(yè)能力補充。目前,相關AI應用已覆蓋院內(nèi)門診、住院全流程,并延伸至院外預問診等多個關鍵場景。

結語:AI落地醫(yī)療賽道,真實診療場景才是試金石

對于醫(yī)療領域模型而言,榜單評測并不是終點,模型是否真正“懂醫(yī)療”,最終仍要接受真實診療流程的檢驗。

不過,此次V3模型以相對而言較小的參數(shù)超越了國內(nèi)外通用大模型與垂直醫(yī)療模型,印證了醫(yī)療大模型的核心競爭力不再是單純的參數(shù)規(guī)模與訓練算力。數(shù)坤科技積累的海量真實醫(yī)院落地經(jīng)驗,或能加速醫(yī)療大模型的應用。