智東西(公眾號(hào):zhidxcom)
作者 | 陳駿達(dá)
編輯 | 漠影

2025年高考成績(jī)已陸續(xù)出爐,全國各地的考生都面臨一個(gè)同樣的問題——填志愿。除了自行查閱相關(guān)信息,或是咨詢專家之外,還有數(shù)千萬考生和家長(zhǎng),選擇了向AI求助。

長(zhǎng)期提供高考信息服務(wù)的夸克今年有一個(gè)新能力爆了。截至6月30日,夸克已累計(jì)生成超過1000萬份AI志愿報(bào)告,為考生和家長(zhǎng)提供考生情況分析、填報(bào)策略設(shè)計(jì)、志愿表解讀、風(fēng)險(xiǎn)提示等覆蓋全面的信息,輔助志愿填報(bào)。

夸克AI志愿報(bào)告火了!上線近1月生成1000萬份,揭秘背后深度研究能力

該報(bào)告由夸克今年新推出的“志愿報(bào)告”Agent打造,底層由夸克高考志愿大模型與高考知識(shí)庫提供支持,并采用了“任務(wù)規(guī)劃—執(zhí)行—檢查—反思”的深度研究邏輯。

這一Agent能根據(jù)用戶提供的基本信息,規(guī)劃思考路徑,調(diào)用搜索工具進(jìn)行信息收集,并在執(zhí)行過程中動(dòng)態(tài)優(yōu)化志愿方案,甚至?xí)鲃?dòng)反思擴(kuò)展推薦范圍。

“志愿報(bào)告”Agent展現(xiàn)出接近人類專家的決策思維和動(dòng)態(tài)策略調(diào)整能力,這是傳統(tǒng)工具難以實(shí)現(xiàn)的。作為夸克深度研究技術(shù)在垂類場(chǎng)景中的代表應(yīng)用,“志愿報(bào)告”Agent在經(jīng)歷超過1000萬份報(bào)告的驗(yàn)證之后,成為國內(nèi)最大規(guī)模的深度研究應(yīng)用

夸克的通用深度研究功能,實(shí)際已于5月在夸克首頁正式上線。通過拆解志愿報(bào)告的打造過程,我們能夠窺得夸克深度研究的整體技術(shù)思路與發(fā)展方向。

一、5分鐘生成完整報(bào)告,AI也能真正像專家一樣思考

“志愿報(bào)告”是今年夸克針對(duì)志愿填報(bào)推出的核心功能之一,也是國內(nèi)唯一可以生成完整志愿報(bào)告的Agent。在考生提交省份、成績(jī)、興趣偏好等信息后,“志愿報(bào)告”Agent能在5-10分鐘內(nèi)交付一份詳實(shí)的報(bào)告。

這份報(bào)告能根據(jù)考生的信息,整理出清晰的填報(bào)策略,既能考慮到分段、選科組合等硬性指標(biāo),也能理解考生的專業(yè)傾向、職業(yè)規(guī)劃、地域偏好等主觀因素。

夸克AI志愿報(bào)告火了!上線近1月生成1000萬份,揭秘背后深度研究能力

“志愿報(bào)告”Agent不僅會(huì)考慮錄取率,還會(huì)綜合考量地域布局、城市發(fā)展機(jī)會(huì)、考生職業(yè)發(fā)展路徑等因素,給出的方案全面,且具有側(cè)重點(diǎn),能對(duì)重點(diǎn)志愿進(jìn)行詳盡的分析。

在執(zhí)行過程中,Agent通過多輪“工具調(diào)用+反思調(diào)整”的機(jī)制,動(dòng)態(tài)優(yōu)化志愿方案。例如,當(dāng)考生表達(dá)“傾向留在省內(nèi)(廣州、深圳優(yōu)先)、不考慮偏遠(yuǎn)地區(qū)”時(shí),模型會(huì)自動(dòng)生成搜索指令:優(yōu)先推薦廣州、深圳的高校,其次考慮廣東省內(nèi)其他城市院校,排除偏遠(yuǎn)地區(qū)選項(xiàng)。

若優(yōu)質(zhì)選項(xiàng)受限,Agent還能主動(dòng)反思擴(kuò)展搜索范圍,如增加廣東周邊發(fā)達(dá)城市,或在高層次高校(如985)上適度放開地域限制,為考生爭(zhēng)取沖一沖的機(jī)會(huì)。

針對(duì)一些較為復(fù)雜、甚至自相矛盾的需求,“志愿報(bào)告”Agent會(huì)幫助用戶進(jìn)一步澄清需求。例如,面對(duì)“數(shù)學(xué)成績(jī)差,但想報(bào)考計(jì)算機(jī)”這類常見沖突,系統(tǒng)會(huì)提示用戶這一選擇可能存在的能力匹配問題。

在高考志愿填報(bào)這個(gè)高決策風(fēng)險(xiǎn)、強(qiáng)個(gè)性化、信息復(fù)雜且動(dòng)態(tài)變化的特殊場(chǎng)景中,AI系統(tǒng)需要實(shí)現(xiàn)真正可靠的決策支持。下面,我們就將深入解析夸克“志愿報(bào)告”Agent背后技術(shù)棧的核心架構(gòu)與創(chuàng)新。

二、海量可信數(shù)據(jù)+人工挑刺,揭秘“志愿報(bào)告”Agent背后技術(shù)棧

在志愿填報(bào)這一垂直場(chǎng)景,準(zhǔn)確的數(shù)據(jù)是Agent做出正確決策的重要前提。

夸克高考志愿大模型的知識(shí)庫對(duì)高考相關(guān)權(quán)威站點(diǎn)實(shí)現(xiàn)近100%覆蓋,共收集了8000多個(gè)站點(diǎn)的幾十億個(gè)網(wǎng)頁,涵蓋全國2900多所高校、近1600個(gè)本科專業(yè),系統(tǒng)整合了院校分?jǐn)?shù)線、專業(yè)設(shè)置、課程體系等核心教學(xué)信息。

這一知識(shí)庫不僅收集H5網(wǎng)頁數(shù)據(jù),還投入大量人力收集非H5網(wǎng)頁數(shù)據(jù)(如學(xué)校官網(wǎng)的招生信息和機(jī)構(gòu)資料),以及線下專業(yè)資料,確保小眾或非知名站點(diǎn)的權(quán)威信息也能被收錄,從而保證了數(shù)據(jù)的全面性和權(quán)威性。

夸克高考知識(shí)庫還投入海量資源對(duì)每個(gè)省份的高考政策及權(quán)威解讀進(jìn)行梳理、實(shí)時(shí)更新。通過OCR提取、多源交叉比對(duì)與人工抽檢等多重機(jī)制,實(shí)現(xiàn)高可信度的數(shù)據(jù)引入與結(jié)構(gòu)化治理,確保模型所依賴的數(shù)據(jù)具備權(quán)威性和可驗(yàn)證性。

此外考慮到志愿填報(bào)與未來就業(yè)強(qiáng)相關(guān),夸克高考知識(shí)庫還進(jìn)一步將高校近三年的就業(yè)數(shù)據(jù)、考研數(shù)據(jù)、招錄體檢要求以及行業(yè)研究分析報(bào)告等延展信息納入。

夸克的高考志愿大模型則是“志愿報(bào)告”Agent的大腦。

這一模型以通義千問為基座,充分利用了夸克過去7年來在高考數(shù)據(jù)方面的積累??淇烁呖贾R(shí)庫的數(shù)據(jù)一方面會(huì)應(yīng)用到夸克高考志愿大模型訓(xùn)練的訓(xùn)練過程中,作為訓(xùn)練語料,由模型打磨、精煉相關(guān)知識(shí);另一方面也可作為模型推理時(shí)的RAG內(nèi)容供給。

這一模型還通過多階段的專項(xiàng)訓(xùn)練,獲得了對(duì)復(fù)雜規(guī)則與用戶需求的理解與推理能力。在內(nèi)部測(cè)評(píng)中,高考志愿大模型的幻覺率相比通用模型大幅降低。

在指令微調(diào)階段,夸克高考志愿大模型將數(shù)百名資深高考志愿規(guī)劃師的溝通、決策過程進(jìn)行結(jié)構(gòu)化。圍繞他們與考生或家長(zhǎng)的多輪真實(shí)對(duì)話,提取出完整分析路徑與語言風(fēng)格。通過將上萬條真實(shí)專家“推理鏈”轉(zhuǎn)化為高質(zhì)量監(jiān)督數(shù)據(jù),夸克高考志愿大模型得以深度學(xué)習(xí)人類專家的分析過程。

后訓(xùn)練階段,夸克高考志愿大模型結(jié)合使用了RLVR(可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí))和RLHF(人類反饋強(qiáng)化學(xué)習(xí))。RLVR通過明確的事實(shí)(如院校代碼、選科要求等)進(jìn)行自動(dòng)化檢驗(yàn),RLHF則通過人工反饋來進(jìn)行評(píng)估。這兩種機(jī)制靈活地混合協(xié)同工作,以優(yōu)化模型最終輸出的效果。

夸克AI志愿報(bào)告火了!上線近1月生成1000萬份,揭秘背后深度研究能力

在RLHF階段,人工專家的評(píng)判尤為關(guān)鍵。模型生成的志愿填報(bào)方案將被提交給多位高考志愿專家進(jìn)行評(píng)估。評(píng)估標(biāo)準(zhǔn)包括:專業(yè)建議是否準(zhǔn)確易懂、排序邏輯是否貼合考生特征、是否兼顧分?jǐn)?shù)與興趣、是否充分提示風(fēng)險(xiǎn)并給出可行應(yīng)對(duì)策略等。

通過“人類挑刺 + 模型修正”的方式,夸克高考志愿大模型的輸出在專業(yè)度與匹配度上持續(xù)逼近專家的真實(shí)判斷標(biāo)準(zhǔn)。在交付報(bào)告后,模型還能根據(jù)用戶的后續(xù)指令進(jìn)行迭代調(diào)整。

最終,夸克“志愿報(bào)告”Agent通過構(gòu)建全面、權(quán)威的高考知識(shí)庫,結(jié)合多階段專項(xiàng)訓(xùn)練與強(qiáng)化學(xué)習(xí)機(jī)制,顯著提升了報(bào)告內(nèi)容的精準(zhǔn)度和個(gè)性化水平,為考生和家長(zhǎng)提供了專業(yè)、可靠的智能決策支持。

三、真實(shí)世界千萬用戶驗(yàn)證,夸克深度研究潛力盡顯

在夸克算法負(fù)責(zé)人蔣冠軍看來,志愿報(bào)告是夸克對(duì)深度研究技術(shù)的一次重要實(shí)踐。他觀察到,在很多專業(yè)領(lǐng)域,用戶的需求是高度復(fù)雜的,已經(jīng)無法通過常規(guī)搜索或簡(jiǎn)單總結(jié)來滿足,從這次志愿報(bào)告的應(yīng)用情況來看,深度研究已經(jīng)讓AI真正成為用戶身邊的“專家型助手”。

夸克AI志愿報(bào)告火了!上線近1月生成1000萬份,揭秘背后深度研究能力

夸克的“志愿報(bào)告”Agent能夠在志愿填報(bào)領(lǐng)域真正做到專家級(jí)的表現(xiàn),這與夸克整體的“深度研究”技術(shù)特點(diǎn)是緊密相關(guān)的。

其實(shí),業(yè)內(nèi)已有不少提供“深度研究”類功能的AI產(chǎn)品,雖然這些產(chǎn)品都能快速生成報(bào)告,但當(dāng)細(xì)究具體內(nèi)容時(shí),精準(zhǔn)性、專業(yè)度仍有待提高,尤其是在志愿填報(bào)這樣的垂直領(lǐng)域。

由于行業(yè)、領(lǐng)域知識(shí)的匱乏,“深度研究”功能很可能會(huì)誤讀專業(yè)術(shù)語或遺漏關(guān)鍵細(xì)節(jié)。在知識(shí)快速更新的前沿領(lǐng)域,還可能因?yàn)槭褂眠^時(shí)數(shù)據(jù)導(dǎo)致分析偏差。

大部分深度研究產(chǎn)品的專業(yè)度也無法匹敵行業(yè)專家。AI雖然能整合、統(tǒng)計(jì)大量數(shù)據(jù),但在分析上仍存在明顯短板,也缺乏經(jīng)驗(yàn)與思辨能力。

今年5月,夸克的深度研究功能正式上線,對(duì)于通用深度研究需求,夸克已面向全量用戶開啟邀測(cè),用戶可在夸克首頁輸入端找到入口。

夸克AI志愿報(bào)告火了!上線近1月生成1000萬份,揭秘背后深度研究能力

夸克深度研究可以實(shí)現(xiàn)結(jié)構(gòu)化大綱生成、問題澄清路徑、AI工具協(xié)同和多模態(tài)結(jié)果輸出。數(shù)據(jù)顯示,在首批受邀用戶中,研究報(bào)告的下載和主動(dòng)分享率超過40%,這也從側(cè)面反映出用戶的滿意度。

而今年高考季的“志愿報(bào)告”Agent,則集中展現(xiàn)了上述深度研究能力在垂直場(chǎng)景的可擴(kuò)展性。針對(duì)深度研究的潛在問題,夸克已經(jīng)在“志愿報(bào)告”Agent的打造過程中打磨出一套可行的方法論。

結(jié)語:人人可用的夸克深度研究,用AI打破信息壁壘

夸克此次將深度研究能力應(yīng)用于志愿填報(bào)場(chǎng)景,也具有深遠(yuǎn)的社會(huì)意義。長(zhǎng)期以來,優(yōu)質(zhì)高考志愿填報(bào)服務(wù)作為一種付費(fèi)產(chǎn)品,其覆蓋范圍始終局限于部分考生群體。而夸克的介入,正在改變這一局面。

在日前舉辦的溝通會(huì)上,蔣冠軍分享了一組有趣的數(shù)據(jù),截至目前,在夸克“志愿報(bào)告”Agent生成的1000萬份志愿報(bào)告中,有超過5成是三線及以下城市用戶。這也意味著,在傳統(tǒng)付費(fèi)服務(wù)難以觸達(dá)或用戶無力承擔(dān)的地區(qū),夸克有效滿足了這一剛性需求,為推動(dòng)教育信息公平提供了一種可行的解決方案。

回望夸克過去數(shù)年來的發(fā)展歷程,它一直在面向用戶獲取高質(zhì)量信息服務(wù)的需求,不斷擴(kuò)展自己的能力。隨著“志愿報(bào)告”Agent和其背后的“深度研究”能力廣泛可及,夸克再一次豐富了其信息獲取、處理和生成方面的核心能力,讓人人都能享受到“深度研究”所帶來的技術(shù)紅利。