智東西(公眾號(hào):zhidxcom)
編譯 | 陳駿達(dá)
編輯 | 云鵬

智東西11月11日?qǐng)?bào)道,今天凌晨,月之暗面核心團(tuán)隊(duì)在社交媒體平臺(tái)Reddit上舉行了一場(chǎng)有問必答(AMA)活動(dòng),月之暗面聯(lián)合創(chuàng)始人兼CEO楊植麟等人在Kimi K2 Thinking模型發(fā)布后不久,正面回應(yīng)了模型訓(xùn)練成本、跑分與實(shí)際體驗(yàn)差距等熱點(diǎn)議題。

Kimi K2 Thinking模型訓(xùn)練成本僅為460萬美元的網(wǎng)絡(luò)傳言喊得響亮,不過,楊植麟已經(jīng)打假了,他稱,這并非官方數(shù)據(jù),訓(xùn)練成本很難量化,因?yàn)槠渲泻艽笠徊糠钟糜谘芯亢蛯?shí)驗(yàn)。他還透露,月之暗面已經(jīng)在研究K2的VL(視覺-語言)版本了。

罕見!月之暗面楊植麟、周昕宇、吳育昕回應(yīng)一切:打假460萬美元、調(diào)侃OpenAI

有不少海外網(wǎng)友提出了十分尖銳的問題,比如Kimi K2 Thinking的推理長(zhǎng)度過長(zhǎng),榜單成績(jī)與實(shí)際體驗(yàn)不符等問題。楊植麟解釋了背后的原因,他稱現(xiàn)階段該模型優(yōu)先考慮絕對(duì)性能,token效率會(huì)在后續(xù)得到改善。榜單高分與實(shí)測(cè)的脫節(jié),也會(huì)在模型通用能力補(bǔ)齊后獲得改善。

10月底,月之暗面開源了混合線性注意力架構(gòu)Kimi Linear,首次在短上下文、長(zhǎng)上下文、強(qiáng)化學(xué)習(xí)擴(kuò)展機(jī)制等各種場(chǎng)景中超越了全注意力機(jī)制,引來不少開發(fā)者關(guān)注。楊植麟稱,Kimi Linear的KDA混合線性注意力模塊,很可能會(huì)以某種形式出現(xiàn)在K3中。

而當(dāng)網(wǎng)友問及K3的發(fā)布時(shí)間時(shí),楊植麟戲謔地回應(yīng)道:“在Sam價(jià)值萬億美元的數(shù)據(jù)中心建成之前?!?/span>

罕見!月之暗面楊植麟、周昕宇、吳育昕回應(yīng)一切:打假460萬美元、調(diào)侃OpenAI

月之暗面團(tuán)隊(duì)似乎還在另外幾條評(píng)論中調(diào)侃了OpenAI。當(dāng)網(wǎng)友問及有無AI瀏覽器的開發(fā)計(jì)劃時(shí),月之暗面聯(lián)合創(chuàng)始人兼算法團(tuán)隊(duì)負(fù)責(zé)人周昕宇,要做出更好的模型,并不需要再去套一層新的Chromium殼。而當(dāng)網(wǎng)友好奇OpenAI為何要燒掉那么多錢時(shí),周昕宇稱:“這個(gè)問題只有Sam才知道。我們有自己的方式和節(jié)奏?!?/p>

面對(duì)外界關(guān)于“開源是否會(huì)帶來安全風(fēng)險(xiǎn)”的提問,楊植麟回應(yīng)稱,開放安全對(duì)齊技術(shù)棧有助于更多研究者在微調(diào)開源模型時(shí)保持安全性,同時(shí)他也強(qiáng)調(diào)需要建立機(jī)制,確保這些后續(xù)工作遵循安全協(xié)議。

他還在另一條評(píng)論中補(bǔ)充道:“我們擁抱開源,因?yàn)槲覀兿嘈艑?duì)AGI(通用人工智能)的追求,應(yīng)該帶來團(tuán)結(jié),而不是分裂?!?/p>

月之暗面聯(lián)合創(chuàng)始人吳育昕也一同參與了這場(chǎng)問答,楊植麟、周昕宇、吳育昕圍繞Kimi系列模型的架構(gòu)創(chuàng)新、訓(xùn)練細(xì)節(jié)、開源策略以及未來規(guī)劃與網(wǎng)友進(jìn)行了交流。

一、K2 Thinking現(xiàn)有優(yōu)先級(jí)是性能,獨(dú)特文風(fēng)背后有訣竅

在這場(chǎng)活動(dòng)中,最受關(guān)注的焦點(diǎn)是Kimi K2 Thinking模型,這是月之暗面最新發(fā)布的開源推理模型。

有網(wǎng)友稱,自己測(cè)試了Kimi K2 Thinking與GPT-5 Thinking,前者的正確率領(lǐng)先,但推理時(shí)間更長(zhǎng),像是在不停復(fù)查自己。對(duì)此,楊植麟稱,他們正在積極優(yōu)化token使用效率。當(dāng)前版本中,優(yōu)先考慮的是絕對(duì)性能而非token效率。月之暗面會(huì)嘗試將效率納入獎(jiǎng)勵(lì)機(jī)制,以便它能學(xué)習(xí)如何簡(jiǎn)化思考過程。

罕見!月之暗面楊植麟、周昕宇、吳育昕回應(yīng)一切:打假460萬美元、調(diào)侃OpenAI

還有網(wǎng)友質(zhì)疑,Kimi K2 Thinking是否經(jīng)過專門訓(xùn)練,以在HLE這一基準(zhǔn)測(cè)試中取得好成績(jī)?它的高分似乎與實(shí)際使用中的智能水平不太相符。

楊植麟回應(yīng)道,Kimi K2 Thinking在提升智能體推理能力方面取得了一些進(jìn)展,使其在HLE測(cè)試中得分較高。月之暗面正在努力進(jìn)一步提升其通用能力,以便在更多實(shí)際應(yīng)用場(chǎng)景中充分發(fā)揮智能的作用。

另有網(wǎng)友問道:“為何K2 Thinking能在一次推理中保持如此長(zhǎng)的思維鏈,而GPT-5不行?”

楊植麟解釋道:“我認(rèn)為推理時(shí)間取決于API吞吐,而推理token的數(shù)量取決于模型訓(xùn)練方式。我們?cè)谟?xùn)練Kimi K2 Thinking時(shí)傾向于使用更多的思考token以獲得最佳效果。我們的Turbo API會(huì)更快,同時(shí)Kimi K2 Thinking原生采用INT4,這也提升了推理速度。

Kimi K2 Thinking是一款純文本模型,有網(wǎng)友提問稱,這究竟是為了達(dá)到SOTA而做出的短期權(quán)衡,還是一項(xiàng)長(zhǎng)期投資?楊植麟回應(yīng),獲得正確的VL數(shù)據(jù)和訓(xùn)練需要時(shí)間,因此月之暗面選擇先發(fā)布文本模型。

Kimi K2系列模型不阿諛奉承、直接的文風(fēng)在AI界算是一股清流,有不少網(wǎng)友認(rèn)可這種風(fēng)格。吳育昕稱,這種寫作風(fēng)格是模型后訓(xùn)練數(shù)據(jù)和評(píng)估的重要組成部分。

談及KDA,楊植麟稱,從歷史上看,混合注意力在長(zhǎng)輸入和長(zhǎng)輸出任務(wù)上要超越全注意力一直很困難。KDA在所有維度上都展示了性能提升,包括長(zhǎng)思維鏈RL場(chǎng)景,同時(shí)保持了線性注意力的高效性。

另一位網(wǎng)友補(bǔ)充道,希望KDA能結(jié)合擴(kuò)散模型使用。楊植麟認(rèn)為這一想法是可行的,但文本擴(kuò)散(text diffusion)比較困難,可能是因?yàn)樵趯U(kuò)散應(yīng)用到文本上時(shí),還沒有足夠好的先驗(yàn)。

周昕宇在技術(shù)層面進(jìn)一步解釋了KDA的對(duì)比優(yōu)勢(shì)。他稱,KDA混合架構(gòu)結(jié)合NoPE MLA后,在預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)階段均優(yōu)于采用RoPE的完整MLA。不僅基準(zhǔn)得分更高,還更快、更經(jīng)濟(jì),使他們能夠更高效地訓(xùn)練、部署并服務(wù)更多用戶。未來,月之暗面還有進(jìn)一步改進(jìn),成熟后會(huì)公開。

罕見!月之暗面楊植麟、周昕宇、吳育昕回應(yīng)一切:打假460萬美元、調(diào)侃OpenAI

近期,DeepSeek、智譜都曾發(fā)布以視覺方式作為輸入,以提升效率的探索。不過,周昕宇稱,他個(gè)人認(rèn)為這種方法過于刻意,自己更傾向于繼續(xù)探索特征空間,尋找更通用、與模態(tài)無關(guān)的方法來提高模型效率。

此前,月之暗面曾經(jīng)在模型中采用了Muon作為優(yōu)化器,網(wǎng)友認(rèn)為這一優(yōu)化器相對(duì)來說未經(jīng)測(cè)試,這一決定似乎有些瘋狂。

周昕宇解釋了采用Muon的歷程。他稱,Muon是一個(gè)未經(jīng)其他廠商測(cè)試的優(yōu)化器,但月之暗面已經(jīng)用它進(jìn)行了所有的擴(kuò)展測(cè)試,結(jié)果都通過了。他們對(duì)自己的研究成果充滿信心,網(wǎng)友或許認(rèn)為Muon只是運(yùn)氣好,但實(shí)際上有幾十種優(yōu)化器和架構(gòu)沒有經(jīng)受住這樣的考驗(yàn)。

二、“被封禁”已超出控制范圍,上下文窗口將進(jìn)一步擴(kuò)展

月之暗面三位聯(lián)合創(chuàng)始人還集中回應(yīng)了與模型服務(wù)、開源等相關(guān)話題的疑問。有網(wǎng)友稱,Kimi在自己的公司已經(jīng)成為主要的測(cè)試模型,但生產(chǎn)環(huán)境會(huì)切換到美國本土的模型。這主要是因?yàn)轭I(lǐng)導(dǎo)層擔(dān)心Kimi是“中國大模型”,可能存在一些風(fēng)險(xiǎn)。

這位網(wǎng)友還分享,自己很喜歡使用Kimi App,自己一位在亞馬遜工作的朋友也很喜歡這一應(yīng)用,但由于亞馬遜有規(guī)定必須使用自家的AI助手,禁止在工作場(chǎng)合使用其他主流的AI助手App。網(wǎng)友擔(dān)心,隨著Kimi逐漸變得知名,她會(huì)不會(huì)再也無法在工作場(chǎng)合中使用呢?

吳育昕回應(yīng)稱:“雖然被“封禁”往往超出我們的控制范圍,但開源該模型有望成為消除部分顧慮的有效途徑(企業(yè)可以自行部署)。我們希望看到一個(gè)更加信任的世界,但這需要時(shí)間?!?/p>

罕見!月之暗面楊植麟、周昕宇、吳育昕回應(yīng)一切:打假460萬美元、調(diào)侃OpenAI

上下文一直是影響AI模型在生產(chǎn)環(huán)境應(yīng)用的重要因素。目前,Kimi K2 Thinking最大支持256K的上下文,有網(wǎng)友反饋這對(duì)大型代碼庫而言并不算大。楊植麟稱,月之暗面應(yīng)該能在未來的版本中增加上下文長(zhǎng)度。

還有網(wǎng)友希望月之暗面能將模型上下文窗口提升到100萬個(gè)token,周昕宇回復(fù)道,月之暗面之前已嘗試過100萬個(gè)token的上下文窗口,但當(dāng)時(shí)的服務(wù)成本太高。未來他們會(huì)重新考慮更長(zhǎng)的上下文窗口

當(dāng)被問及有無AI瀏覽器的開發(fā)計(jì)劃時(shí),周昕宇十分犀利地回復(fù)道:要做出更好的模型,并不需要再去套一層新的Chromium殼。楊植麟稱,月之暗面目前將專注于模型訓(xùn)練,但會(huì)不斷更新kimi.com ,使其包含最新功能。

還有不少網(wǎng)友提到,希望月之暗面能推出規(guī)模更小的模型。楊植麟稱,Kimi-Linear-48B-A3B-Instruct就是月之暗面發(fā)布的小型模型之一,未來他們可能會(huì)訓(xùn)練更多模型并添加更多功能。

目前,Kimi已經(jīng)提供了編程訂閱方案,這一計(jì)費(fèi)方式是基于API請(qǐng)求次數(shù),有網(wǎng)友稱這種模式導(dǎo)致資源消耗偏高。月之暗面回應(yīng)稱,API請(qǐng)求次數(shù)計(jì)費(fèi)能讓用戶看到費(fèi)用明細(xì),同時(shí)也更符合企業(yè)的成本結(jié)構(gòu)。不過,他們會(huì)盡快找到更好的方案。

結(jié)語:中國AI創(chuàng)新能力獲得認(rèn)可

從社區(qū)中海外開發(fā)者的熱烈提問和尖銳反饋可以看出,以Kimi系列為代表的中國模型正受到前所未有的關(guān)注。

月之暗面此次在Reddit平臺(tái)的公開問答,集中回應(yīng)了全球網(wǎng)友對(duì)Kimi技術(shù)細(xì)節(jié)的大量興趣和疑問。這種關(guān)注背后,也折射出全球開發(fā)者對(duì)中國AI創(chuàng)新能力的認(rèn)可。