亚洲男人天堂一区二区三区,日韩成人伦理在线电影,4438x6亚洲五月天

智東西（公眾號(hào)：zhidxcom）
編譯 | 陳駿達(dá)
編輯 | 云鵬

智東西11月11日?qǐng)?bào)道，今天凌晨，月之暗面核心團(tuán)隊(duì)在社交媒體平臺(tái)Reddit上舉行了一場(chǎng)有問必答（AMA）活動(dòng)，月之暗面聯(lián)合創(chuàng)始人兼CEO楊植麟等人在Kimi K2 Thinking模型發(fā)布后不久，正面回應(yīng)了模型訓(xùn)練成本、跑分與實(shí)際體驗(yàn)差距等熱點(diǎn)議題。

Kimi K2 Thinking模型訓(xùn)練成本僅為460萬美元的網(wǎng)絡(luò)傳言喊得響亮，不過，楊植麟已經(jīng)打假了，他稱，這并非官方數(shù)據(jù)，訓(xùn)練成本很難量化，因?yàn)槠渲泻艽笠徊糠钟糜谘芯亢蛯?shí)驗(yàn)。他還透露，月之暗面已經(jīng)在研究K2的VL（視覺-語言）版本了。

罕見！月之暗面楊植麟、周昕宇、吳育昕回應(yīng)一切：打假460萬美元、調(diào)侃OpenAI

有不少海外網(wǎng)友提出了十分尖銳的問題，比如Kimi K2 Thinking的推理長(zhǎng)度過長(zhǎng)，榜單成績(jī)與實(shí)際體驗(yàn)不符等問題。楊植麟解釋了背后的原因，他稱現(xiàn)階段該模型優(yōu)先考慮絕對(duì)性能，token效率會(huì)在后續(xù)得到改善。榜單高分與實(shí)測(cè)的脫節(jié)，也會(huì)在模型通用能力補(bǔ)齊后獲得改善。

10月底，月之暗面開源了混合線性注意力架構(gòu)Kimi Linear，首次在短上下文、長(zhǎng)上下文、強(qiáng)化學(xué)習(xí)擴(kuò)展機(jī)制等各種場(chǎng)景中超越了全注意力機(jī)制，引來不少開發(fā)者關(guān)注。楊植麟稱，Kimi Linear的KDA混合線性注意力模塊，很可能會(huì)以某種形式出現(xiàn)在K3中。

而當(dāng)網(wǎng)友問及K3的發(fā)布時(shí)間時(shí)，楊植麟戲謔地回應(yīng)道：“在Sam價(jià)值萬億美元的數(shù)據(jù)中心建成之前?！?/span>

罕見！月之暗面楊植麟、周昕宇、吳育昕回應(yīng)一切：打假460萬美元、調(diào)侃OpenAI

月之暗面團(tuán)隊(duì)似乎還在另外幾條評(píng)論中調(diào)侃了OpenAI。當(dāng)網(wǎng)友問及有無AI瀏覽器的開發(fā)計(jì)劃時(shí)，月之暗面聯(lián)合創(chuàng)始人兼算法團(tuán)隊(duì)負(fù)責(zé)人周昕宇稱，要做出更好的模型，并不需要再去套一層新的Chromium殼。而當(dāng)網(wǎng)友好奇OpenAI為何要燒掉那么多錢時(shí)，周昕宇稱：“這個(gè)問題只有Sam才知道。我們有自己的方式和節(jié)奏?！?/p>

面對(duì)外界關(guān)于“開源是否會(huì)帶來安全風(fēng)險(xiǎn)”的提問，楊植麟回應(yīng)稱，開放安全對(duì)齊技術(shù)棧有助于更多研究者在微調(diào)開源模型時(shí)保持安全性，同時(shí)他也強(qiáng)調(diào)需要建立機(jī)制，確保這些后續(xù)工作遵循安全協(xié)議。

他還在另一條評(píng)論中補(bǔ)充道：“我們擁抱開源，因?yàn)槲覀兿嘈艑?duì)AGI（通用人工智能）的追求，應(yīng)該帶來團(tuán)結(jié)，而不是分裂?！?/p>

月之暗面聯(lián)合創(chuàng)始人吳育昕也一同參與了這場(chǎng)問答，楊植麟、周昕宇、吳育昕圍繞Kimi系列模型的架構(gòu)創(chuàng)新、訓(xùn)練細(xì)節(jié)、開源策略以及未來規(guī)劃與網(wǎng)友進(jìn)行了交流。

一、K2 Thinking現(xiàn)有優(yōu)先級(jí)是性能，獨(dú)特文風(fēng)背后有訣竅

在這場(chǎng)活動(dòng)中，最受關(guān)注的焦點(diǎn)是Kimi K2 Thinking模型，這是月之暗面最新發(fā)布的開源推理模型。

有網(wǎng)友稱，自己測(cè)試了Kimi K2 Thinking與GPT-5 Thinking，前者的正確率領(lǐng)先，但推理時(shí)間更長(zhǎng)，像是在不停復(fù)查自己。對(duì)此，楊植麟稱，他們正在積極優(yōu)化token使用效率。當(dāng)前版本中，優(yōu)先考慮的是絕對(duì)性能而非token效率。月之暗面會(huì)嘗試將效率納入獎(jiǎng)勵(lì)機(jī)制，以便它能學(xué)習(xí)如何簡(jiǎn)化思考過程。

罕見！月之暗面楊植麟、周昕宇、吳育昕回應(yīng)一切：打假460萬美元、調(diào)侃OpenAI

還有網(wǎng)友質(zhì)疑，Kimi K2 Thinking是否經(jīng)過專門訓(xùn)練，以在HLE這一基準(zhǔn)測(cè)試中取得好成績(jī)？它的高分似乎與實(shí)際使用中的智能水平不太相符。

楊植麟回應(yīng)道，Kimi K2 Thinking在提升智能體推理能力方面取得了一些進(jìn)展，使其在HLE測(cè)試中得分較高。月之暗面正在努力進(jìn)一步提升其通用能力，以便在更多實(shí)際應(yīng)用場(chǎng)景中充分發(fā)揮智能的作用。

另有網(wǎng)友問道：“為何K2 Thinking能在一次推理中保持如此長(zhǎng)的思維鏈，而GPT-5不行？”

楊植麟解釋道：“我認(rèn)為推理時(shí)間取決于API吞吐，而推理token的數(shù)量取決于模型訓(xùn)練方式。我們?cè)谟?xùn)練Kimi K2 Thinking時(shí)傾向于使用更多的思考token以獲得最佳效果。我們的Turbo API會(huì)更快，同時(shí)Kimi K2 Thinking原生采用INT4，這也提升了推理速度。

Kimi K2 Thinking是一款純文本模型，有網(wǎng)友提問稱，這究竟是為了達(dá)到SOTA而做出的短期權(quán)衡，還是一項(xiàng)長(zhǎng)期投資？楊植麟回應(yīng)，獲得正確的VL數(shù)據(jù)和訓(xùn)練需要時(shí)間，因此月之暗面選擇先發(fā)布文本模型。

Kimi K2系列模型不阿諛奉承、直接的文風(fēng)在AI界算是一股清流，有不少網(wǎng)友認(rèn)可這種風(fēng)格。吳育昕稱，這種寫作風(fēng)格是模型后訓(xùn)練數(shù)據(jù)和評(píng)估的重要組成部分。

談及KDA，楊植麟稱，從歷史上看，混合注意力在長(zhǎng)輸入和長(zhǎng)輸出任務(wù)上要超越全注意力一直很困難。KDA在所有維度上都展示了性能提升，包括長(zhǎng)思維鏈RL場(chǎng)景，同時(shí)保持了線性注意力的高效性。

另一位網(wǎng)友補(bǔ)充道，希望KDA能結(jié)合擴(kuò)散模型使用。楊植麟認(rèn)為這一想法是可行的，但文本擴(kuò)散（text diffusion）比較困難，可能是因?yàn)樵趯U(kuò)散應(yīng)用到文本上時(shí)，還沒有足夠好的先驗(yàn)。

周昕宇在技術(shù)層面進(jìn)一步解釋了KDA的對(duì)比優(yōu)勢(shì)。他稱，KDA混合架構(gòu)結(jié)合NoPE MLA后，在預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)階段均優(yōu)于采用RoPE的完整MLA。不僅基準(zhǔn)得分更高，還更快、更經(jīng)濟(jì)，使他們能夠更高效地訓(xùn)練、部署并服務(wù)更多用戶。未來，月之暗面還有進(jìn)一步改進(jìn)，成熟后會(huì)公開。

罕見！月之暗面楊植麟、周昕宇、吳育昕回應(yīng)一切：打假460萬美元、調(diào)侃OpenAI

近期，DeepSeek、智譜都曾發(fā)布以視覺方式作為輸入，以提升效率的探索。不過，周昕宇稱，他個(gè)人認(rèn)為這種方法過于刻意，自己更傾向于繼續(xù)探索特征空間，尋找更通用、與模態(tài)無關(guān)的方法來提高模型效率。

此前，月之暗面曾經(jīng)在模型中采用了Muon作為優(yōu)化器，網(wǎng)友認(rèn)為這一優(yōu)化器相對(duì)來說未經(jīng)測(cè)試，這一決定似乎有些瘋狂。

周昕宇解釋了采用Muon的歷程。他稱，Muon是一個(gè)未經(jīng)其他廠商測(cè)試的優(yōu)化器，但月之暗面已經(jīng)用它進(jìn)行了所有的擴(kuò)展測(cè)試，結(jié)果都通過了。他們對(duì)自己的研究成果充滿信心，網(wǎng)友或許認(rèn)為Muon只是運(yùn)氣好，但實(shí)際上有幾十種優(yōu)化器和架構(gòu)沒有經(jīng)受住這樣的考驗(yàn)。

二、“被封禁”已超出控制范圍，上下文窗口將進(jìn)一步擴(kuò)展

月之暗面三位聯(lián)合創(chuàng)始人還集中回應(yīng)了與模型服務(wù)、開源等相關(guān)話題的疑問。有網(wǎng)友稱，Kimi在自己的公司已經(jīng)成為主要的測(cè)試模型，但生產(chǎn)環(huán)境會(huì)切換到美國本土的模型。這主要是因?yàn)轭I(lǐng)導(dǎo)層擔(dān)心Kimi是“中國大模型”，可能存在一些風(fēng)險(xiǎn)。

這位網(wǎng)友還分享，自己很喜歡使用Kimi App，自己一位在亞馬遜工作的朋友也很喜歡這一應(yīng)用，但由于亞馬遜有規(guī)定必須使用自家的AI助手，禁止在工作場(chǎng)合使用其他主流的AI助手App。網(wǎng)友擔(dān)心，隨著Kimi逐漸變得知名，她會(huì)不會(huì)再也無法在工作場(chǎng)合中使用呢？

吳育昕回應(yīng)稱：“雖然被“封禁”往往超出我們的控制范圍，但開源該模型有望成為消除部分顧慮的有效途徑（企業(yè)可以自行部署）。我們希望看到一個(gè)更加信任的世界，但這需要時(shí)間?！?/p>

罕見！月之暗面楊植麟、周昕宇、吳育昕回應(yīng)一切：打假460萬美元、調(diào)侃OpenAI

上下文一直是影響AI模型在生產(chǎn)環(huán)境應(yīng)用的重要因素。目前，Kimi K2 Thinking最大支持256K的上下文，有網(wǎng)友反饋這對(duì)大型代碼庫而言并不算大。楊植麟稱，月之暗面應(yīng)該能在未來的版本中增加上下文長(zhǎng)度。

還有網(wǎng)友希望月之暗面能將模型上下文窗口提升到100萬個(gè)token，周昕宇回復(fù)道，月之暗面之前已嘗試過100萬個(gè)token的上下文窗口，但當(dāng)時(shí)的服務(wù)成本太高。未來他們會(huì)重新考慮更長(zhǎng)的上下文窗口

當(dāng)被問及有無AI瀏覽器的開發(fā)計(jì)劃時(shí)，周昕宇十分犀利地回復(fù)道：要做出更好的模型，并不需要再去套一層新的Chromium殼。楊植麟稱，月之暗面目前將專注于模型訓(xùn)練，但會(huì)不斷更新kimi.com ，使其包含最新功能。

還有不少網(wǎng)友提到，希望月之暗面能推出規(guī)模更小的模型。楊植麟稱，Kimi-Linear-48B-A3B-Instruct就是月之暗面發(fā)布的小型模型之一，未來他們可能會(huì)訓(xùn)練更多模型并添加更多功能。

目前，Kimi已經(jīng)提供了編程訂閱方案，這一計(jì)費(fèi)方式是基于API請(qǐng)求次數(shù)，有網(wǎng)友稱這種模式導(dǎo)致資源消耗偏高。月之暗面回應(yīng)稱，API請(qǐng)求次數(shù)計(jì)費(fèi)能讓用戶看到費(fèi)用明細(xì)，同時(shí)也更符合企業(yè)的成本結(jié)構(gòu)。不過，他們會(huì)盡快找到更好的方案。

結(jié)語：中國AI創(chuàng)新能力獲得認(rèn)可

從社區(qū)中海外開發(fā)者的熱烈提問和尖銳反饋可以看出，以Kimi系列為代表的中國模型正受到前所未有的關(guān)注。

月之暗面此次在Reddit平臺(tái)的公開問答，集中回應(yīng)了全球網(wǎng)友對(duì)Kimi技術(shù)細(xì)節(jié)的大量興趣和疑問。這種關(guān)注背后，也折射出全球開發(fā)者對(duì)中國AI創(chuàng)新能力的認(rèn)可。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、K2 Thinking現(xiàn)有優(yōu)先級(jí)是性能，獨(dú)特文風(fēng)背后有訣竅

二、“被封禁”已超出控制范圍，上下文窗口將進(jìn)一步擴(kuò)展

結(jié)語：中國AI創(chuàng)新能力獲得認(rèn)可

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、K2 Thinking現(xiàn)有優(yōu)先級(jí)是性能，獨(dú)特文風(fēng)背后有訣竅

二、“被封禁”已超出控制范圍，上下文窗口將進(jìn)一步擴(kuò)展

結(jié)語：中國AI創(chuàng)新能力獲得認(rèn)可

相關(guān)推薦

一、K2 Thinking現(xiàn)有優(yōu)先級(jí)是性能，獨(dú)特文風(fēng)背后有訣竅

二、“被封禁”已超出控制范圍，上下文窗口將進(jìn)一步擴(kuò)展