智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西8月25日報道,AI不僅能生成文章、圖像和視頻,還能生成可以動的室內(nèi)空間設(shè)計了!

只需用文字描述3D空間,或者上傳一張戶型圖,你就能讓AI創(chuàng)建出一個可交互的3D室內(nèi)空間。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

問客廳一共幾個門,AI迅速給出答案“6扇門”。你也可以上難度,一句話讓它生成適合老人居住的客廳:

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

AI能意識到“老人居住”需要的防滑扶手以及家具擺放方式,化身虛擬室內(nèi)空間設(shè)計師,直接替你把防滑扶手、桌椅、窗簾、冰箱、落地?zé)舻榷疾贾煤昧恕?/p>

你還可以要求更改細節(jié),比如加一些裝飾畫:

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

或者提出更具體的要求,例如讓AI生成一個適合老人居住的臥室,并需要一個帶扶手的單人床,AI會立即生成滿足訴求的新布局:

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

讓AI規(guī)劃從臥室床尾到餐桌邊的路徑,它能直接生成動態(tài)的3D空間漫游演示:

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

批量生成也不在話下,比如讓AI生成三口之家的客廳,然后從AI輸出的多樣化設(shè)計稿中盡情挑選。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

對比之下,以GPT-5為代表的大語言模型,輸出可視化空間布局的能力就顯現(xiàn)局限性了。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

這么好用的空間生成與編輯能力,來自“杭州六小龍”之一群核科技剛剛發(fā)布的空間語言模型SpatialLM 1.5。

以前,群核科技的代表作是全球最大空間設(shè)計軟件酷家樂。如今,這家沖刺科創(chuàng)板“空間智能第一股”的杭州AI公司正在講出新故事。

在今日下午的群核科技首屆技術(shù)開放日上,群核科技宣布開源3D場景生成模型SpatialGen,即將開源空間語言模型SpatialLM 1.5,并首次分享基于SpatialGen探索的AI視頻生成解決方案,旨在解決時空一致性難題。

群核科技聯(lián)合創(chuàng)始人兼董事長黃曉煌發(fā)布了群核科技空間智能全景圖。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

傳統(tǒng)大語言模型對物理世界幾何與空間關(guān)系的理解存在局限性。而SpatialLM 1.5不僅能理解文本指令,還能輸出包含空間結(jié)構(gòu)、物體關(guān)系、物理參數(shù)的“空間語言”,可被用具身智能機器人的虛擬訓(xùn)練上,解決數(shù)據(jù)難題。

今年3月,SpatialLM1.5的前代版本、開源空間理解模型SpatialLM 1.0曾與DeepSeek-V3-0324、Qwen2.5-Omni一起登上了全球最大AI開源平臺Hugging Face的模型趨勢榜前三。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

SpatialLM 1.5將很快以空間語言對話Agent “SpatialLM-Chat” 形式開源。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

SpatialGen已在Hugging Face、GitHub、魔搭開源。

Hugging Face地址:https://huggingface.co/manycore-research/SpatialGen-1.0
Github地址:https://github.com/manycore-research/SpatialGen
魔搭地址:https://modelscope.cn/models/manycore-research/SpatialGen-1.0

群核科技AI產(chǎn)品總監(jiān)龍?zhí)鞚赏嘎?,群核科技正在做一個“SpatialGen + AI視頻創(chuàng)作”的內(nèi)部保密項目,代號X。

其基于3D技術(shù)的AI視頻生成產(chǎn)品計劃在今年發(fā)布,可能成為“全球首款深度融合3D能力的AI視頻生成Agent”。

他還現(xiàn)場播放了用該工具生成讓群核科技三位聯(lián)合創(chuàng)始人在不同場景中跳舞的搞笑視頻。

這個視頻呈現(xiàn)出幾個特點:在有超過十個分鏡的情況下保持精準的一致性,動作沒有崩壞,能夠精準卡點,在復(fù)雜運鏡下畫面內(nèi)容依然合理,并實現(xiàn)內(nèi)容可控性。

龍?zhí)鞚烧f,群核科技的愿景是,讓任何有創(chuàng)意想法并渴望將其視覺化的人,都可以利用AI 3D+視頻產(chǎn)品來釋放創(chuàng)造力。

會后,群核科技首席科學(xué)家周子寒進一步詳細解釋了群核空間大模型的技術(shù)細節(jié)與特點。

一、啟動空間智能飛輪戰(zhàn)略,邁向空間大模型的“DeepSeek時刻”

當(dāng)前AI仍主要局限于文本、圖像等二維交互領(lǐng)域,能夠完成寫作、繪圖等任務(wù),但要實現(xiàn)諸如家務(wù)協(xié)助等三維空間操作,仍有相當(dāng)距離。

群核科技聯(lián)合創(chuàng)始人兼董事長分享了群核科技在空間智能布局上的最新思考。

黃曉煌談道,空間智能是AI從數(shù)字世界走向物理世界的關(guān)鍵橋梁。當(dāng)前空間大模型仍面臨三大技術(shù)挑戰(zhàn):室內(nèi)空間數(shù)據(jù)獲取比室外空間數(shù)據(jù)更困難、空間結(jié)構(gòu)復(fù)雜度高、具身智能等場景中的交互需求更高。

基于全球最大的空間設(shè)計平臺酷家樂,群核科技構(gòu)建了“空間編輯工具-空間合成數(shù)據(jù)-空間大模型”的空間智能飛輪,讓工具沉淀數(shù)據(jù),用數(shù)據(jù)加速模型訓(xùn)練,用模型提升工具體驗,再在工具的廣泛應(yīng)用中沉淀更為豐富的場景數(shù)據(jù)。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

截至2025年6月30日,群核科技擁有包含超過4.41億個3D模型及超過5億個結(jié)構(gòu)化3D空間場景。

群核科技從2018年開始開源,逐步開放其在數(shù)據(jù)和算法上的能力。

“開源是我們戰(zhàn)略的重要關(guān)鍵詞之一。”黃曉煌說,“相比大語言模型,當(dāng)前空間大模型還處于初級階段。我們希望通過開源推動全球空間智能技術(shù)快速前進,成為全球空間智能服務(wù)提供商,推動屬于空間大模型的‘DeepSeek時刻’盡快來臨?!?/p>

二、和視頻模型、世界模型相比,空間大模型有什么不同?

據(jù)介紹,群核空間大模型是業(yè)界首個專注于3D室內(nèi)場景認知和生成的空間大模型,基于大規(guī)模、高質(zhì)量的3D場景數(shù)據(jù)訓(xùn)練而成。

近年來世界模型研究成果層出不窮,那么空間大模型與世界模型、視頻模型有什么區(qū)別?群核科技首席科學(xué)家周子寒對此做了解釋。

視頻生成模型、世界模型面臨空間一致性、視角靈活度兩大挑戰(zhàn)。

Sora、Genie3等視頻生成模型,能還原看似豐富的視覺效果,但視覺一致性、可控性方面仍有不足。

World Labs、混元3D世界模型等3D場景類模型,可以保證視角一致性,但在視角靈活性受限,而且模型通?;谟螒驍?shù)據(jù)場景訓(xùn)練,難以很好地實現(xiàn)真實感。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

與世界模型相比,群核科技空間大模型有三大核心優(yōu)勢:真實感全息漫游、結(jié)構(gòu)化可交互、復(fù)雜室內(nèi)空間場景生成能力

(1)真實感全息漫游場景:由于開源3D場景數(shù)據(jù)稀缺,已有的工作在算法選擇上受限,一般通過蒸餾2D生成模型,導(dǎo)致結(jié)果視覺真實性不足;基于群核數(shù)據(jù)集,我們設(shè)計并訓(xùn)練面向場景的多視角擴散模型以生成高質(zhì)量圖像。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

(2)結(jié)構(gòu)化可交互:可生成包含空間結(jié)構(gòu)、空間關(guān)系等豐富物理參數(shù)信息的場景語言,相較于傳統(tǒng)大語言模型可精準解析空間布局與物體關(guān)系,支持參數(shù)化場景生成和編輯,為機器人的路徑規(guī)劃等任務(wù)提供必要場景可交互信息。

(3)復(fù)雜室內(nèi)空間處理能力:作為全球最大的空間設(shè)計平臺,沉淀了數(shù)以億計的3D模型和空間場景資產(chǎn),其InteriorNet也成為了當(dāng)時全球最大的室內(nèi)空間深度學(xué)習(xí)數(shù)據(jù)集,群核在室內(nèi)空間數(shù)據(jù)的優(yōu)勢使空間大模型可處理更復(fù)雜的場內(nèi)場景生成和交互。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

得益于上述優(yōu)勢,群核空間大模型可處理更復(fù)雜的場內(nèi)場景生成和交互,并能精準解析空間布局與物體關(guān)系,支持參數(shù)化場景生成和編輯,為機器人的路徑規(guī)劃等任務(wù)提供必要場景可交互信息。

目前,該模型已開源兩大核心子模型:空間語言模型SpatialLM(結(jié)構(gòu)化可交互)和空間生成模型SpatialGen(真實感全息漫游)。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

三、空間語言模型SpatialLM 1.5:一句話生成結(jié)構(gòu)化3D場景,解決機器人訓(xùn)練數(shù)據(jù)難題

今日發(fā)布的SpatialLM 1.5,是一款基于大語言模型訓(xùn)練的空間語言模型,支持用戶通過對話交互系統(tǒng)SpatialLM-Chat進行可交互場景的端到端生成。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

SpatialLM 1.5不僅能理解文本指令,還能輸出包含空間結(jié)構(gòu)、物體關(guān)系、物理參數(shù)的“空間語言”。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

例如,用戶輸入簡單文本描述,SpatialLM 1.5就能生成結(jié)構(gòu)化場景腳本,智能匹配家具模型并完成布局,還支持通過自然語言對現(xiàn)有場景進行問答或編輯。

其核心技術(shù)路徑是在GPT等大語言模型(LLM)基礎(chǔ)上,通過融合3D空間描述語言能力構(gòu)建增強型模型,使其既能理解自然語言,又能以類編程語言(如Python)的結(jié)構(gòu)化方式對室內(nèi)場景進行理解、推理和編輯。

據(jù)周子寒分享,SpatialLM 1.5的底模是通義千問,然后增加空間數(shù)據(jù)做訓(xùn)練。沒選DeepSeek是因為不需要那么大的底模,需要的是一款“小而美”的模型。

由于SpatialLM 1.5生成的場景富含物理正確的結(jié)構(gòu)化信息,且能快速批量輸出大量符合要求的多樣化場景,可用于機器人路徑規(guī)劃、避障訓(xùn)練、任務(wù)執(zhí)行等場景,有效解決當(dāng)前機器人訓(xùn)練“缺數(shù)據(jù)”的難題

借助SpatialLM的空間參數(shù)化生成能力,可以高效創(chuàng)建具備物理準確性的具身智能機器人訓(xùn)練場景:首先基于自然語言描述生成結(jié)構(gòu)化空間方案,繼而自動匹配素材庫構(gòu)建三維環(huán)境,最終輸出可供機器人進行路徑仿真的可交互場景。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

現(xiàn)場,周子寒演示了機器人養(yǎng)老場景的應(yīng)用,當(dāng)輸入“去客廳餐桌拿藥”這一指令后,該模型不僅理解了相關(guān)的物體對象,還調(diào)用工具自動規(guī)劃出最優(yōu)行動路徑,展示了機器人在復(fù)雜家庭環(huán)境中執(zhí)行任務(wù)的潛力。

四、多視角圖像生成模型SpatialGen:搞定時空一致性,打造可自由漫游的3D世界

SpatialLM解決的是“理解與交互”問題,SpatialGen則專注于“生成與呈現(xiàn)”。

SpatialGen是一款基于擴散模型架構(gòu)的多視角圖像生成模型,可根據(jù)文字描述、參考圖像和3D空間布局,生成具有時空一致性的多視角圖像,并支持進一步得到3D高斯(3DGS)場景并渲染漫游視頻。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

該模型依托群核科技海量室內(nèi)3D場景數(shù)據(jù)多視角擴散模型技術(shù),其生成的多視角圖像能確保同一物體在不同鏡頭下始終保持準確的空間屬性和物理關(guān)系。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

基于SpatialGen生成的3D高斯場景和真實感全息漫游視頻,用戶可以如同在真實空間中一樣,自由穿梭于生成的場景內(nèi),獲得沉浸式的體驗。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

對比之下,其他開源視頻模型會在移動過程中生成一些幻覺。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

SpatialGen有三大技術(shù)優(yōu)勢:

(1)大規(guī)模、高質(zhì)量訓(xùn)練數(shù)據(jù)集:由于開源3D場景數(shù)據(jù)稀缺,已有的工作在算法選擇上受限,一般通過蒸餾2D生成模型,導(dǎo)致結(jié)果視覺真實性不足;基于群核數(shù)據(jù)集,群核科技設(shè)計并訓(xùn)練面向場景的多視角擴散模型,以生成高質(zhì)量圖像。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

(2)靈活視角選擇:已有方法基于全景圖生成還原,3D場景完整性較差;或基于視頻底模,無法支持相機運動控制等。SpatialGen在這一方面具有優(yōu)勢。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

(3)參數(shù)化布局可控生成:基于參數(shù)化布局生成,未來可支持更豐富的結(jié)構(gòu)化場景信息控制。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

其工作流是:給定一個3D空間布局,首先在空間中采樣多個相機視角,然后基于每個視角將3D布局轉(zhuǎn)為對應(yīng)2D語義圖和深度圖。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

將它與文字、參考圖一起,通過一個多視角擴散模型生成每個視角對應(yīng)的RGB圖,以及語義圖和深度圖(戶型、家具物體等在相機視角的投影)。最后,通過重建算法得到場景的3DGS。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

群核科技發(fā)現(xiàn),基于SpatialGen的能力,能夠快速補足現(xiàn)有視頻生成能力無法解決空間一致性的問題。

例如一些視頻生成類模型,物體在形狀和空間關(guān)系,在多幀畫面中無法保持穩(wěn)定和連貫。而能用于商業(yè)化短劇創(chuàng)作的AIGC,不僅要求每一幀畫面“看起來合理”,更要求整個視頻序列在空間中像真實世界一樣“合理存在”。

四、深度融合3D能力,首款A(yù)I視頻生成Agent今年發(fā)布

群核科技正在研發(fā)一款基于3D技術(shù)的AI視頻生成產(chǎn)品,計劃在今年內(nèi)發(fā)布。

“這可能是全球首款深度融合3D能力的AI視頻生成Agent?!比汉丝萍糀I產(chǎn)品總監(jiān)龍?zhí)鞚赏嘎墩f。

該產(chǎn)品通過構(gòu)建3D渲染與視頻增強一體化的生成管線,有望顯著彌補當(dāng)前AIGC視頻生成中時空一致性不足的問題。

空間一致性是指在生成視頻的過程中,物體的形狀和空間關(guān)系在多幀畫面中保持穩(wěn)定和連貫。

據(jù)龍?zhí)鞚煞窒?,空間一致性對人類很基本,但對AI很難。

現(xiàn)有的AI視頻創(chuàng)作中,常因視角切換導(dǎo)致物體位置偏移、空間邏輯混亂、遮擋錯誤等問題。這背后的原因是,多數(shù)視頻生成模型基于2D圖像或視頻數(shù)據(jù)訓(xùn)練,缺乏對3D空間結(jié)構(gòu)和物理法則的理解和推演能力。圖像缺少人類感知空間時所依賴的深度線索,因此僅憑自然語言難以讓AI建立精確的空間關(guān)系認知。

群核科技基于SpatialGen的空間生成能力,搭建了一個高效易用的空間視頻創(chuàng)作工具,可以讓AI視頻生成跨過“時空一致性”陷阱,天然具備空間邏輯,真正理解3D空間運行的規(guī)律及內(nèi)在邏輯。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

群核通過“三位一體”來構(gòu)建可控的視頻生成:

(1)SpatialGen:提供強大的理解與生成能力,可低門檻獲得高真實還原度的3D場景。用戶只需提供 簡單的輸入,工具就能智能地生成符合真實物理規(guī)律和用戶具體需求的三維物體、空間關(guān)系和運動軌跡。它為后續(xù)的視頻生成模型提供了 高品質(zhì)、結(jié)構(gòu)化、可依賴的三維信息基礎(chǔ)。

(2)自研渲染引擎:群核科技自研的KooEngine采用光線追蹤渲染技術(shù),精確模擬每一條光線的物理運行軌跡 ,渲染出的3D空間和物體。其質(zhì)感、光影、氛圍都無限接近人類在現(xiàn)實生活中的視覺觀察效果,這種物理級的真實感 ,為AI模型理解空間提供了與人類視覺認知高度一致的參考依據(jù)。

(3)DiT架構(gòu)AI視頻生成模型:融合了擴散模型在高質(zhì)量圖像生成方面的優(yōu)勢,以及Transformer模型在捕捉長序列依賴關(guān)系和復(fù)雜時空動態(tài)方面的強大能力,提升視頻效果的豐富性和多樣性。結(jié)合用戶指令,模型能在保證空間一致性的前提下,靈活地生成符合要求的、富有創(chuàng)意的視頻片段,進一步刻畫3D場景沒有呈現(xiàn)的豐富變化(如群星閃爍、水面漣漪)。

未來AI視頻創(chuàng)作工具可應(yīng)用電商、廣告、產(chǎn)品演示乃至短視頻、短劇創(chuàng)作。

龍?zhí)鞚涩F(xiàn)場展示了酷家樂的一個渲染工具頁面,左側(cè)提供場景、光影、視頻三類模板,用戶可以直接點擊模板選項,也可以選擇下方“AI設(shè)計助手”,在聊天框輸入需求,它就會進行快速推理,然后自動調(diào)出符合需求的對應(yīng)模板。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

結(jié)語:推動AI走向物理世界

群核科技團隊認為,當(dāng)前空間大模型處于GPT-2到GPT-3階段,“空間大模型的ChatGPT時代”還遠未到來。

“杭州六小龍”又開源了!一句話爆改空間設(shè)計,AI視頻生成Agent今年發(fā)

GPT-2的核心是自然語言建模,首次提出用不同prompt來描述不同任務(wù)。而SpatialLM的核心是空間語言建模,訓(xùn)練模型基于輸入prompt,使用空間語言來完成不同任務(wù)。

群核科技希望其所提供的特性,能夠彌補一些全球范圍內(nèi)的能力缺失,為邁向AGI添一份力。