智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 李水青

智東西6月26日報道,近日,計算機視覺大牛、MIT教授何愷明入職谷歌DeepMind,他在個人主頁上更新了自己的最新職位——谷歌DeepMind杰出科學家(兼職)。同時,何愷明也仍然保留了MIT電氣工程與計算機科學學院(EECS)的終身教職。

何愷明官宣入職谷歌DeepMind!

何愷明是深度殘差網(wǎng)絡(ResNet)的提出者之一。他作為第一作者發(fā)表的ResNet論文《Deep Residual Learning for Image Recognition》,是21世紀被引次數(shù)最多的論文。

文中所提出的殘差連接在現(xiàn)代深度學習模型中無處不在,包括Transformers、AlphaGo Zero、AlphaFold以及當今幾乎所有的生成式AI模型。截至今年5月,何愷明的各類出版物總被引量已經(jīng)超過70萬次。

何愷明官宣入職谷歌DeepMind!

2024年加入MIT之前,何愷明始終活躍于產(chǎn)業(yè)界與學術(shù)界,曾陸續(xù)在微軟亞洲研究院(MSRA)、Facebook AI研究院(FAIR)擔任研究科學家。他擁有清華大學物理系基礎(chǔ)科學班學士學位和香港中文大學信息工程博士學位,在本科期間,曾在微軟亞洲研究院視覺計算組實習,師從計算機視覺大牛孫劍;在香港中文大學期間師從香港中文大學多媒體實驗室創(chuàng)始人、商湯科技創(chuàng)始人湯曉鷗。

除了ResNet之外,何愷明還曾發(fā)表多項極具學術(shù)價值、對AI、計算機視覺產(chǎn)生深遠影響的研究成果。

2009年,在香港中文大學期間,何愷明在其第一篇發(fā)表的學術(shù)論文中提出了“圖像去霧算法”,這篇論文一經(jīng)發(fā)表便斬獲了當年度的計算機視覺頂會CVPR年度最佳論文獎,何愷明也成為CVPR歷史上首位獲此殊榮的華人。

2015年,何愷明在微軟亞洲研究院工作時提出的ResNet在ImageNet圖像識別大賽中奪冠,相關(guān)論文獲得了2016年的CVPR最佳論文獎。

在FaceBook AI研究院工作期間,何愷明還在圖像分割領(lǐng)域做出重要貢獻,作為第一作者和第二作者分別發(fā)表了Mask R-CNN、Faster R-CNN兩篇重要論文。相關(guān)研究將圖像分割的準確度和效率提升到新的水準,Mask R-CNN論文獲得了2017年的ICCV最佳論文獎。

何愷明官宣入職谷歌DeepMind!

何愷明還曾獲得2018年P(guān)AMI青年研究員獎、ECCV 2018、CVPR 2021最佳論文榮譽獎和ICCV 2021埃弗林漢姆獎等著名獎項。

目前,谷歌DeepMind和何愷明本人都尚未披露后者入職后具體的安排。不過,我們可以從何愷明近期在CVPR、NeurIPS大會上的分享中,了解到他眼中具有學術(shù)價值的研究方向。

自AlexNet以來,識別模型已普遍實現(xiàn)端到端訓練和推理,但當前主流的生成模型在概念上類似于“分層訓練”,通常涉及多個步驟的推理與計算。何愷明帶領(lǐng)的團隊已于2025年發(fā)表了單步生成模型理論框架MeanFlow。未來,他可能會持續(xù)探索適用于端到端生成建模的框架。

同時,何愷明還稱識別與生成是一體兩面的問題,識別是從數(shù)據(jù)到嵌入的“流動”,而生成是從嵌入到數(shù)據(jù)的“流動”。未來,識別與生成一體化的框架也可能成為其重要研究方向之一。

在2024年于NeurIPS大會上分享時,何愷明強調(diào):“未來才是真正的測試集”。他主張研究者應該關(guān)注尚未見過的新數(shù)據(jù)、新配置、新用例和新情境,以減少研究的“過擬合”。

在同一場大會上,何愷明稱研究的本質(zhì)在于尋找“驚喜”。在加入谷歌DeepMind后,我們或許可以期待他帶來更多令人驚喜的科研成果。

來源:何愷明個人主頁