AI科學家何愷明將從Facebook回歸學界:2024年起執教麻省理工學院
近日,AI領域著名學者、殘差神經網絡ResNet發明人何愷明在個人網站上宣布即將回歸學界,加入麻省理工學院(MIT)擔任教職。何愷明的主要研究領域為計算機視覺和深度學習,他的ResNets論文是2019年、2020年和2021年Google Scholar Metrics所有研究領域中被引用最多的論文,並建立了現代深度學習模型的基本組成部分。在深度學習模型Transformers、AI圍棋工具AlphaGo Zero、AI蛋白質結構預測工具AlphaFold中都有使用ResNet。
今年3月,何愷明在MIT的一場演講中透露,接下來的研究方向會是AI for science(人工智能用於科研),將聚焦計算機視覺、NLP(自然語言處理)和self-supervised(自監督學習)。作為目前Facebook AI Research(FAIR)的研究科學家,他已經在個人網站中換上了全新的頭像,並在置頂的聲明中表示,“作為一位FAIR研究科學家,我將於2024年加入麻省理工學院(MIT)電氣工程與計算機科學系EECS擔任教職。”
AI領域著名學者、殘差神經網絡ResNet發明人何愷明在個人網站上的聲明。
師從湯曉鷗
2003年,何愷明以標準分900分獲得廣東省高考總分第一,被清華大學物理系基礎科學班錄取。畢業後,他進入香港中文大學多媒體實驗室攻讀博士學位,師從香港中文大學教授湯曉鷗。何愷明曾於2007年進入微軟亞洲研究院視覺計算組實習,實習導師為孫劍博士。
2011年博士畢業後,何愷明加入微軟亞洲研究院任研究員。2016年,他加入Facebook人工智能實驗室,任研究科學家至今。
何愷明的研究曾數次獲獎。2009年,湯曉鷗教授、孫劍博士和當時博士研究生在讀的何愷明共同完成的論文《基於暗原色的單一圖像去霧技術》拿到了國際計算機視覺頂會CVPR(IEEE Conference on Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議)的最佳論文獎,也是該會議創辦25年來首次有亞洲學者獲得最高獎項。
2016年,何愷明憑藉ResNet再獲CVPR最佳論文獎,此外,他還有一篇論文進入了CVPR 2021最佳論文的候選。何愷明還因為Mask R-CNN(實例分割算法)獲得過ICCV( IEEE International Conference on Computer Vision,即國際計算機視覺大會) 2017年的最佳論文馬爾獎(Marr Prize),同時也參與了當年最佳學生論文的研究。
根據Google Scholar的統計,何愷明一共發表了73篇論文,H Index數據為67。截至2023年7月,何愷明的研究引用次數超過46萬次,並且每年以超過10萬次的速度增長。
ResNet發明人
何愷明最著名的一項工作是提出了一種殘差網絡的結構ResNet,用以解決神經網絡中的退化問題,即網絡的層數越深,在數據集上的性能表現卻越差。而ResNet允許網絡結構盡可能地加深,並引入了全新結構,目前的人工智能或多或少都受到了這個結構的影響。
湯曉鷗曾在2023世界人工智能大會上介紹了何愷明的工作和成就,“在2015年之前,深度學習最多只能訓練20層,而CNN(卷積神經網絡)模型ResNet在網絡的每一層引入了一個直連通道,從而解決了深度網絡的梯度傳遞問題,獲得了2016年CVPR的最佳論文獎,是計算機視覺歷史上被引用最多的論文。”
“在ResNet之後就可以有效地訓練超過百層的深度神經網絡,把網絡打得非常深。”湯曉鷗說,“在大模型時代,以Transformer為核心的大模型,包括GPT系列,也普遍採用了ResNet結構,以支撐上百層的Transformer的堆疊。何愷明把神經網絡做深了,Google把神經網絡的入口拉大了,又深又大,才成為今天的大模型。”
湯曉鷗表示,何愷明還有一項工作——Mask R-CNN算法,是就職於Facebook時開發的,是一個真正高性能的物體檢測算法框架,獲得了ICCV 2017年最佳論文。“愷明應該是世界上唯一一個在畢業不到10年內3次以第一作者身份獲得CVPR和ICCV最佳論文的人。”湯曉鷗表示,Mask R-CNN首次把基於掩碼的自編碼思想用於視覺領域的非監督學習,開啟了計算機視覺領域自監督學習的大門,並被推廣到3D領域、音頻領域,甚至是AI for science領域。
2021年11月,何愷明以一作身份發表論文《Masked Autoencoders Are Scalable Vision Learners》,提出了一種泛化性能良好的計算機視覺識別模型,同樣是剛剛發表就成為了計算機視覺圈的熱門話題。
從何愷明個人網站上的敘述來看,這可能也是他接下來的研究方向:“通過計算機視覺問題的視角,我的目標是開發適用於各個領域的通用方法。我目前的研究重點是構建可以學習複雜世界表示的計算機模型,並探索面向複雜世界的智能。我研究的長期目標是通過更強大的人工智能來增強人類智能。”
據悉,何愷明加入MIT後會立刻成為該校論文引用量最高的學者。
附:何愷明個人網站的聲明全文
我將於2024年加入麻省理工學院(MIT)電氣工程與計算機科學系(EECS),擔任教職。我目前是Facebook AI Research(FAIR)的研究科學家。
我的研究涵蓋了計算機視覺和深度學習的廣泛主題。通過計算機視覺問題的視角,我的目標是開發適用於各個領域的通用方法。我目前的研究重點是構建可以學習複雜世界表示的計算機模型,並探索面向複雜世界的智能。我研究的長期目標是通過更強大的人工智能來增強人類智能。
我在計算機視覺和深度學習領域發表了一系列極具影響力的論文。我關於深度殘差網絡(ResNets)的論文是2019年、2020年和2021年Google Scholar Metrics所有研究領域中被引用最多的論文,並建立了現代深度學習模型的基本組成部分(例如,在Transformers、AlphaGo Zero、AlphaFold中)。我在視覺目標檢測方面的工作,包括Faster R-CNN和Mask R-CNN,產生了重大影響,是這些領域被引用最多的論文之一。我在視覺自監督學習方面的作品是CVPR 2020年、2021年和2022年發表的被引次數最多的論文。我的論文有超過46萬次引用(截至2023年7月),每年增加超過10萬次。
我是領域中幾個著名獎項的獲得者,包括2018年PAMI青年研究員獎,CVPR 2009年最佳論文獎,CVPR 2016年,ICCV 2017年,ICCV 2017年最佳學生論文獎,ECCV 2018年最佳論文榮譽獎,CVPR 2021年,以及ICCV 2021年的最佳論文獎。
在2016年加入FAIR之前,我曾於2011年至2016年在微軟亞洲研究院(MSRA)擔任研究員。2011年在香港中文大學獲得博士學位,2007年在清華大學獲得學士學位。