微軟30年老將黃學東出走擔任Zoom CTO 瞄準AI+AR
從昨天開始,整個業內被這條消息震動了。自從ChatGPT引爆了大模型之戰,全球的大廠都在重新佈局戰略版圖,AI人才的爭奪戰,也進入了白熱化。微軟首位全球華人技術院士黃學東轉戰Zoom,推動從AI到AR的新技術和產品。黃學東宣布,自己將離開已任職30年的微軟,出任Zoom的CTO。
而今,黃學東的離職,也是這場時代洪流中濃墨重彩的一筆。
如此重量級的技術大佬出走,江湖上勢必掀起一場腥風血雨。
在微軟30年,黃學東帶領的團隊在語音識別、機器翻譯、自然語言理解和計算機視覺等方面都取得了里程碑式突破,可以說沒有短板,結合下Zoom的業務場景,這一定是盤大棋。
關於黃學東加入Zoom後要從事的業務方向,專家和網友們已經紛紛展開了猜測。
告別信
在新智元獨家獲得的告別信中,黃學東也透露了自己進軍Zoom後的方向——推動從AI到AR的新技術和產品。
在微軟度過了30年不可思議的時光,今天是我告別的日子。
能夠為這個傑出的公司做出貢獻,並與擁有聰明才智的人們一同共事,是我的榮幸。我會永遠銘記在這裡的回憶和經歷。
我將加入Zoom,擔任該公司的新任首席技術官(CTO),我將主要推動從AI到AR等領域的新技術和產品。
Zoom承諾將投資於創新領域,這令人鼓舞,我也很興奮能夠成為這個充滿活力的“初創企業”的一員。
而對於微軟同事們始終如一的支持、指導和合作,我深深感激。
我們共同取得了非凡的里程碑,在Azure AI上取得的建樹已經改變了整個行業,包括最新的OpenAI服務。
對於所有朋友和同事們,我無比感謝我們共同擁有的珍貴回憶和知識。
我相信我們的聯繫將持久存在,我們對技術和人工智能的熱情將繼續激勵所有人。
除了Zoom給出的承諾,創始人袁征的華裔身份或許也是一個原因。作為第一代中國移民,袁征在國內和美國都有學習和工作的經歷,和黃學東應該有不少共同語言。
當30年元老選擇離開
作為第一位加入微軟研究院體系的華人科學家,黃學東一直是微軟華人AI版圖上不可或缺的一塊拼圖。
在微軟,他已經任職了超過30年。
離職前,黃學東擔任Azure AI首席技術官,不僅是微軟首位全球華人技術院士,也是微軟最高級別的華人科學家
黃學東分別於2017年和2020年,當選ACM和IEEE會士,並於2023年同時當選美國國家工程院院士和美國藝術與科學院院士。共計擁有170多項美國專利,發表100多篇論文和2本著作。
在此之前,他於1989年獲得愛丁堡大學的博士學位,1984年獲得清華大學的碩士學位,1982年獲得湖南大學的學士學位。1989年曾在卡內基梅隆大學進行博士後研究,之後加入卡內基梅隆大學計算機科學學院的教職。
1992年,黃學東領導卡內基梅隆大學語音識別項目Sphinx-II,實現了業界最低的錯誤率,並刷新了DARPA語音評估史上錯誤降低速度的最高記錄。
這個消息震動了微軟,人事部傾巢出動,想要挖來這個團隊。最後,蓋茨親自出面,才終於請動黃學東。
1993年,黃學東加入微軟研究院,成立了微軟的語音技術團隊。
在他的牽線搭橋下,微軟於1996年在北京建起第一個亞洲研究院,亞研院也在日後成為中國AI屆的黃埔軍校。
隨後,微軟研究院陸續加入了李開復、張亞勤、沈向洋、洪小文等知名華人學者。
在三十年間,微軟經歷了多次人事變動,而黃學東始終堅守,帶領微軟的人工智能團隊取得了一項又一項里程碑式突破。
通過Windows SAPI(1995年)、Speech Server(2004年)和Azure Speech(2015年)等產品的推出,黃學東將語音技術帶入大眾市場。
在1995年,黃學東主導研發了業界首個語音應用程序編程接口(SAPI),讓數百萬客戶能在Windows應用程序中便捷使用語音人工智能技術。
此後,他負責領導的微軟人工智能團隊,在語音識別、機器翻譯、自然語言理解和計算機視覺等方面,取得了多個歷史性突破。
2016年,微軟首次在對話式語音識別領域,讓計算機能夠像人類一樣識別每一個單詞。2017年,準確率首次超過人類專業速記員。
2018年,微軟機器翻譯系統,首次達到了與人類持平的水準。
2019年,微軟機器閱讀理解系統,在對話式問答任務中首次超過人類。
2020年,微軟計算機視覺圖形傳字幕系統,在計算機視覺看圖說話任務中首次超過人類。
而最近的高光時刻,是黃學東領導微軟認知服務團隊和OpenAI合作推出的Azure OpenAI Services, 包括微軟雲的ChatGPT服務。
正是OpenAI服務,使得ChatGPT能在全世界進行大規模商用。
Azure Speech、Vision、Language和OpenAI Services等Azure認知服務,使Azure成為覆蓋數百種語言、為全球數十億客戶提供服務的領先工業人工智能平台,使機器看到、聽到、說話和理解人類語言成為現實。
在微軟雲平台上用一個統一的大規模基礎模型和多模態基礎模型聯合工作,實現了人工智能質的飛躍,並且奠定了微軟雲平台人工智能產業化的全球競爭力。
微軟的技術突破
通過巨量包括文本,圖片,語音等多模態數據的預訓練,基礎模型可以被應用到各類任務上,比如問答、物體識別、信息抽取等。相比於處理單個任務的模型,基礎模型在部署速度和性能上都更佔優勢。
而微軟的人工智能技術,便是建立在基礎模型(Foundation Models)之上。
其實,我們可以從一個獨特的視角來看待人類認知的三個屬性之間的關係:單語言文本(X)、音頻或視覺感官信號(Y)和多語言(Z)。
在這三者的交叉點上,有一種神奇的東西——XYZ-code。這種聯合表徵可以創造出更強大的AI,從而更好地說、聽、看和理解。
語音
2017年,微軟就把基礎模型融合到了語音產品中。這種方式不但能減少大量的工程勞動,還提升了模型在各個任務上的性能。
根據斯坦福發布的AI Index2021報告,微軟的語音識別準確率處於行業第一。
語言
2022年初,微軟發布了全新的機器翻譯模型Z-Code,可以通過遷移學習利用跨多種語言的共享語言元素,將知識從一項任務應用到另一項相關任務。
與傳統的神經機器翻譯方法不同,Z-Code不僅使用多語言的數據在機器翻譯任務上進行訓練,還使用了單語言數據作為補充,在掩碼語言模型(MLM)任務上訓練。此外,還通過多任務學習,同時優化多個目標函數。
鑑於Z-Code不俗的表現,黃教授團隊又進一步將Z-Code升級拓展為Z-Code++,使其可以完成文本摘要任務,並在GENIE benchmark上取得了第一名的好成績。
Z-Code++僅針對抽象式文本摘要任務進行優化,在5種語言的13個文本摘要任務中,有9個達到新sota性能,成功超越一眾大模型,參數量僅為PaLM的600分之一,GPT-3的200分之一,性價比爆棚。
論文地址:https://arxiv.org/abs/2208.09770
視覺
2021年底,微軟發布了一個新的計算機視覺基礎模型Florence(佛羅倫薩),目的是要用一個模型一統多模態天下。
論文地址:https://arxiv.org/pdf/2111.11432.pdf
現有的視覺基礎模型,如CLIP、ALIGN等,主要側重於將圖像和文本映射到一種跨模態的共享表徵。
Florence則將表徵進行了拓展,不僅擁有從粗略(場景)到精細(對象)的表徵能力,還將視覺能力從靜態(圖像)擴展到動態(視頻),從RGB圖像擴展到多模態(文字、深度信息)。
通過整合圖像-文本數據的通用視覺語言表示能力,Florence可以輕鬆適用於各種計算機視覺任務,如分類、目標檢測、VQA、看圖說話、視頻檢索和動作識別,在多種類型的遷移學習中均表現出色。
Florence成功地表明基礎模型可以適應各種下游任務,最終集成到現代計算機視覺系統中,為現實世界的視覺和多媒體應用提供動力。
微軟持續裁員,或將迎來離職潮
除了大佬的出走,整個微軟團隊最近都很動盪。
據說無論是微軟中國還是西雅圖,很多華人都要出走。
五月下旬,有一畝三分地的網友透露:“微軟今年沒有merit,increase不增加,base獎金和股票也減少。”
另一位一畝三分地的網友,也吐槽稱:“CEO雖然厲害,但是個人的感覺是,對股東是好CEO,對用戶和員工來說,是非常差的CEO。”
而一位已經從微軟離職的Twitter網友,也對CEO的表現頗有微詞。
根據blind知名爆料人“Rain”的消息,微軟七月份將再次裁員數千人。
初步的時間安排是在7月4日之後,但部分團隊尤其是國際團隊,可能會在6月宣布變動。
具體數量預計會在本月晚些時候得到更明確的消息,可能會根據一些具體的後勤情況有所調整。
大部分裁員將涉及客戶服務和支持等面向客戶的角色,但其他團隊(包括之前已被定為目標的團隊)也將受到影響。