年度指數報告發現人工智能正在“產業化” 但需要更好的指標和測試
據外媒VentureBeat報導,中國在人工智能研究論文總數上已經超過了美國,獲得資金的人工智能初創公司越來越少,美國國會比以往任何時候都更多地談論人工智能。這是斯坦福大學上週發布的年度報告《2021年人工智能指數報告》中強調的三大趨勢。該報告試圖記錄人工智能的進展,以及該技術對教育、創業公司和政府政策的影響。報告詳細介紹了人工智能主要子領域的性能進展,如深度學習、圖像識別和物體檢測,以及蛋白質折疊等領域。
《人工智能指數報告》由斯坦福大學以人為中心的人工智能研究所和一個由11名成員組成的指導委員會編制,貢獻者來自哈佛大學、經合組織、AI夥伴關係和SRI國際。該報告利用了一系列來源的數據集,比如arXiv的AI研究數據,Crunchbase的資金數據,以及對Black in AI和Queer in AI等團體的調查。經合組織一個研究算法影響評估的小組負責人、OpenAI的前政策總監Jack Clark表示,報告中還發現的一個主要趨勢是人工智能的產業化。
“我認為對我來說,這個故事是人工智能正在產業化,而我們不太知道如何全面評估它的產業化,因為我們有點缺乏很多你所期望的數據。而我認為這是因為人工智能剛剛從’不能用’到’能很好地進行商業部署’的速度比你想像的要快。這意味著……每個人都在比賽,包括研究界,以跟上商業部署的步伐,”他說。
報告中的其他主要啟示:
- 根據LinkedIn提供的數據,巴西、印度、加拿大、新加坡和南非從2016年到2020年的AI招聘水平最高。
- 2020年,全球總投資,如私人投資和併購,增長了40%。但連續第三年,AI創業公司的資金流向的創業公司越來越少。
- 2019年,在北美,每3個擁有人工智能博士學位的畢業生中,約有2個進入了工業領域,高於2010年的44%。
- 大多數人工智能博士畢業生來自美國以外的地方,每5個畢業生中就有4個畢業後留在美國。
- 對50萬個博客和6萬條英文新聞進行的新聞分析發現,人工智能倫理故事是2020年最受歡迎的人工智能相關新聞之一,包括谷歌解僱Timnit Gebru以及歐盟委員會、聯合國和梵蒂岡推出的倫理倡議等話題的報導。
- 2020年,主要人工智能研究會議的出席率翻了一番,因為大多數團體選擇舉行虛擬聚會。
- 根據2020年計算研究協會的調查,女性佔AI博士畢業生的18%。
- 中國在論文總數上超過了美國,但美國在AI研究會議上的引用量延續了20年的領先優勢。
- 根據GitHub Stars的總數,TensorFlow是最受歡迎的AI軟件庫,其次是Keras和PyTorch。
- arXiv上的AI相關論文從2015年的大約5500篇增長到2020年的近35000篇。
- Queer in AI 2020成員調查發現,大約有一半的受訪者經歷過騷擾或歧視,遇到過圍繞包容性的問題。
- 學術研究人員在全球範圍內發表的論文總數領先。但在美國,企業研究排名第二,而政府研究在歐洲和中國排名第二。
- 從2004年到2019年,卡內基梅隆大學(16人)、佐治亞理工學院(14人)和華盛頓大學(12人)流失到工業界的教員人數最多。
報告中專門介紹技術挑戰進展的部分突出了計算機視覺系統和語言模型的進展,以及用於藥物發現或有效化學和分子合成等任務的人工智能。
人工智能指數報告顯示了可用於監控的AI系統的進展,比如物體檢測系統YOLO。VoxCeleb也取得了相當大的進展,它衡量了從包含6000人的數據集中識別聲音的能力。AI指數圖表顯示,2017年平等錯誤率約為8%,到2020年下降到1%以下。
“這個指標告訴我們,人工智能係統的平等錯誤率已經從8%下降到了0.5%左右,這告訴你,這種能力將在全球範圍內悄然部署。”Clark說。
一個技術進步專家小組將AlphaFold預測蛋白質如何折疊的能力和GPT-3作為2020年最受關注的兩個AI系統。雖然AI Index承認GPT-3取得的學習成果很少,但它引用了前Ethical AI團隊聯合負責人Timnit Gebru等人的一篇論文,對大型語言模型及其延續偏見的能力進行了批判。它還提到了OpenAI和斯坦福大學上個月發表的一篇論文,認為需要在為時已晚之前解決大型語言模型的社會影響。在2019年接受VentureBeat採訪時,AI Index創始人Yoav Shoham對根據有限任務的表現來判斷語言模型的價值表示懷疑。
VentureBeat對指數中提到的這兩篇研究報告進行了廣泛的報導。VentureBeat報導過的其他被引用的報告還包括麥肯錫的《人工智能現狀》報告,該報告發現,在應對部署人工智能的相關風險方面,企業領導者進展甚微。另一份報告則對深度學習時代人工智能的去民主化提出了警告,共同作者表示,這可能會使不平等現象長期存在。
人工智能指數報告包括呼籲在計算機視覺、倫理學和NLP領域進行更多的基準和測試。正如GLUE和SuperGLUE等基準所證明的那樣,Clark說:“我們正在用完測試,因為我們可以建立它們的速度。”創建新的基準和測試也是一個機會,使衡量標準能夠反映人們的價值觀,並衡量解決宏大挑戰的進展,如砍伐森林。
“我認為在一個空間中獲得整體問責制的方法之一是擁有相同的測試,你將所有的東西都與之相對應,或者是同一套測試。而在我們擁有這一點之前,談論這些系統中的偏見和其他道德問題將是非常模糊的,我認為這只會阻礙我們作為一個社區,同時也讓那些想要假裝這些問題不存在的人更容易繼續假裝他們不存在或不提這些問題, ”他說。
前幾年,人工智能指數擴大了範圍,納入了arXiv監測器等工具,用於搜索預印本論文。AI指數的全球活力工具,提供國家AI計劃之間的比較,現在適用於23個類別的26個國家。
今年,報告刪除了與自動駕駛汽車進展相關的數據,而Clark表示,由於缺乏數據,報告中並沒有包括完全自主武器的信息。