“華智冰”為何是本科生?未來學習如何規劃?清華官方揭秘
近日,清華大學計算機系知識工程實驗室的一名特殊新生——中國首個原創虛擬學生“華智冰”,引發社會關注。數字虛擬人“華智冰”擁有持續的學習能力,能夠逐漸“長大”,不斷“學習”數據中隱含的模式,包括文本、視覺、圖像、視頻等,就像人類能夠不斷從身邊經歷的事中來學習行為模式一樣。
清華計算機系副教授、系黨委副書記賈珈介紹“華智冰”的三種表情設計。本文圖片澎湃新聞記者程婷圖
隨著時間的推移,“華智冰”可以從新場景中學到新能力,並有機地融入自己的模型中,從而變得越來越聰明。
6月15日,清華計算機系舉行“華智冰”成果發布會,正式宣布“華智冰”入學清華計算機系,師從清華計算機系副主任唐杰教授,並開啟在清華的學習和研究生涯。
“華智冰”為何被設定為一名清華本科生?她在清華的“本科學習”計劃是怎麼樣的?相比一般虛擬人,“華智冰”有哪些過人之處?未來“華智冰”能否投身社會服務工作?她會不會被打造成能夠真正行走在清華校園的實體機器人?對於澎湃新聞提出的這些問題,研發團隊的老師們一一進行了解答。
“華智冰”的老師、清華計算機系副主任唐杰教授介紹希望“華智冰”具備的9種能力。
“華智冰”的人設為何是一名本科生?
“華智冰”為何被定義為本科生?
“其實目前也可以說’華智冰’還是小學生。”唐杰告訴澎湃新聞,“我們把它定義為一名本科生,是因為她非常聰明,而且在快速成長,但她好像又沒那麼聰明,還有很多東西要學。她可以作詩,寫短文章,做音樂,但是她又並沒有一下子就完全超越了我們。”
事實上,現在的“華智冰”已經會四種舞姿,可以根據音樂的急緩調整動作,可以根據某個字作詩,也可以根據某幾個關鍵詞創作一幅畫,甚至可以寫一些短的文章了。
研發團隊告訴澎湃新聞,在下一階段會向“華智冰”輸入大量的琴棋詩畫數據,以及一些其它目標數據,讓她變得越來越聰明。
談及“華智冰”為何被設定為清華學生,唐杰解釋道,“我們研發團隊的大部分人是清華人,大家覺得如果設計一個AI(人工智能)主體進入清華,讓她不斷成長,這是一件很讓人引以為豪的事。”
多才多藝的“華智冰”會不會寫新聞報導?唐杰告訴澎湃新聞,“讓她寫一篇關於某件事的一兩百字的消息稿,她能寫得比較準確。我們在教育她的過程當中,展示一些內容給大家猜是’華智冰’寫的還是人寫的,很多時候大家已經很難猜出來了。但讓她寫一篇高考作文還有點難,或者說她可以寫得出來,但得不了高分。這方面還需要不斷培養,我們會向她輸入大量的語料數據,讓她不斷進行學習——她可以24小時不斷學習,成長速度會非常快。”
關於“華智冰”的學習任務安排,她的導師唐杰表示,一年內希望華智冰能“泛讀”天下書,把現有的所有數據都讀進去,學習足夠多的語料;第二年希望“華智冰”從數據中挖出一些隱含模式,把一些深層的知識學下來;第三年希望她能夠像我們人一樣創新、產生新的知識。遠期目標是,希望“華智冰”具有認知能力,像人一樣思考,甚至在很多任務上超越圖靈測試,獲得通用機器學習的認知能力。
研發團隊希望,“華智冰”能夠依靠一個大模型,在面對不同的學習階段和應用場景時,不是重新訓練模型,而是反過來豐富、增強模型。
虛擬人“華智冰”會否被打造成實體機器人?
近期“華智冰”的宣傳短片出來後,一些網友誤以為“華智冰”是一個能穿著白球鞋行走在清華校園中的具象仿真機器人。
未來,“華智冰”是否會被打造成實體機器人?她將以什麼為載體來與大眾見面?
對此,唐杰告訴澎湃新聞,“華智冰”2D和3D的形像後續會發布,那是一個完全類似真人的虛擬形象。
至於是否打造實體機器人,唐杰表示,這是一個有爭議的問題。
“實體機器人到底給AI提供了多少智力上的改變?需不需要做這件事?這些我們還在探討,還沒有得出一個100%的結論。”唐杰說,“我們嘗試過將’華智冰’裝進一些實體機器人中,但這並不表示她就是一個實體,或者她因此獲得了多大增量。”
“華智冰”與其他虛擬人有何區別?
談及“華智冰”與其他虛擬人的區別,唐杰說,“’華智冰’相當於把形象和大腦結合起來了。我個人的想法是將它真正主體化,讓她能夠像自然人一樣與人交流互動。這種交流對話是基於她所具備的條理性與邏輯性,結合上下文自己新生成的,而非針對預設問題與答案檢索出來一些既定的回答或語句。”
儘管未來是否會有實體機器人版的“華智冰”尚無定論,但唐杰認為,未來十年各種實體機器人會越來越常見,或許會迎來一個實體機器人的時代。
類似真人的仿生機器人,唐杰認為未來也會有很多,但做成一個非常接近真人的實體機器人並非科研的終極目標,而把一個人工智能人做成什麼形態,更多是要看它的功能定位。比如一個送餐機器人,它在功能設計中是托盤越大越好、安全性越高越好,而非越像真人越好。
“華智冰”的出現會對人工智能領域的發展產生哪些影響?在唐杰看來,最大的影響就是人工智能將由原來的算法為主,變為未來的AI主體為主。“這算是一項開創性的研究,未來可能有很多人會以’AI主體’的思維,來重新思考和定位人工智能的發展。”唐杰說。
“算法為主”與“AI主體為主”之間有何區別?唐杰解釋,人臉識別體現的就是以算法為主體的思維,而AI主體思維,就是將人工智能的大腦看作一個主體,這個主體會有自己的人設,會自己學習、成長,甚至具備智商與情商,能夠自己做一些決策。
“華智冰”背後:百人團隊24小時輪流熬夜攻關
“華智冰”是由清華計算機系、北京智源研究院、智譜AI和小冰公司聯合培養的。其核心組件是利用數據和知識的雙輪驅動,打造了一個“智能數字腦”,這一數字腦不僅能搭載在實體機器人上,未來還能裝在數字人、全息人、手機和電腦上,可以更加方便地進入人們的日常生活。
這背後靠的強大研發團隊支撐。唐杰介紹,有100多人參加“華智冰”項目的研發攻關。這100多人中,有七八十名清華學生。在算法部分,比如將文字轉為圖畫,或者通過文字生成文字等很多工作,是清華的博士生及青年教師等參與完成的。
在“華智冰”的誕生過程中,研發團隊也克服了很多困難和問題。
唐杰說,研究之初,團隊想做一個大模型,但面臨著沒數據、沒算力、人不夠等諸多問題,後來找了很多數據公司合作,希望通過共享模式推動合作,一步步解決問題。
“為了解決研究人員的問題,我們也找了很多校內校外的老師,後來很多老師全憑興趣自願’自帶乾糧’一起加入到了項目中。”唐杰說。
此外,做大模型後台需要很多CPU,需要強大算力。為了解決算力問題,研發團隊成員合作,在一個CPU的基礎上重新進行了底層開發,設計模型。
“那段時間我們的學生也跟著輪流熬夜,到了晚上12點,一撥人回去休息,換另一撥人來繼續編程,跑程序,基本每天24小時都有人在工作。”唐杰回憶。
“華智冰”的整個研發工作已持續了一年多時間的。現在的“華智冰”依託於有著超大規模人工智能預訓練模型“悟道2.0”,達到1.75萬億參數,創下了全球當今最大預訓練模型紀錄。
儘管“華智冰”已入學清華,師從唐杰,但唐杰表示,“華智冰”未來成長還將繼續實行多方聯合培養。
“我們研發’華智冰’是以情懷為主,並且她不是屬於某人的資產,所以我們希望團結和協調各方一起共同努力,探究人工智能的極限,讓’華智冰’變得越來越聰明。”唐杰說。
清華計算機系主任尹霞表示,推出虛擬學生“華智冰”,是希望把清華計算機系目前在人工智能領域的各項技術融合在一起,借助“華智冰”,實現數據、知識雙輪驅動的應用系統,並力爭讓她成為計算機理論和應用研究深度融合的典型示範。