李開復:中國大模型競爭異常激烈甚至可能超越美國
根據創投家、Google中國前總裁李開復的預測,中國的生成式人工智慧新創公司正在經歷一場「預選賽」。他今年稍早創立了零一萬物(01.AI),這是一家總部位於北京的新創公司,專注於開發大語言模型(LLM)。上個月,該公司完成了一輪融資,估值高達10億美元。
中國最大的網路公司,如阿里巴巴、騰訊、百度和位元組跳動等,以及眾多新創公司,都在競相開發自己的大語言模式。有媒體稱之為“百模大戰”,這些科技公司正為在人工智慧領域佔據主導地位而展開激烈競爭。李開復受訪時表示,這些公司正處於證明擁有開發高品質模型技術的階段。而那些通過考驗的公司將邁向下一階段,也就是如何增加收入並獲利。
李開復預測:「在中國,最終將有幾家大贏家嶄露頭角,部分公司可能會體面地退出市場。但大多數企業要么半途而廢,要么轉向更為實際的目標,如為特定行業構建應用和解決方案」
零一萬物成立於今年3月份,目前擁有100多名員工,其中大部分在北京工作。上個月,該公司發布了其首個開源大語言模型Yi-34B,但它未來的收入並不僅依賴此模型。相反,其商業計劃是出售專有的大語言模型,主要面向中國市場。據李開復透露,該公司目前正在開發一種新的、擁有超過1000億個參數的專有模型。
然而,在Yi-34B迅速登上Hugging Face的開源大語言模型排行榜榜首後,零一萬物引發了一些爭議。有開發者發現該模型似乎使用了Meta的開源人工智慧模型Llama,但並未在相關資料中提及此事。為此,零一萬物後來重新命名了Yi-34B的一部分,並公開承認了Llama的貢獻。李開復也為他們先前的疏忽公開道歉。
在接受科技媒體The Information的採訪時,李開復談到了零一萬物的未來以及中國人工智慧產業的趨勢。他也談到如何應對美國的晶片出口限制,以及中國公司如何在全球尋找商機。
以下為採訪全文:
問:中國目前有幾十家公司都在競相開發大語言模型,接下來會發生什麼事?
李開復:在我看來,這種情況在中國早已屢見不鮮。例如團購風潮、共享單車應用的興起,甚至在深度科技領域,例如電腦視覺和語音辨識技術。當電腦視覺證明其價值時,無數中國企業爭先恐後地湧入,試圖在各種可能的應用中分一杯羹。然而,大多數企業並未能存活下來。
如今,中國的人工智慧領域仍處於預選賽階段,競爭異常激烈,甚至可能超越美國。首先,我們需要面對的考驗是:在百家爭鳴的競爭中,哪家企業能發展出真正具有高品質和高價值的模型?只有技術過硬,模型表現出色,才能在實際應用中脫穎而出。否則,科技只能淪為“玩具”,而不能真正解決問題。
經過預選賽的技術考驗後,企業將進入下一階段:如何增加商業價值?你的商業模式是什麼?如何獲利?很快,投資者將提出與雲端供應商、企業軟體公司和消費者應用程式相同的問題。如果企業不能給出明確的答案,那麼它們的成長將面臨終點。
以美國為例,OpenAI已經證明了其在技術上的領先地位,同時也能夠創造收入。這種價值創造使得其他公司願意為其投入資源,並以此為基礎建構應用。
而在中國,最終將有幾家大贏家嶄露頭角,部分公司可能會體面地退出市場。但大多數企業要不是半途而廢,就是轉向更實際的目標,如為特定產業建立應用和解決方案,而不是單純地追求大模型的研發。隨著時間的推移,研發大模型的成本將會不斷攀升。
問:中國人工智慧新創公司及其投資者表示,中國將為生成式人工智慧模型和應用開發自己的生態系統。你認為呢?
李開復:我們都明白,平行宇宙不是我們想要看到的。我們更傾向於在全球範圍內競爭,讓真正出色的公司脫穎而出,這樣效率才更高。但現實是,我們無法完全掌控自己的命運。
特別是地緣政治問題。如果我們想進入美國市場,雖然沒有規定說我們不能進入,但我不認為我們會得到很多業務。因為在我看來,目前美國市場對中國軟體存在著一種不公平的偏見。這是我們不得不面對的現實。
當然,我們對全球其他地區的商機持開放態度,但我們深知,有些事情是行不通的。例如,想把我們的專有模型賣給美國公司,這幾乎不可能。他們不會買單的,我們也不會做無用功。
中國顯然代表著一個巨大的機遇,但我不會將中國公司可能進入的世界其他地區排除在外。總體而言,矽谷的做法是“一刀切”,這種模式在諸如Facebook和谷歌等公司的崛起中起到了關鍵作用,並幫助美國獲得了主導地位。但這次不同了,因為大語言模型是在資料基礎上進行訓練的。數據涉及偏見、意識形態和價值觀等問題。美國的價值觀並非在所有國家都受歡迎,不僅在中國,甚至有些國家根本無法接受。
我認為中東可能是另一個想要以不同方式思考問題的地區。這促使各國想要更多地對模型進行控制。
我堅信,為不同國家建構具有特殊性的模型是有可能的。矽谷的公司不會這麼做,因為他們認為自己的價值觀是正確的,並希望更多的人能夠接受並融入其中。而且,為不同市場建構不同的大模型需要大量的工程工作,所以矽谷的公司自然不願意投入這些模型的開發。而來自世界其他地區(包括中國)的公司,可能有機會深入研究這種模型。但顯然,他們必須贏得使用者和各國政府的信任。
Q:有媒體報告稱,貴公司成功降低了Yi-34B的人工智慧培訓成本。你們是如何做到的?
李開復:我們有一支超強大的基礎建設團隊,他們是我們公司最大的團隊。我以前就跟員工們說過,每加一個建模人員,圖形處理單元的負擔就重一分;但是每加一個基礎設施人員,圖形處理單元的效率就能提升一些。當然,建模團隊也很重要,不過從一開始,我們就特別重視基礎設施團隊的建立。
這些基礎設施團隊的成員就像是無名英雄一樣。他們得負責硬體、軟體還有大量的資料傳輸,得同時處理圖形處理單元、記憶體和網絡,這三者中的任何一個都可能成為瓶頸。要知道,圖形處理單元擴展到幾千以上會很難。從2000個增加到8000個的時候,可不是簡單地用軟體就能搞定的,因為模型和資料量一大,網路需求就會有天翻地覆的變化。
我們的基礎建設團隊裡有好幾十名工程師,是目前零一萬物最大的團隊。他們得研究怎麼用FP8(英偉達H100晶片的資料格式)來大幅減少運算量,這可不是一件容易的事。他們得弄清楚在哪裡用FP8,在哪裡用其他格式,還得確保它們之間的轉換天衣無縫。除了這些,他們還得解決一系列頭痛問題,例如應該使用什麼網路協定、怎麼優化編譯器、怎麼處理圖形處理單元故障等等。實際上,圖形處理單元故障的頻率高得嚇人。要是一個圖形處理單元故障,能不能熱插拔?我們還在努力解決這個問題。想想看:如果在一個擁有上千個圖形處理單元的集群裡,就因為一個圖形處理單元壞了而讓你的訓練停了一個小時,那要是能熱插拔,你每天就能省下一個小時!這些時間可以積少成多。
還有一個相關的話題就是彈性訓練。假設你有一個由2000個H100晶片組成的集群,而你只需要500個來執行某個任務,那你能不能在檢查點之間把它們移走,然後再加回來呢?這些任務可不是人工智慧研究人員該幹的,他們更多屬於網路工程師的工作。
如果把大語言模型的開發比喻成火箭科學的話,那就像沒有工程師,火箭就永遠飛不起來一樣。SpaceX的成功不僅是因為它有大量研究人員,還因為它做了大量超級複雜的工程工作。同樣地,我們的基礎設施團隊是我們的“工程師”,他們的工作讓我們的大語言模型順利起飛!
問:美國限制出口中國先進的半導體技術,包括英偉達的先進晶片。零一萬物是如何應對的?
李開復:我曾公開說過,我們的晶片庫存足以維持18個月。這些基本上是在限制措施出台前我們獲得的晶片。我們肯定在努力研究如何使用中國晶片。但這並不容易,絕不好玩。對它們進行程式設計不是我們所熟悉的領域。但如果我們必須這麼做,我們也不會退縮。
英偉達有著非常出色的晶片,但有人可能會說,更簡單的晶片可以以更低的成本完成這項工作。但英偉達實力背後的一個主要因素是圍繞其CUDA軟體庫的整個生態系統,它使得程式設計變得更簡單。如果你強迫工程師使用非英偉達的晶片,他們可能會反對,因為這類晶片的效率要低得多。但我們目前面臨的困境要到18個月後才會顯現,而我們必須更早開始行動。如果我們無法獲得英偉達的晶片,我們將尋找更簡單的晶片,更專注於轉換器,但它們將是一個痛苦的編程過程。可是,如果我們別無選擇,那就只能這麼做。
但大家都知道,中國工程師有能力、有意願,而且在處理這種被認為是艱苦的工程挑戰方面表現出色。這與我之前所說的基礎設施團隊的工作類似。學習用非常少的函式庫來寫新的非標準GPU也是一項繁重的工作。
中國企業家是頑強的。中國工程師很勤勞。他們不怕繁重的工作。這正是美團提供卓越服務的原因,也是微信成為卓越產品的原因。的確,我們前面有許多困難的挑戰,你可以說它們是浪費時間和很多人的精力。但這是我們手中的牌,所以我們會盡我們最大的努力打好這些牌。