百度不做Sora的理由李彥宏講清楚了
在2024年11月12日舉辦的百度世界大會上,探討「什麼是有價值的AI應用」成了主題。百度集團創始人、董事長兼CEO李彥宏提到,將大會主題定為“應用來了”,代表百度對於當前大模型和生成式人工智慧時代的認知和判斷。
△文心大模型的日均調用量變化。
目前,文心大模型的日均調用量已經超過15億。李彥宏認為,如果文心大模型調用量一年能漲10倍,代表市場需求確實存在。他提到,事實上,文心的呼叫量,在半年內的成長就接近10倍。
在會議上,李彥宏提到了幾個共識:
首先,檢索增強(RAG)成為了行業共識,因為消除“幻覺”,是模型行業落地的必須。李彥宏認為,過去24個月,大模型的最大變化是基本上消除了「幻覺」。
其次,智能體是AI應用最主流的形態,是AI原生時代內容、資訊與服務的新載體。
“智能體”,無疑是世界大會上出現最高頻的術語。李彥宏將智能體比喻為PC時代的網站和行動時代的自媒體,差別在於,智能體更像人、更聰明。
他提到了智能體的4個應用方向:公司類(如銷售客服)、角色類(如數位人直播)、工具類(如產業報告智慧產生)、產業類。
技術的商業價值,也是李彥宏在發言中一再提起的主題。
例如,他認為iRAG的商業價值在於無幻覺、超真實、沒成本、立即可取。
具體到0程式碼開發工具「秒噠」的發布,李彥宏認為產品價值在於實現了生產力的無限擴張。用他的話來形容,這是「一個前所未有的只靠想法就能賺錢的時代」。
在產業落地層面,李彥宏提到,大模型帶給產業的價值增量,體現在兩個層面:降本與增效。
目前,百度智慧雲端千帆大模型平台已經精調了3.3萬個模型,開發了77萬個企業應用,一半以上的央國企都是千帆的用戶。
文庫和網盤融合了
在2024年9月的架構調整中,百度網盤回歸了MEG,被劃分到了文庫BU——這也為兩個內容工具型應用的生態打通,埋下了伏筆。
百度副總裁、百度文庫兼百度網盤負責人王穎看來,以往文庫和網盤的用戶具有以下兩個痛點:
一方面,不同形式、品類、格式的素材,無法在同一個平台上編輯操作,也無法產生任何形式、格式的內容;
另一方面,文庫中的公域知識,和網盤中的私域知識,是分開儲存的,無法協同形成完整的知識。
百度文庫上線的「自由畫布」功能,就成了打通文庫和網盤內容的橋樑。在李彥宏看來,自由畫布本質上就是一個工具類智能體。
就像一個智慧白板,使用者能夠透過點選、對話、框選,自由選擇和組合文庫和網盤上需要操作的內容。
基於背後的MoE(混合專家模型)架構和多模態模型,自由畫布可以支援文字、圖像、影片等檔案的跨模態處理,最後也能產生圖文等跨模態內容。
而這些經自由畫布生成的多模態內容,適配的是微信朋友圈、小紅書的圖+文、影片+文內容生態,也能產生有圖表的研報等專業領域內容。
△自由畫布根據要求產生了孫悟空來現代探險的小說、漫畫和影片。
在AI工具型產品苦尋變現模式的當下,王穎卻認為,網盤和文庫的商業模式天生與大模型產品非常匹配。
她告訴《智能湧現》,文庫和網盤的收費模式,本質上是和用戶分潤,產品通過給用戶帶來價值、幫他們賺錢,來提高用戶的留存率和付費率。
「AI能力能夠拓展產品功能的邊界,組合出來的產品變得更多,為用戶帶來更多的權益,也會讓付費轉換率變高。 」王穎對《智慧湧現》表示。
在做Sora之前,先解決“幻覺”
即便李彥宏提到,目前文字和RAG(檢索增強)技術的結合已有成效,但他也指出,影像和RAG技術的結合還遠遠不夠。
「多模態模型目前沒有大規模應用,是由於幻覺問題還沒有解決。」李彥宏在發言中指出。
這認知,也決定了百度面對Sora的態度。李彥宏提到,在Sora出現時,百度的決策不是跟進,而是著手解決多模態的幻覺問題。
在會上,百度發布了iRAG,一項基於檢索增強的文生圖技術。用李彥宏的話來說,iRAG可以去除生成影像的「機器味」。
△基於iRAG產生的圖片。
百度CTO王海峰在會上介紹了iRAG實現可控生圖的技術連結:
首先,大模型對使用者的需求進行分析理解,自動規劃精確或泛化的方案,例如對哪些實體進行增強;
接著,在增強階段,對需要增強的實體進行檢索,並選擇對應的參考;
最後,在生成階段,百度自研了多模態可控生圖技術。一方面,透過局部注意力計算,大模型能夠在保持實體特徵不變的情況下,實現影像的高泛化生成;另一方面,透過整體注意力計算,實現影像的高精確生成。
小度做了副AI眼鏡
2023年換上大模型「大腦」的小度,這次推出的不再是音箱,而是百度的第一副眼鏡:小度AI眼鏡。
在硬體層面,這幅眼鏡自重僅45g,低於業界平均重量49g。為了提高成像效果,眼鏡搭載了1,600萬像素超廣角鏡頭和AI防手震演算法;為了提高聲音辨識準確率、降低漏音,眼鏡採用了四麥陣列和開放式防漏音揚聲器設計。
在續航力上,小度AI眼鏡用30min就能充滿電,實現56小時待機,超5小時連續聆聽。這三個指標均超過了行業標竿水準。
將小度AI眼鏡與普通眼鏡進行區別的,還是在“AI”上。
基於文心大模型與DuerOS AI原生作業系統,小度AI得以實現第一視角拍攝、邊走邊問、識物百科、視聽翻譯、智慧備忘錄、歌單等功能。
根據百度集團副總裁、小度科技CEO李瑩介紹,小度AI眼鏡將在2025年上半年上市。
一個0程式碼開發工具,就是一支智能體團隊
會上,百度還官宣了“秒噠”,一個將在2025年Q1上線的0代碼應用開發平台。
相較於其他的0程式碼開發平台,秒噠的特色是,應用的開發過程,由多個多智能體進行協作。
例如,在網頁製作過程中,網頁的程式碼編寫和部署由程式設計師智能體完成,網頁中的文案由寫作智能體完成,文案中最新的資料由檢索機器人上網查詢,其中的配圖又由擅長生圖的智能體實現。
最後,負責質檢的智能體,也會利用反思能力,執行測試程式碼,發現其中的bug,並與程式設計師智能體進行配合修改。
多智能體協作,不僅應用在了針對小白開發者的「秒噠」上,也運用在了針對專業程式設計師的文心快碼Comate上。
王海峰介紹,Comate已經迭代到了3.0版本。在開發全流程中,Comate 3.0中的不同智能體可以實現自動程式碼質檢、程式碼補全等功能,目的是提高程式設計師的工作品質和效率,讓其把更多精力投入探索和創新。