理想首個AI應用實測:視覺辨識媲美GPT 內容創作太拉胯
誰曾想,ChatGPT最大的對手會是一家汽車廠商打造的人工智慧App呢? 2023年6月,理想汽車推出了自研認知大模型“Mind GPT”,它以“理想同學”App的形式出現在理想汽車的車機中,支援透過自然語言交流、發送指令。 2024年,Mind GPT升級到3.0,帶來了業界領先的自然語言任務執行功能。理想汽車創辦人李想在2024年25日舉行的AI Talk特別活動中提到,理想同學已經是理想車主們最愛的功能之一,如今理想要讓更多用戶用上理想同學。
今日,理想同學App如期登陸App Store。為了弄清楚車企打造的首個通用人工智慧應用程式到底表現如何,雷科技第一時間下載了這款應用,並將它與Kimi、豆包、ChatGPT等熱門應用程式來了一場比拼。
理想的極簡風,刮到了「理想同學」上?
理想同學App的設計相當簡潔,但卻不夠明了。 App圖示是簡筆畫風格的一雙眼睛,有人覺得這和蔚來的Nomi有點像,對比下來,小雷感覺蔚來Nomi還是要更可愛一些。可相比起其他AI應用的“賽博風”,理想同學倒是有幾分親近感。
啟動App後,理想同學會跳出歡迎介面,接著就是註冊/登陸請求。理想同學沒有限制必須理想車主才能使用,因此小雷的整個登陸過程都是相對順利的。相較之下,豆包的登陸更像是開始一場遊戲,它需要你建立暱稱、性別等個人資料,Kimi、ChatGPT和理想同學都沒有這個要求。
雖然理想同學整體就是黑+白配色,沒有啟動廣告、也沒有任何內容推薦,甚至連教學都沒有。或許理想是預設多數會下載理想同學的使用者都不是「新手小白」。
有趣的是,理想同學的推薦問題往往都是投資、科技類話題,而豆包則是偏生活常識類,這或許就是它們各自定位的巨大差異。另外,Kimi、豆包都會將能夠實現的功能放在輸入框附近,這能讓使用者快速了解到它們到底能做些什麼。例如豆包把AI生圖、AI翻譯、AI寫作都列了出來,Kimi也把翻譯和寫作單獨顯示,但理想同學卻沒有這麼做。
當你開始提問後,理想同學會顯示一段非常酷炫的動畫,顯示它理解、搜尋、學習、總結的過程。在開始回答問題後,這段思考過程會被折疊。小雷認為這段動畫沒有必要存在,畢竟每個大模型的生成過程幾乎都是一樣的,這段動畫也說明不了什麼,而且還相當佔位置。
(圖源:雷科技製圖)
只能說,對於這個剛上線的人工智慧應用來說,理想算是很努力地做減法,走極簡化風格使其在視覺上足夠高級,但這類應用最重要的還是要“好用”,而不是「好看」。不夠直覺的交互,上手門檻就被無形中抬高了不少。
對壘Kimi、豆包:基礎相當,創作拉胯,視覺還行
聊完設計與使用上的體驗,也是時候到實測環節了。
本輪測驗主要分為三個環節,包括基礎問答、內容產生和連續交流。小雷為理想同學挑選的對手有豆包、Kimi和ChatGPT。話不多說,我們直接開始PK吧。
第一輪是基礎問答橫評,我們選擇了理想同學推薦的「馬斯克xAI為何能吸引60億美元投資」這個話題,對四款人工智慧應用進行提問。
總結速度方面,理想同學從開始搜尋到生成回到大約花了3秒時間,而豆包、Kimi分別需要6、7秒時間,ChatGPT和理想同學的生成時間相近。而內容上,四款應用程式都有從市場、背景、技術策略等多方面進行論述,但只有Kimi能夠結合xAI當前的狀況詳細描述,例如提到xAI截至5月已經融資超120億美元,這節省了我們後續提問的時間。
(圖源:雷科技製圖,由左至右為:Kimi、理想同學、豆包、GPT)
整體來看,目前主流人工智慧應用在基礎問答基本上都做得不錯,例如資料檢索能力、整合能力和生成能力,即使是初出茅廬的理想同學也能穩拿六十分。當然,體驗下來,小雷認為Kimi的優勢在於總結的資料更全面,豆包的優勢是能直接推薦今日頭條、抖音上的解說影片。
第二輪是內容生成,我們挑選了「雷科技即將前往美國參展CES2025,請根據這個由頭編寫一篇宣傳導語」這個任務,讓四個人工智慧應用自由發揮,幫我們寫一篇宣傳語,看看他們各自的表現如何。
從生成的內容上看,豆包和理想同學都能了解到小雷的需求是“宣傳導語”,因此內容篇幅不會太長,滿足社交平台或文章尾部的宣傳需求;Kimi的內容是四款人工智慧應用中最長的,甚至還包括了「2025年1月7日-10日」這個準確的時間,但可惜就是太長了,而且還把雷科技認錯成參展商。至於ChatGPT,內容就比較平平無奇了,而且AI味也很重,實用性不佳。
(圖源:雷科技製圖,由左至右為:理想同學、豆包、Kimi、GPT)
我們又將理想同學推薦的問題「GoogleAI如何在生成影片和圖像上實現突破」為命題作文,要求四款應用按照這個主題寫一篇文章。不過,測試下來,Kimi、豆包、ChatGPT都能按要求寫一篇文章,雖然水平參差不齊,但至少還是能完成要求,而理想同學則是回答了這個問題,並不能獨立完成寫作。
(圖源:雷科技製圖,由左至右為:Kimi、豆包、理想同學、GPT)
這樣看來,理想同學倒不是完全不能寫作,只是過大的命題對於它而言還是有一定難度,從內容完成度來看,其實也只有豆包算得上是完成了一篇正規的文章寫作,Kimi更多還是以資料舉證為主,沒有分析與論述。只能說,理想同學在寫作這塊還是要加油。
值得一提的是,目前Kimi和理想同學都不支援影像生成,其實也算是時下主流廠商推出的人工智慧應用裡比較罕見的不支援影像生成模型技術的應用了。
第三輪,我們迎來了這次體驗的重頭戲:視覺模型比較。由於Kimi不支持視覺模型、豆包只支持語音模型,這次的比較主要還是理想同學和ChatGPT的對決。
理想同學和ChatGPT都能透過攝影機對現實物體進行識別,但兩者的處理方式有些區別,前者只有在用戶發出需求時才會給予回應,例如識別物品是什麼、人物是誰等;而ChatGPT更傾向於即時交流,只要相機捕捉到畫面,它就會開始與你交流。
(圖源:雷科技製圖,左為GPT、右為理想同學)
體驗下來,單純聊物體的辨識能力的話,兩者可以說幾乎沒有差距,像是生活中常見的礦泉水、電腦,都能認出來。而犯的錯誤也幾乎一樣,例如認不出新款的手機,或是冷門的數位產品等。但在速度上,理想同學的表現還是很不錯的,而且它的語音辨識能力很強,能準確分析你是真的在向他提問還是在與旁人交談,避免了錯誤的即時分析。
而在植物的辨識上,理想同學能夠辨識出園區種植的觀賞性植物是冬麥,並且給出了一些簡單易懂的資料,而GPT卻認為那些草是韭菜。當我繼續追問“這些觀賞性植物真的是韭菜嗎?”,GPT建議我可以詢問工作人員。不得不說,理想同學在這方面的辨識能力幾乎是完勝ChatGPT。
(圖源:雷科技製圖,左為理想同學、右為GPT)
當然,理想同學也不是各方面都勝於ChatGPT,例如我問它今天的天氣看起來怎麼樣時,理想同學總是會引用氣象資料來判斷,而非辨識實景;ChatGPT就會告訴我現在的天氣看起來不錯,但可能需要穿外套,避免著涼。
對比下來,理想同學作為一款剛上線的人工智慧應用,在處理基礎任務時已經和Kimi、豆包、ChatGPT這些老玩家相差無幾,但要說到文字創作、內容生成,可能還是略顯生澀。而理想同學目前最大的優勢是視覺模型表現很不錯,這可能是Mind GPT的資料模型與大量的視覺需求有關。
車企下場做AI應用,醉翁之意不在酒?
在日前舉辦的「AI Talk」特別直播活動中,李想透露自Mind GPT在理想汽車上線後,「理想同學」累積喚醒次數達23.8億次,任務完成率96%,用戶滿意度96.2%。身為車企推出的車機AI助手,能夠這樣的喚醒率,表現確實不錯。
但理想為何要把車機的AI助理搬到應用市場上,與一眾老玩家們硬碰硬呢?
事實上,李想在2023年就曾透過內部信件提到理想汽車的未來願景——至2030年,要成為全球領先的人工智慧企業。在“AI Talk”活動中,理想也宣布全面進軍AI市場,理想造的汽車也不是“汽車”,而是“人工智慧機器人”。這其中最重要的一環,自然就是大模型技術。
時下,幾乎所有人工智慧企業都擁有公開的AI應用,百度的文心一言、Google的Gemini,即便是沒有造出一款全新的AI應用,也計劃在主流產品中全面AI化改造,例如馬斯克的“xAI”計劃。因此,想要大眾認可理想是一家人工智慧企業,最好的方法就是透過部署一款每個使用者都能輕鬆下載到、使用到的應用程式——理想同學。
對於理想而言,理想同學上線應用市場,這意味著將會有更多普通用戶加入其中,共同訓練Mind GPT,使它變得更加完善,無論應對任何場景,都能有更好的應對方式。先前,Mind GPT主攻的場景是“任務主導型AI”,即用戶給予一個清晰的指令,理想同學負責執行便可。但這對於要「造人工智慧機器人」這個願景而言,還遠遠不夠。
而體驗下來,理想同學距離Kimi、豆包、ChatGPT等專業AI玩家仍有不小差距,尤其是面向創作方向的特性,理想同學差的不是一星半點。如果理想要讓消費者們認可“理想是一家人工智慧企業”,或許要加快理想同學升級,跟上主流AI應用腳步。