八大中文AI大模型超級評測:表現最佳不是文心一言?
時間轉瞬來到8月底,在接近半年的醞釀後,國內第一批通過審核的AI大模型正式上線,首批上線的AI大模型來自八家不同的公司:百度(文心一言)、抖音(雲雀大模型)、智譜AI(GLM 大模型)、中科院(紫東太初大模型)、百川智能(百川大模型)、商湯(日日新大模型)、MiniMax(ABAB 大模型)、上海人工智能實驗室(書生通用大模型)。
八個AI大模型中有不少都是大家所熟悉的“老面孔”,也有一些對普通人而言頗為陌生的名字。在通義千問、訊飛星火和文心一言等AI禦三家中,文心一言倒是速度最快的,不過據小雷了解,通義和星火也已經通過審核,估計近期就會上線。
在第一批上線的AI大模型中,有不少都是面向企業市場的產品,同時也不缺乏面向普通用戶的產品,比如大家最熟悉的文心一言,除了全面開放網頁端入口外,還同步上線了手機APP,可以在Android和iOS上使用。
此外,抖音、百川、商湯、智譜等AI大模型都提供了網頁和APP的雙端使用方法,從內測到公測,國內的AI大模型前進速度超出了不少人的預料,對於普通用戶而言,面對如此多的AI大模型,估計也是挑花了眼。
圖源:智譜清言
目前的AI大模型,從功能上來說都頗為相似,只不過基於模型優化程度和訓練參數大小,AI大模型之間的體驗差距並不小。如文心一言等國內科技領域巨頭的AI大模型,其表現已經接近國際主流水平,在對中文語言的理解和處理上甚至優於ChatGPT等海外的AI大模型。
時隔半年,文心一言正式上線,不禁讓我好奇它與初期版本到底有多大區別?
01 真正的AI助手離你不遠
在所有的AI中,小雷最熟悉的莫過於文心一言,作為小雷測試的首個AI大模型,即使是初期版本都給我留下了不錯的印象,當然,印象最深刻的還是那個奇怪BUG。
圖源:雷科技注:文心一言初期意外觸發的BUG
不過,這個BUG很快就被百度修復,在兩週後我再測試同一個問題時,文心一言就已經可以給出正確的回答,只是字數往往無法達到要求。現如今在經過數個月的迭代後,能力更是明顯提升,再問它一樣的問題,已經能夠洋洋灑灑給出一大篇文字回复。
圖源:雷科技
雖然沒有細數,但是從篇幅來看,500字肯定是有的。
文心一言作為國內最早上線以文繪圖的AI大模型之一,早期的表現雖然算不上差,但是在理解能力上還是有些許欠缺,比如我當時要求它以畢加索的風格畫一幅優化,生成的畫作風格卻與畢加索風格大相徑庭。
圖源:雷科技
那麼在6個月後的今天,文心一言的表現又會如何呢?
圖源:雷科技
確實是“畢加索”風格,如果可以更抽像一些,那就更像了。
此外還有一個提問是我當時耿耿於懷的。
圖源:雷科技
當時的文心一言給了我一幅與提問毫無關係的圖畫,那麼現在的文心一言又能否正確理解我的要求呢?
圖源:雷科技
這次,文心一言給出了讓我滿意的圖畫。
經過幾個月的鍛煉,文心一言的各項能力都有著非常明顯的提升,在右上角的指令中心裡,更是標出了文心一言目前能夠提供的服務,從基礎的問答寫作,到編程輔助、數據分析,多樣化的功能已經能夠滿足大多數人的日常工作、學習等需求。
當然,更讓人驚喜的是文心一言的APP也同步上架,不需要電腦即可直接體驗到文心一言的各種功能。
圖源:文心一言
既然有這麼多的AI大模型同日開放,那麼不免讓人好奇到底哪個更好用一些,所以,小雷對他們進行了一些簡單的測試。
首先以一個簡單的問題作為開頭:我想去北京旅遊,幫忙規劃一個三天的旅遊路線。
注:文心一言
注:抖音豆包
注:智譜清言
注:商量
注:百川大模型
總體而言,各個大模型面對這種簡單的問題,基本上都能給出正確的答案,只是詳細程度有所不同。而且,基本上都會為你規劃出各個活動的時間段,方便你安排時間。
接下來給他們上點難度。
提問:一斤棉花和一斤鐵,哪個更重。
一個非常常見的腦筋急轉彎,以目前的AI水平而言,分析並給出正確答案應該不難,但是測試結果倒是讓我頗為意外,首先說結論,五個AI中有四個都給出了正確的回答,只有一個認為鐵更重,但是卻給出了一個讓人驚訝的解釋。
首先是常規組:文心一言、豆包、智譜清言都給出了正確且常見的回答。
注:豆包
注:文心一言
注:智譜清言
接下來是兩個不正常畫風的AI,商量(SecseChat)和百川大模型,他們也給出了正確的結論,但是卻做了不少的延伸解讀。
比如商量在給出結論後,居然開始從“重”的詞義和人的直觀觀感方面進行解讀,最後甚至來了一句“哲學”話語:“總的來說,一斤棉花和一斤鐵哪一個更重,取決於你如何定義“重”。”
注:商量
恁是讓我思考了一段時間,覺得你這個AI說得好像還怪有道理的誒。
咳咳,不得不說,在看到幾個相似的回答後,商量的回答確實讓我眼前一亮,雖然有些強詞奪理,但是卻也更具“人性化”一些。
然後是百川大模型,這個AI嘗試從物理學的角度來嚴謹的分析,到底是一斤鐵還是一斤棉花更重,從物質密度到地球引力,AI嘗試證明在現實環境中,一斤鐵是比一斤棉花要重的。
注:百川
從物理學的角度來說,百川的回答其實並沒有錯的,如果將引力、空氣浮力等因素考慮進去,因為棉花的疏鬆多孔結構,一斤棉花在實際稱量時如果不進行壓縮並抽真空,它的稱重結果會低於真實重量,再將引力因素考慮其中,受密度影響,確實會出現微小的重量差異。
說實話,百川和商量的回答都讓我感到意外,同時也讓我對AI大模型的未來發展有了更多的信心,隨著各個公司的AI大模型研發推進,我們會看到面向不同領域、具有不同風格、擁有不同特長的AI出現在市場上,他們並不是千篇一律的產品,而是會隨著訓練數據和算法邏輯,產生不同結果的產品,或許,這才是人工智能真正的未來。
02 AI大模型,移動是未來
在眾多關於AI大模型的使用場景設計中,移動場景都是最吸引人的,當然不是指一邊通勤一邊工作這樣的“社畜”場景,而是當你來到一個陌生的地方,你可以通過AI迅速了解周圍的情況,比如評價最高的酒店、最好的飯店等,還有諸如叫車、訂票等各種生活服務,AI大模型都可以更輕鬆的了解你的要求並執行。
前段時間,小雷就受邀參加了釘釘的AI發布會,會上演示的釘釘APP已經接入了AI大模型,可以對接阿里旗下的各個軟件生態, 比如餓了麼。通過AI助手功能,只需要簡單幾句話就可以完成外賣的點單、付款等操作,AI會自動為你尋找符合要求的店鋪和餐點,整個流程除了付款階段,幾乎都不需要用戶接觸手機,如果是iPhone的話,更是能夠直接通過Face ID付款,做到真正的無接觸點單。
在我看來,與手機等移動智能終端高度整合的AI大模型,所能夠帶來的體驗與PC上是截然不同的,如果說PC的AI大模型側重於工作等生產力,那麼移動智能終端上則是側重於生活,能夠給用戶帶來更具衝擊的功能。
圖源:文心一言
想像一下,無需複雜的設置,你的手機AI助手就可以根據你的喜好、位置,為你推薦合適的餐廳;當你想尋找最近的洗手間時,它可以連接在線地圖,為你提供最近的洗手間定位;當你快回到家時,它可以根據你預先輸入的喜好,自動為你設定空調溫度、燈光亮度、色溫、窗簾開關、音樂、水溫等,通過簡單的對話,你就可以遙控周圍的一切智能家居設備,就像有個看不見的管家在幫你操勞一切。
懶,是科技的推動力之一。試問誰不想讓自己的生活變得更輕鬆、更簡單一些呢?在過去,很多事情我們都需要自己親力親為,不管那些事情是多麼的枯燥、乏味,重複,現在,有了AI大模型的幫助,許多重複性的文字工作都可以交給AI完成,你需要做的只是輸入指令,然後等待結果。
或許對於普通人而言,AI大模型的出現暫時還沒有對生活造成太大的影響,但是對我而言,AI大模型已經對我的生活、工作產生了不少的正面效應,比如更有效率的收集資料,更輕鬆的總結概括一段資料。
實際上,AI大模型對我們的影響已經逐漸顯現,比如短視頻平台的推薦算法,比如OPPO、vivo、小米等主流手機品牌紛紛上線的AI建議,背後都已經開始使用AI大模型來分析用戶的日常行為,並且給出更符合用戶要求的結果。
從工作到生活,AI大模型正在改變一切,適應AI、駕馭AI,將讓我們在未來的生活變得更加輕鬆。
來源:雷科技