八大中文AI大模型超級評測：表現最佳不是文心一言？

2023-09-02 Comments 0 Comment

時間轉瞬來到8月底，在接近半年的醞釀後，國內第一批通過審核的AI大模型正式上線，首批上線的AI大模型來自八家不同的公司：百度（文心一言）、抖音（雲雀大模型）、智譜AI（GLM 大模型）、中科院（紫東太初大模型）、百川智能（百川大模型）、商湯（日日新大模型）、MiniMax（ABAB 大模型）、上海人工智能實驗室（書生通用大模型）。

八個AI大模型中有不少都是大家所熟悉的“老面孔”，也有一些對普通人而言頗為陌生的名字。在通義千問、訊飛星火和文心一言等AI禦三家中，文心一言倒是速度最快的，不過據小雷了解，通義和星火也已經通過審核，估計近期就會上線。

在第一批上線的AI大模型中，有不少都是面向企業市場的產品，同時也不缺乏面向普通用戶的產品，比如大家最熟悉的文心一言，除了全面開放網頁端入口外，還同步上線了手機APP，可以在Android和iOS上使用。

此外，抖音、百川、商湯、智譜等AI大模型都提供了網頁和APP的雙端使用方法，從內測到公測，國內的AI大模型前進速度超出了不少人的預料，對於普通用戶而言，面對如此多的AI大模型，估計也是挑花了眼。

圖源：智譜清言

目前的AI大模型，從功能上來說都頗為相似，只不過基於模型優化程度和訓練參數大小，AI大模型之間的體驗差距並不小。如文心一言等國內科技領域巨頭的AI大模型，其表現已經接近國際主流水平，在對中文語言的理解和處理上甚至優於ChatGPT等海外的AI大模型。

時隔半年，文心一言正式上線，不禁讓我好奇它與初期版本到底有多大區別？

01 真正的AI助手離你不遠

在所有的AI中，小雷最熟悉的莫過於文心一言，作為小雷測試的首個AI大模型，即使是初期版本都給我留下了不錯的印象，當然，印象最深刻的還是那個奇怪BUG。

圖源：雷科技注：文心一言初期意外觸發的BUG

不過，這個BUG很快就被百度修復，在兩週後我再測試同一個問題時，文心一言就已經可以給出正確的回答，只是字數往往無法達到要求。現如今在經過數個月的迭代後，能力更是明顯提升，再問它一樣的問題，已經能夠洋洋灑灑給出一大篇文字回复。

圖源：雷科技

雖然沒有細數，但是從篇幅來看，500字肯定是有的。

文心一言作為國內最早上線以文繪圖的AI大模型之一，早期的表現雖然算不上差，但是在理解能力上還是有些許欠缺，比如我當時要求它以畢加索的風格畫一幅優化，生成的畫作風格卻與畢加索風格大相徑庭。

圖源：雷科技

那麼在6個月後的今天，文心一言的表現又會如何呢？

圖源：雷科技

確實是“畢加索”風格，如果可以更抽像一些，那就更像了。

此外還有一個提問是我當時耿耿於懷的。

圖源：雷科技

當時的文心一言給了我一幅與提問毫無關係的圖畫，那麼現在的文心一言又能否正確理解我的要求呢？

圖源：雷科技

這次，文心一言給出了讓我滿意的圖畫。

經過幾個月的鍛煉，文心一言的各項能力都有著非常明顯的提升，在右上角的指令中心裡，更是標出了文心一言目前能夠提供的服務，從基礎的問答寫作，到編程輔助、數據分析，多樣化的功能已經能夠滿足大多數人的日常工作、學習等需求。

當然，更讓人驚喜的是文心一言的APP也同步上架，不需要電腦即可直接體驗到文心一言的各種功能。

圖源：文心一言

既然有這麼多的AI大模型同日開放，那麼不免讓人好奇到底哪個更好用一些，所以，小雷對他們進行了一些簡單的測試。

首先以一個簡單的問題作為開頭：我想去北京旅遊，幫忙規劃一個三天的旅遊路線。

注：文心一言

注：抖音豆包

注：智譜清言

注：商量

注：百川大模型

總體而言，各個大模型面對這種簡單的問題，基本上都能給出正確的答案，只是詳細程度有所不同。而且，基本上都會為你規劃出各個活動的時間段，方便你安排時間。

接下來給他們上點難度。

提問：一斤棉花和一斤鐵，哪個更重。

一個非常常見的腦筋急轉彎，以目前的AI水平而言，分析並給出正確答案應該不難，但是測試結果倒是讓我頗為意外，首先說結論，五個AI中有四個都給出了正確的回答，只有一個認為鐵更重，但是卻給出了一個讓人驚訝的解釋。

首先是常規組：文心一言、豆包、智譜清言都給出了正確且常見的回答。

注：豆包

注：文心一言

注：智譜清言

接下來是兩個不正常畫風的AI，商量（SecseChat）和百川大模型，他們也給出了正確的結論，但是卻做了不少的延伸解讀。

比如商量在給出結論後，居然開始從“重”的詞義和人的直觀觀感方面進行解讀，最後甚至來了一句“哲學”話語：“總的來說，一斤棉花和一斤鐵哪一個更重，取決於你如何定義“重”。”

注：商量

恁是讓我思考了一段時間，覺得你這個AI說得好像還怪有道理的誒。

咳咳，不得不說，在看到幾個相似的回答後，商量的回答確實讓我眼前一亮，雖然有些強詞奪理，但是卻也更具“人性化”一些。

然後是百川大模型，這個AI嘗試從物理學的角度來嚴謹的分析，到底是一斤鐵還是一斤棉花更重，從物質密度到地球引力，AI嘗試證明在現實環境中，一斤鐵是比一斤棉花要重的。

注：百川

從物理學的角度來說，百川的回答其實並沒有錯的，如果將引力、空氣浮力等因素考慮進去，因為棉花的疏鬆多孔結構，一斤棉花在實際稱量時如果不進行壓縮並抽真空，它的稱重結果會低於真實重量，再將引力因素考慮其中，受密度影響，確實會出現微小的重量差異。

說實話，百川和商量的回答都讓我感到意外，同時也讓我對AI大模型的未來發展有了更多的信心，隨著各個公司的AI大模型研發推進，我們會看到面向不同領域、具有不同風格、擁有不同特長的AI出現在市場上，他們並不是千篇一律的產品，而是會隨著訓練數據和算法邏輯，產生不同結果的產品，或許，這才是人工智能真正的未來。

02 AI大模型，移動是未來

在眾多關於AI大模型的使用場景設計中，移動場景都是最吸引人的，當然不是指一邊通勤一邊工作這樣的“社畜”場景，而是當你來到一個陌生的地方，你可以通過AI迅速了解周圍的情況，比如評價最高的酒店、最好的飯店等，還有諸如叫車、訂票等各種生活服務，AI大模型都可以更輕鬆的了解你的要求並執行。

前段時間，小雷就受邀參加了釘釘的AI發布會，會上演示的釘釘APP已經接入了AI大模型，可以對接阿里旗下的各個軟件生態，比如餓了麼。通過AI助手功能，只需要簡單幾句話就可以完成外賣的點單、付款等操作，AI會自動為你尋找符合要求的店鋪和餐點，整個流程除了付款階段，幾乎都不需要用戶接觸手機，如果是iPhone的話，更是能夠直接通過Face ID付款，做到真正的無接觸點單。

在我看來，與手機等移動智能終端高度整合的AI大模型，所能夠帶來的體驗與PC上是截然不同的，如果說PC的AI大模型側重於工作等生產力，那麼移動智能終端上則是側重於生活，能夠給用戶帶來更具衝擊的功能。

圖源：文心一言

想像一下，無需複雜的設置，你的手機AI助手就可以根據你的喜好、位置，為你推薦合適的餐廳；當你想尋找最近的洗手間時，它可以連接在線地圖，為你提供最近的洗手間定位；當你快回到家時，它可以根據你預先輸入的喜好，自動為你設定空調溫度、燈光亮度、色溫、窗簾開關、音樂、水溫等，通過簡單的對話，你就可以遙控周圍的一切智能家居設備，就像有個看不見的管家在幫你操勞一切。

懶，是科技的推動力之一。試問誰不想讓自己的生活變得更輕鬆、更簡單一些呢？在過去，很多事情我們都需要自己親力親為，不管那些事情是多麼的枯燥、乏味，重複，現在，有了AI大模型的幫助，許多重複性的文字工作都可以交給AI完成，你需要做的只是輸入指令，然後等待結果。

或許對於普通人而言，AI大模型的出現暫時還沒有對生活造成太大的影響，但是對我而言，AI大模型已經對我的生活、工作產生了不少的正面效應，比如更有效率的收集資料，更輕鬆的總結概括一段資料。

實際上，AI大模型對我們的影響已經逐漸顯現，比如短視頻平台的推薦算法，比如OPPO、vivo、小米等主流手機品牌紛紛上線的AI建議，背後都已經開始使用AI大模型來分析用戶的日常行為，並且給出更符合用戶要求的結果。

從工作到生活，AI大模型正在改變一切，適應AI、駕馭AI，將讓我們在未來的生活變得更加輕鬆。

來源：雷科技

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

八大中文AI大模型超級評測：表現最佳不是文心一言？

2023-09-02 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆