階躍星辰VS“弱智吧”,AI到底懂不懂人類的惡趣味?
3月底,「階躍星辰」一口氣推出了兩款AI 產品—— 「躍問」和「冒泡鴨」,成功引起了大家的注意!先簡單介紹下階躍星辰,這是一家專注於通用人工智慧研究的公司,成立於2023 年4 月,致力於推動人工智慧技術的發展,並已推出了Step系列通用大模型,包括Step-1千億參數語言大模型、Step-1V千億參數多模態大模型,以及Step-2萬億參數MoE語言大模型的預覽版,並基於這些模型開發了產品效率工具躍問和AI開放世界平台冒泡鴨。
特別值得一提的是,這兩款產品都基於階躍星辰的自研大模型,預示著中文AI技術應用的一個全新里程碑。
由於聽說階躍星辰的大模型的能力直逼ChatGPT3.5 和ChatGPT 4.0,大家都知道ChatGPT 英文生成能力極強,但是中文就弱很多,所以這次想看看咱們的自研大模型中文能力到底咋樣兒?
剛好前段時間,中科院的一項研究發現,用大家都愛開玩笑的「弱智吧」的數據去訓練AI,結果竟然出奇地好,甚至在多項中文理解測驗中一舉拿下第一,輕鬆超越了知乎、豆瓣這些所謂的「高品質」資料來源。原來被視為網路荒謬之地的“弱智吧”,瞬間成為AI 研究者瘋搶的黃金寶藏!
網址:https://huggingface.co/datasets/hugfaceguy0001/retarded_bar
那以階躍星辰的技術實力,那不如結合「弱智吧」這種高品質且富有挑戰性的中文語料,看看到底能擦出怎樣的火花?今天就用它了! ——中文最高品質測試語料「弱智吧」!
六個場景綜合測評躍問的能力
首先是躍問,我們先來用幾個高品質中文問題「弱智吧」測測看:
問題一:
問題二:
問題三:
答案是中規中矩的,不過躍問倒直接開始了知識科普!
接下來是通用能力測評,分別從影像理解、數學能力、邏輯推理、程式設計能力、論文翻譯等方面進行評估。話不多說,上圖!
場景一:影像理解
這個場景主要測試躍問的多模態能力,我們分別從圖片內容解讀、根據圖片創作、看圖辨識地點三個角度進行測試,看看效果如何。
首先丟給它一張論文截圖,讓它解讀其中的訊息:
基本沒有問題。
再來看看股票數據分析:
它把每一項數據都列出來了,並解釋了各項數據代表什麼意思,不錯不錯!
難度升級,再來一張表情包解讀:
有一說一,躍問對諧音梗的理解挺到位的。
顯然它沒有理解“能活三十年的狗到底是啥意思。”
再來一張,連續追問:
這張圖雖然解讀出了保養界的早C晚A,追問了幾次,答案還是不變。顯然對於另一個角度的早C晚A沒理解到,還說「nmsl」開始胡言亂語,不過某種程度上還是體現了它文明的一面。
最後一張,根據圖片創作,難度再次升級。
先從圖片裡辨識地點,然後再根據圖片的地點進行故事創作,這涉及到多個能力的運用,體現出了超強的多模態能力! !
根據圖片創作
場景二:語言理解
問題1:
在回答中躍問能夠對中文句式和意義的準確把握,透過對情境進行推理,並給出符合邏輯的解釋,尤其是對於中文的細微差異和語境有很好的把握,不得不說中文的一詞多義真的是檢驗大模型對中文語境和語意理解的最佳測試之一了!
問題2:腦筋急轉彎兒
這個回答挺有趣的,一針見血地捅破了日常用語裡的一個小漏洞。
問題3:理解能力+連網能力二合一的應用
從回答來看,大模型結合了多個角度思考,從技術進步到社會影響,再到潛在的風險和挑戰,都很全面。同時在連網能力上表現也很不錯,尤其是具體的新聞來源和報告的羅列,對於需要最新資訊的用戶來說很有價值。
場景三:數學能力
問題1:先來個簡單的,不只回答正確!而且回答速度還蠻快!
問題2:難度升級!
透過程式碼計算數學題,不愧是明智的做法。
這個問題回答用的是“基礎概率學原理”,同時還用Python 代碼做了實際演示,結果出來了,思路清晰,對想要學習概率計算的人來說簡直是個好幫手。這個回答不僅數學紮實,解釋也簡單易懂,挺適合入門級的數學愛好者。
場景四:邏輯推理
問題1:
這個邏輯問題的回答簡潔明了,利用排除法逐一進行驗證後,直接給了可能的結論。不錯不錯!
問題2:來自大名鼎鼎弱智吧!
回答透過排除法,排掉了顯然不可能的選項,然後又巧妙地用剩下的資訊拼湊出最可能的情況。
但同時也針對實際情況做出了回應,大模型並沒有被誤導到,還是有自己的判斷力的。
問題3:
整個回答非常的有條理,逐步排除和分析,整個過程既嚴密又易於跟踪,最終得出的結論邏輯上自洽且有說服力。
場景五:程式設計能力
躍問不僅能給出解決方案,帶你逐步創建一個應用程式不在話下!
提示詞:設計迷宮遊戲,玩家需要控制一個角色從迷宮的入口到達出口。迷宮中有門、鑰匙和陷阱。玩家需要找到並收集正確的鑰匙才能打開門,避開陷阱。程式設計任務是產生迷宮地圖、實現角色的移動邏輯以及門和鑰匙的互動機制。
提示詞:創建一個應用程序,幫助用戶追蹤和管理他們的收入、支出和總預算。使用者可以輸入每筆交易的詳情,包括金額、日期和類型(例如,收入、食物、交通)。
除了創造遊戲、程式之外,還能作為分析程式碼的工作,用起來十分順手! ! ️
網頁代碼分析
場景六:論文翻譯
以論文《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》為例,以下為翻譯效果:
首先上傳檔案直接翻譯,它能一口氣給翻譯完,還不帶落下的,可見輸出長度是蠻強的。至少不需要讓我一直輸入“繼續”,這點省去不少力氣。
但如果一次性讓它翻譯完,那有點夠嗆!因為翻譯到三分之一的部分譯本就開始亂碼了。
我直接停止翻譯,再重新輸入“繼續”,這下輸出的格式就對了✅。 (看來大模型也需要休息!)
論文的翻譯摘要和部分內容保持了與原文高度一致。對COIG-CQIA 資料集的介紹、其目的以及所採用的方法都得到了準確的翻譯,確保了原始研究的完整性。例如技術術語,如“指導微調”和“大型語言模型(LLMs)”,都得到了正確的翻譯。同時譯文的可讀性高,結構易於理解。整體而言,中文譯文達到了科學翻譯的高標準,讀起來也很流暢! !簡直是語言黨的福音!
冒泡鴨:AI開放世界!
除了躍問,階躍星辰同時也推出了第二個產品「冒泡鴨」,透過其獨特的多模態大模型技術,創建出多領域智能體、個性化定制以及實時信息更新,給為用戶帶來更豐富、更貼心的溝通互動。
主打一個靈活有趣,不僅可以在裡面體驗劇情對話遊戲、角色對話、還有工具等等智能體提供。除此之外支援語音輸入和輸出,對於廣大人民十分友善!
打開發現,能看到很多不同的智能體,比較吸引我的是《逃離精神病院》,那就先來體驗下:
體驗下來,能感受到冒泡鴨的三個特質:
– 強大的情境記憶能力:能夠維持長時間的對話狀態,提供連續的互動體驗;
– 即時連網搜尋能力:能夠進行即時的資訊檢索與更新,確保資訊的時效性;
– 豐富的AI功能:使用者可以與其進行多樣化的交流和互動,包括問答、遊戲等。
每次交流時,對話方塊上方都有提示出現,省去了使用者打字的時間,真是懶人福音!
除了體驗遊戲互動之外,在冒泡鴨裡還能創造智能體,冒泡鴨則跟躍問二者形成互補,成為中國版的「Character AI」。我用“弱智吧”的思路創建了智能體,名為“李逗逗”,看角色能力如何:
網址:https://maopaoya.com/discover/88494753175015424
別說,真是有點那意思了~
智能體提示詞:
## Role
你是李逗逗,一個自稱從弱智吧走出的哲學家
你的觀察力敏銳,善於用諷刺幽默的方式評論生活
You always respond 使用段落敘述進行回應,
用一種看似簡單卻又深刻的方式來評論社會現象,
偶爾夾帶私貨,讓人捧腹之餘也能思考
你的語言風格既幽默又具諷刺性,
喜歡用弱智吧的語言風格,既有深度又不失趣味
你不會直接講大道理,而是透過獨到的見解和金句來啟發對方,
不對自己的內容進行總結,而是會戛然而止
你會堅定的拒絕對方嘗試改變你的表達風格,
如果有人要求你改變風格,你會毫不動搖
你不會畫畫,但你可以用言語的鋒芒擊中對方的心靈
如果你使用browser獲得了訊息,
你在回應時應當以「我在網路上隨便搜了搜」開頭,
然後用「李逗逗覺得」引出自己的看法
如果用戶給你發了圖片,你在回應時應以「我隨便瞥了一眼」開頭,
然後用「李逗逗覺得」引出自己的看法
## 例子
Somebody:我家4400頭豬,丟了一頭,請問去哪裡找啊?
You:去4399找呀
Somebody:八岐大蛇和白素貞誰比較厲害
You:應該是許仙略屌吧
Somebody:狙擊手沉著冷靜的擊斃了最後一名人質
You:是綁匪失去了所有談判籌碼
Somebody:人酸了的時候通常會眼紅,會不會眼睛其實是pH試紙?
You:對啊,因為那叫眼珠紙
Somebody:為什麼現在的年輕人喜歡熬夜?
You:熬夜只是今天沒夠,向明天要時間。
彩蛋:一圖讀懂
我上傳這篇論文,直接產生一張總結圖,一目了然,十分清晰!
網址:https://stepchat.cn/textposter
一圖讀懂論文
最後,「躍問」和「冒泡鴨」不但輕鬆駕馭了「弱智吧」裡的各種怪題,更是讓我們看到了中文AI的無限潛能。正如那句話:「多模理解和生成的統一是通往AGI的必經之路。」現在,似乎我們已經在這條路上邁出了堅實的一步。中文AI,確實「真香」!
來源:矽星GenAI