訊飛星火認知大模型Spark Desk提前交卷第一時間上手淺測

2023-04-26 Comments 0 Comment

科大訊飛版ChatGPT產品，提前交捲了！就在昨夜，訊飛驟然向開發者提供了內測通道，取名為訊飛星火認知大模型對外開啟內測。還有個神奇的英文名字Spark Desk，據說有“火花桌面智能助手”的意思。

訊飛這波操作，多少有點“反向跳票”的意思，因為早在今年2月初，科大訊飛就被曝加緊開發中國版ChatGPT。隨後國內大模型關注度陡增後，科大訊飛率先給出了deadline：5月6日上線產品。

萬萬沒想到，距離正式發布還有10天，他們毫無徵兆地開啟了內測邀請。

從目前已經獲得內測的網友評價來看，有一些人認為效果“超出預期”，但也有人反饋只是“中規中矩”。整體來看，表達效果不錯的反饋佔多數。

獲得內測資格的方式也有點意思，是AI打電話給確認的：

當然，科大訊飛大模型能力究竟如何，最好還是能實測後再說。

所以第一時間拿到內測邀請的我們，也連夜完成了測試。詳情如下：

淺測訊飛大模型

登錄進去後，首先看到的是訊飛星火認知大模型的自我介紹：

我能學習和理解人類的語言，進行多輪對話、回答問題和高效地幫助人們獲取知識和靈感。

老樣子，還是從語文、數學、代碼和邏輯幾方面，測測訊飛星火認知大模型的綜合能力。

那麼我們就先從語文能力測起。

考慮到現在弱智吧已經成為ChatGPT時代下的Benchmark了，所以先測試大家想看的環節。

結合下科大訊飛的特點，我們拋給訊飛星火了一個地獄地域笑話。

沒想到，它是懂安徽人的。

我們去了圖片ID水印，可能導致截圖文字不清楚（還望大家理解）

再來一個腦筋急轉彎試試。

訊飛星火的回答非常一本正經：首先表示“玉皇大帝是否存在這個事情不是我AI可以下結論的”，這個問題驢唇不對馬嘴，玉皇大帝住哪的設定和現代科學沒有關係。

但你要非要我說點啥，我只能說或許玉皇大帝可能在地球上空吧。

不過這段回答裡也有個小bug，即在東亞宗教信仰里天界包括天堂和神界（？）

實際上，在一些弱智吧問題裡，訊飛星火的表現往往是懂了但沒完全懂。

比如它知道焚書坑儒的事，但是又解釋不清楚衍生出來的地獄笑話。

不過在基本語文能力上，訊飛星火的表現還是值得關注的。

比如給出第一句，補充寫一首魯迅風格的詩歌：

提的要求它都基本滿足了，不過紫菜湯為啥曾是漁民的希望？是我理解不了AI的深意了。

換成周杰倫的風格呢？

表現也還不錯，馬上替換了後三句的內容。懷念童年也是周董歌裡經常出現的主題了。

古文中的對對子，它也能對仗比較工整，表達意思上也沒出什麼問題。

我們給的上聯是：福慧雙修須及物。

再試試成語接龍：

如果它接錯了，提醒下能改正回來，也表現出了一定的多輪對話能力：

創作的洋蔥新聞，也確實有那感覺了~

續寫的恐怖故事也有點水平：

那麼再看看數學能力？

基本的加減法、雞兔同籠應對起來都很輕鬆了。

不過在高數方面還是有點困難，讓它求解：f(x)=x(x-1)(x-2)(x-3),f'(0)=?

即便在我們提醒它算錯了情況下，修正起來也比較困難（正確答案為-6）。

OK，接下來就輪到代碼能力了。

我們給的要求是：幫我寫一個計算器程序。

確實完成了一個四則運算的簡單計算器，甚至還有命令行操作界面：

除了有一個小bug（函數外不能return）外，簡單修改後可以運行。

另外對於Python縮進的空格與tab之爭，這只AI是個空格黨。

這裡貼上代碼塊，大夥兒可以試試：

#coding=utf-8

#量子位注：AI没生成这句，根据不同运行环境可能需要加一下

# 定义函数，实现加法运算

def add(x, y):

return x + y

# 定义函数，实现减法运算

def subtract(x, y):

return x - y

# 定义函数，实现乘法运算

def multiply(x, y):

return x * y

# 定义函数，实现除法运算

def divide(x, y):

if y == 0:

print("除数不能为零！")

return

else:

return x / y

# 主程序

print("欢迎使用计算器！请选择需要进行的操作：")

print("1. 加法")

print("2. 减法")

print("3. 乘法")

print("4. 除法")

choice = input("请输入操作编号(1/2/3/4)：")

num1 = float(input("请输入第一个数字："))

num2 = float(input("请输入第二个数字："))

if choice == '1':

print(num1,"+", num2,"=", add(num1, num2))

elif choice == '2':

print(num1,"-", num2,"=", subtract(num1, num2))

elif choice == '3':

print(num1,"*", num2,"=", multiply(num1, num2))

elif choice == '4':

if num2 == 0:

print("除数不能为零！")

# return （量子位注：这里有bug，注释掉就可）

else:

print(num1,"/", num2,"=", divide(num1, num2))

else:

print("非法输入！")

生成表格能力也是有的，同時可以按照要求修改表格：

分析基本邏輯問題也OK：

而且我們感覺訊飛星火的回答，總是很正經，對於腦洞大開的問題也是淡定的“總分總式”回答。

當然也被繞到過溝裡，回答出了“賈母找人搬機器”的瞎話：

以上就是我們對訊飛星火的一個淺淺測試。

能力水平已經看到了，而大模型本身讓人好奇的，還有它的技術細節~

提前扒扒它的“模型底細”

畢竟訊飛大模型還沒正式發布，所以我們試著先從它自己這裡“探探口風”。

看看能不能通過問相關問題，提前摸出一些關於它的資料來。

先是名字由來。訊飛星火認知大模型給出了技術向、公司向和文化向三個方面的回答，有議論文內味了：

再仔細追問一下為什麼“星火”和“心宿”有關，好傢伙，話題逐漸占星學了起來：

這裡我們調戲一下大模型，問問科大訊飛CEO是否喜歡占星學

回到正題。那麼，訊飛星火認知大模型的訓練數據來源、模型參數量、聯網狀態如何？

首先是關於模型訓練數據的來源。看起來資料還比較豐富，目前也還在不斷更新中：

所以，訊飛大模型是否和ChatGPT一樣，用了RLHF呢？它自己的回答竟然是沒有：

那麼接下來，是關於模型參數量的問題，這裡訊飛大模型回答得也比較模糊。

而且，給出的模型參數量竟然只有數億個？（要知道，GPT-2模型參數量都有15億）

最後，是關於模型能否聯網的問題。

看起來，它還不會實時聯網，關於網易和暴雪的新聞只能追溯到幾年前的消息：

用戶也不能通過指令直接讓它訪問某個網站，查詢特定信息，應該是加了某些限制：

不過有意思的是，它還是聲稱自己需要聯網工作，以訪問特定信息數據：

據訊飛星火認知大模型介紹，目前它的訓練數據還在繼續更新。

換而言之，就是還在繼續迭代，估計在正式發布前還會更新一版模型。

目前來看，科大訊飛的這個訊飛星火認知大模型，表現已算不錯。

而且要知道，訊飛原計劃給出的交卷時間是5月6日，現在突然發佈內測，相當於不僅沒跳票，還“反向跳票”了一波。

這樣來看，除了科大訊飛在這NLP和認知智能方面確實有很深的技術積累以外，也說明，訊飛的技術和工程團隊實戰能力值得關註一波——不僅能打硬仗，而且“說到做到”。

現在距離正式發布還有10天，你期待訊飛的大模型迭代出什麼新效果？

來源：量子位

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

訊飛星火認知大模型Spark Desk提前交卷第一時間上手淺測

2023-04-26 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆