ChatGPT官宣提升了“真實性”和“數學能力”
隨著ChatGPT 熱度一直不減,OpenAI 持續拓展其能力。同時,ChatGPT 的競品不斷湧現,如何更準確檢測其生成文本也成為了近來學界的一大研究課題。自ChatGPT 發布以來,它的能力不斷被人們解鎖,比如寫神經網絡、做智能音箱。人們在試用中慢慢發現,數學能力是ChatGPT 的一大短板,連簡單的“雞兔同籠”題都能算錯。
大概是考慮到了這一點,ChatGPT 剛剛宣布了一次重要更新:提升了“真實性”和“數學能力”。
本次是ChatGPT 自去年11 月推出以來的第三次更新,但由於“更新說明”過於模糊,人們還需要經歷一個對新能力的探索過程。
幾日前,計算機科學家、Wolfram 語言之父Stephen Wolfram 將理工科神器Wolfram|Alpha 與ChatGPT 結合起來,為後者註入超強計算知識實現互補,效果相當不錯。
那麼,這次更新之後的ChatGPT 數學能力可與其一戰嗎?
看起來…… 對比的結果不盡如人意:
“只能說神經網絡不是用來幹這個的”,Sebastian Raschka 都覺得無奈了。
還有人發現,升級後的ChatGPT“脾氣逐漸暴躁”:
“你數學是哪位老師教的?”面對一道十以內加減法的題目,它的語氣像極了輔導孩子作業的家長。
這也許是“偶然現象”?看來數學是真難。
不管怎麼說,我們可以期待一波後續的有趣Demo 了。
太捲了:ChatGPT 和它的競爭者們
“未來6 到12 個月將帶來實驗的爆炸式增長,一旦公司能夠使用OpenAI 的API 在ChatGPT 之上構建。出現的殺手級用例可能是圍繞生成式AI 對知識管理的影響。”
Nicola Morini Bianzino。
在最近的一次公開活動上,安永全球首席技術官Nicola Morini Bianzino 表示,目前還沒出現在企業中使用ChatGPT 的“殺手級”用例。但這種狀態可能很快就會改變,他預測未來6 到12 個月將帶來大量實驗,尤其是當公司能夠使用OpenAI 的API 在ChatGPT 上構建之後。
Bianzino 將生成式AI 對知識管理的影響描述為“AI 的辯證法”。“知識公司傾向於以一種非常扁平的二維方式存儲知識,這使得訪問、互動和對話變得困難。我們在20、30、40 年前嘗試構建專家系統。這並不是很順利,因為它們太死板了。我認為這項技術有望克服專家系統存在的許多問題。”Nicola Morini Bianzino 表示。
與此同時,ChatGPT 的競爭者們也不斷湧現,這個賽道變得越來越“卷”。從Anthropic 公司的Claude、DeepMind 公司的Sparrow、Google公司的L AMD A 到Character AI,每天似乎都有新競爭者步入賽場。
Anthropic是一家舊金山的初創公司,由幾位離開OpenAI 的研究人員於2021 年創立。公司成立不到一年後就宣布了高達5.8 億美元的融資,上週五還被報導即將增加3 億美元融資。
這家公司開發了一個名為“Claude”的AI 聊天機器人,目前通過Slack 集成在封閉測試版中可用,據報導它與ChatGPT 相似,甚至有一些改進。Anthropic 描述自身的使命為“致力於構建可靠、可解釋和可操縱的AI 系統”。
DeepMind同樣是這條賽道上不可忽視的力量。這家公司在9 月份的一篇論文中介紹了“Sparrow”,被譽為“朝著創建更安全、偏差更小的機器學習系統邁出的重要一步”。Sparrow 是“一種有用的對話智能體,可以降低不安全和不適當答案的風險”,旨在“與用戶交談、回答問題並在有助於查找證據”。
不過,DeepMind 的安全研究員、 Sparrow 論文的主要作者Geoffrey Irving 表示,DeepMind 認為Sparrow 是一個基於研究的概念驗證模型,尚未準備好部署。
在兩週前的《時代周刊》文章中,該公司的首席執行官兼聯合創始人Demis Hassabis 表示,DeepMind 正在考慮在2023 年的某個時候發布其聊天機器人Sparrow 的“私人測試版”。如此一來,公司就可以開發基於強化學習的功能,比如引用來源—— 這是ChatGPT 所沒有的能力。
再說到Google的LaMDA,這一模型曾在去年夏天引發過熱議—— Google工程師Blake Lemoine 因聲稱LaMDA 具有感知能力而被解僱。
即使不像Lemoine 認為的那樣,LaMDA 仍被認為是ChatGPT 最大的競爭對手之一。Google在2021 年發布的博客文章中表示,LaMDA 的對話技巧“已經醞釀多年”。與ChatGPT 一樣,LaMDA 建立在Transformer 架構之上,也接受過對話方面的訓練。
根據Google的說法,“在訓練期間,LaMDA 發現了一些將開放式對話與其他形式的語言區分開來的細微差別。”
《紐約時報》在1 月20 日的一篇報導中提到,Google創始人Larry Page 和Sergey Brin 上個月會見了公司高管,討論了ChatGPT 可能對Google 1490 億美元的搜索業務構成的威脅。Google發言人在一份聲明中表示:“我們繼續在內部測試我們的AI 技術,以確保它有用且安全,我們期待盡快與外部分享更多經驗。”
另外一位頗具實力的玩家則是Character AI,這家公司由Transformer 論文作者之一Noam Shazeer 創辦,逐漸為人熟知。
該公司推出的AI 聊天機器人技術允許用戶與任何人聊天或進行角色扮演,比如模仿伊麗莎白女王和莎士比亞等歷史人物。目前該技術是免費使用的,Character 正在“研究用戶如何與之互動,然後再製定具體的創收計劃。”
傳百度將發布類似ChatGPT 的聊天機器人
更能引起國內AI 從業者關注的是,據路透社、彭博社等多家外媒報導稱,百度公司計劃在3 月份推出類似於OpenAI 的ChatGPT 的人工智能聊天機器人服務。
消息人士稱,百度計劃在用戶提出搜索請求時整合聊天機器人生成的結果,而不僅僅是鏈接。“該工具尚未命名,將嵌入在主搜索服務中,用戶將返回對話風格的搜索結果。”
在去年12 月在一次內部討論中,百度CEO 李彥宏曾分享自己對ChatGPT 的看法:“把這麼酷的技術變成人人需要的產品”才是最難的,希望百度新的一年“至少能有一個高成長、有創新的業務,真正的above and beyond our expectation”。
而據《科創板日報》1 月30 日報導,百度內部確有推出類似ChatGPT 聊天機器人的規劃,但具體時間並不精確。百度CEO 李彥宏對於該項目的定位是“引領搜索體驗的代際變革”。他在內部指出,相關技術已達到臨界點,百度在其中有較大的機會。
檢測利器:讓大型語言模型生成的文本無處隱藏
ChatGPT 的能力縱然強大,但同時它在學校作業、論文發表等領域的濫用已經引發了人們廣泛的擔憂。因此,學界開始探索檢測ChatGPT 等大型語言模型(LLM)生成文本的方法和工具。
馬里蘭大學幾位研究者對ChatGPT 等語言模型輸出的水印進行了研究。在論文《A Watermark for Large Language Models》,他們提出了一種高效水印框架,水印的嵌入對文本質量的影響忽略不計,可以使用高效的開源算法進行檢測,而無需訪問語言模型的API 或參數。
本文方法可以檢測到比較短的合成文本(少至25 個tokens),同時使得人類文本在統計學上不可能被標記為機器生成。
斯坦福大學幾位研究者在論文《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》中,證明了從LLM 中採樣的文本傾向於佔據模型對數概率函數的負曲率區域。利用這一觀察結果,他們定義了一個基於曲率的新標準,來判斷一段文章是否由給定的LLM 生成。
研究者將他們的方法稱為DetectGPT,它不需要訓練單獨的分類器、收集真實或生成段落的數據集以及顯式地為生成文本加水印。DetectGPT 僅使用感興趣模型計算的對數概率和另一通用預訓練語言模型(如T5)生成段落的隨機擾動。
結果發現,DetectGPT 比當前模型樣本檢測的零樣本方法更具辨別力,尤其是將20B 參數GPT-NeoX 生成的假新聞報導檢測從最強零樣本基線的0.81 AUROC 提升到了0.95 AUROC。未來將公佈代碼和數據。
DetectGPT 檢測GPT-3 生成文本的示意圖。
除了以論文形式展現的檢測方案,也有個人推出了強大的檢測工具。比如一位來自Hive AI、致力於ChatGPT 檢測器研究的ML 工程師,其方案能夠識別ChatGPT、GPT-3 和其他流行AI 引擎生成的文本。
從內部基準測試結果來看,該方案效果明顯優於GPTZero 和OpenAI GPT2 Output Detector 等類似方法。在內部數據集上,模型平衡準確率> 99%,而GPTZero 的準確率約為60%,OpenAI GPT2 Output Detector 的準確率為84%。
最後,GPTZero 也迎來了更新——GPTZe roX,一個專為教育者打造的全新AI 檢測模型。該模型可以混合處理AI 生成和人類文本,並突出顯示最有可能由AI 生成的文本部分。此外構建了一個pipeline 來處理PDF、Word 和.txt 格式的文件批量上傳,從而輕鬆運行多個文件。
總之,隨著AI 生成文本檢測工具的日益豐富和日加完善,ChatGPT 等大型語言模型在應用時勢必會越來越正規,幫助人們更高效地釋放AI 的能力。