Google聲稱Bard AI在數學和編程方面有所進步
被認為陷入困境的Google人工智能聊天機器人Bard正在慢慢改進涉及邏輯和推理的任務。這是根據這家科技巨頭今天發布的一篇博客文章得出的結論,這表明——由於一種稱為“隱式代碼執行”的技術,Bard現在在數學和編碼領域得到了專門的改進。
正如博客文章所解釋的那樣,大型語言模型(LLM)(例如Bard)本質上是預測引擎。當給出提示時,他們會通過預測句子中接下來可能出現的單詞來做出響應。這使他們成為非常優秀的電子郵件和論文作者,但對於軟件開發人員來說,它有些有些容易出錯。
你可能會說——像GitHub 的Copilot 和亞馬遜的CodeWhisperer 這樣的代碼生成模型呢?這些不是通用的。與Bard 和ChatGPT 沿線的競爭對手不同,後者使用來自網絡、電子書和其他資源的大量文本樣本進行訓練,Copilot、CodeWhisperer 和類似的代碼生成模型幾乎完全在代碼樣本上進行訓練和微調。
為了解決一般LLM 中的編碼和數學缺陷,Google 開發了隱式代碼執行,允許Bard 編寫和執行自己的代碼。最新版本的Bard 識別可能受益於邏輯代碼的提示後編寫代碼對其進行測試並使用結果生成表面上更準確的響應。
根據內部基準測試,Google表示,與之前的Bard 版本相比,新的Bard 對“基於計算的”單詞和數學問題的反應提高了30%。當然,我們必須在現實中觀察這些說法是否經得起外部測試。
“即使有了這些改進,Bard 也不會總是正確——例如,Bard 可能不會生成代碼來幫助快速響應,它生成的代碼可能是錯誤的,或者Bard 可能不會在其響應中包含已執行的代碼,”Bard 產品負責人Jack Krawczyk 和工程副總裁Amarnag Subramanya 在博文中寫道。“綜上所述,這種通過結構化、邏輯驅動的能力進行響應的改進能力是使Bard 變得更有幫助的重要一步。”
當Google今年早些時候推出Bard 時,它並沒有將其與Bing Chat 和ChatGPT 等產品相提並論。事實上,這次推出有點像一場災難,輸出的錯誤答案短暫地使公司股價下跌了8%。
據報導,在發布Bard 之前對其進行測試的幾名Google員工對這家搜索巨頭提出了嚴重的擔憂,其中一人稱其為“病態的騙子”,而另一人則認為其“比無用還糟糕”。
通過隱式代碼生成和其他增強功能,如支持新語言、多模式查詢和圖像生成,Google回應了批評——並試圖扭轉局面。
不過,它是否足以跟上該領域領先的生成式AI 聊天機器人的步伐還有待觀察。最近,Anthropic 推出了一個人工智能聊天機器人模型,它具有大大擴展的“上下文窗口”,這使得模型可以相對連貫地交談數小時甚至數天,而不是幾分鐘。ChatGPT 背後的開發者OpenAI 已經開始支持使用外部知識和技能增強ChatGPT 的插件。