AI在金融領域碰壁最強大模型也無法準確分析SEC的文件
要說人工智慧大模型最強大的能力,那肯定是最基礎的文字處理功能,但一家名為Patronus AI的新創公司的研究人員發現,即使是目前最強大的大模型,也無法準確分析美國證券交易委員會(SEC)的企業財報文件。
OpenAI的GPT-4-Turbo應該說是目前市場上表現最好的人工智慧模型了,而在Patronus AI的最新測試中,針對SEC文件的問題,只有79%的答案是正確的。
Patronus AI 聯合創始人Anand Kannappan 和Rebecca Qian
讓普通人工智慧工具回答這類問題的話,一般不是無法回答,就是會出現“幻覺”,也就是胡編亂造SEC文件中沒有的數字和事實。
Patronus AI的聯合創始人Anand Kannappan表示:“這樣的性能是絕對不可接受的,它的準確率必須要高得多,才能真正以自動化和生產就緒的方式開始工作。”
這些發現突顯了人工智慧模型面臨的一些挑戰,因為大公司,尤其是金融等受監管行業的大公司,正尋求將尖端技術納入其業務,無論是客戶服務還是數據研究方面。
自去年年底ChatGPT發布以來,快速提取重要數字和文字,並對財務報表進行分析的能力一直被視為聊天機器人最有前途的應用之一。而SEC的備案文件充滿了重要的數據,如果人工智慧能夠準確地總結這些數據,或者快速回答有關其中內容的問題,它可能會讓用戶在競爭激烈的金融業中佔據優勢。
因此,各大投資銀行和金融公司都在對此進行佈局。全球最大的財經資訊公司彭博社發布了專為金融領域打造的大模型BloombergGPT,商學院教授研究了ChatGPT是否可以分析金融頭條新聞,摩根大通正在開發一種人工智慧驅動的自動投資工具。麥肯錫最近的一項預測稱,生成式人工智慧每年可以為銀行業帶來數兆美元的收入。
金融領域應用
但人工智慧進入金融業並不順利。當微軟首次使用OpenAI的大模型推出必應聊天機器人時,它的主要例子之一就是快速總結業績新聞稿。觀察家很快就意識到,微軟發布的數字是錯誤的,有些數字甚至完全是編造的。
Patronus AI的聯合創始人指出,將大模型納入實際產品的部分挑戰在於,它是不確定的——它們不能保證每次都會對相同的輸入產生相同的輸出。這意味著公司需要進行更嚴格的測試,以確保它們正確運行,不偏離主題,並提供可靠的結果。
Patronus AI測試了四種大模型:OpenAI的GPT-4和GPT-4- turbo, Anthropic的Claude2和Meta的Llama 2。在進行了相關測試之後,Patronus AI兩位共同創辦人對大模型的糟糕表現感到驚訝。
Patronus AI的Rebecca Qian指出:“令人驚訝的是,大模型們經常拒絕回答問題,拒絕回答率非常高,即使答案在語境中,即使是普通人也能回答的問題。”
不過,該公司也認為,如果人工智慧繼續進步,像GPT這樣的大模型將有巨大的潛力來幫助金融業的人們——無論是分析師還是投資者。
OpenAI的一名代表指出,該公司的使用指南禁止在沒有合格人員審查資訊的情況下,使用OpenAI模型提供量身定制的金融建議,並要求任何在金融業使用OpenAI模型的人提供免責聲明。OpenAI的使用政策也表示,OpenAI的模型並沒有經過微調,無法提供財務建議。