OpenAI官宣推出多模態ChatGPT 能看、能聽、還會說

2023-09-26 Comments 0 Comment

北京時間週一晚間，人工智慧領域的知名創業公司OpenAI發布題為《ChatGPT現在能看、能聽、能說》的公告，宣布將在未來兩週時間裡向付費用戶推送這項功能。在今年3月GPT-4的發表會上，最令人震驚的一幕應該是，OpenAI總裁Greg Brockman拿著一張草稿紙畫了個草圖，隨手拍了張照就讓GPT-4在10秒鐘時間裡產生了這個網站的程式碼。

（圖片來源：OpenAI）

ChatGPT先前曾推出能上傳圖片的「程式碼解釋器「功能，具備了一些初步處理圖像和文字照片的能力。但毫無疑問，今天這個「隨手拍、隨心問」才更貼近大多數用戶的AI助理使用場景。

拍冰箱照片告訴你今晚吃啥

依照標題的順序，今天更新的功能主要有兩點：基於圖片的對話，以及即時語音對話。

先說關注度非常高的圖片聊天功能。根據OpenAI的說法，用戶現在可以拍一張冰箱的照片，然後讓ChatGPT來推薦食譜；在旅行時拍攝一張地標的照片，讓ChatGPT來講述這處景點的有趣之處。當然，也能拍一張數學題的照片，讓ChatGPT來解答。

在官方給出的例子中，給到ChatGPT一張自行車的照片，問它如何把座椅調低。然後ChatGPT表示看你車的型號，有的車有快拆桿，有的是用螺栓固定，然後給了詳細的步驟。

隨後官方裝作不懂，拍了一張螺栓的照片，並用官方畫圖工具圈出來以示強調，然後問ChatGPT這是不是快拆桿。ChatGPT表示你這個是螺栓，得去找一個內六角扳手。

隨後官方又拍了一張工具箱的照片，問ChatGPT到底是哪一支扳手。ChatGPT也順利地認出了扳手，並且準確地提示使用者到底要拿哪一個尺寸。

ChatGPT會說話啦！

除此之外，OpenAI也將語音辨識、轉錄和音訊產生功能打包，推出了AI語音聊天的功能，這項功能只適用於iOS和安卓客戶端。官方表示，用戶可以用這項功能為家中的小孩講睡前故事。或是家裡吃著飯，突然為某個問題吵起架來，這時候就可以把ChatGPT拍在桌面上解決爭論。

OpenAI介紹稱，這項功能使用了Whisper開源語音辨識系統，將用戶所說的話轉錄成文字。同時也用上了新的文字轉語音模型，並與專業配音員合作，提供5種可供使用者自行選擇的聲音。

更先進的AI也有新的風險和局限性

OpenAI表示，新的語音技術能夠僅透過幾秒鐘的真實語音創造出逼真的合成聲音。這種功能打開了創造力的大門，也帶來了新的風險——例如不法分子可能會偽造公眾人物進行詐欺。所以OpenAI的決策是透過「語音聊天」這樣的特定用例來推出這項功能。

同時OpenAI也在與更多的機構展開合作。例如串流媒體公司Spotify就在試用這項功能來進行語音翻譯，透過使用播客主持人的聲音將播客音訊翻譯成其他語言，幫助播客主持人擴大他們的全球影響力。

影像也會帶來新的挑戰，例如幻覺問題，以及使用者在高風險領域卻依賴模型對影像的解釋。因此在上線前，OpenAI也對極端主義和科學能力等領域進行了風險測試。

另外對看到這篇文章的中文讀者來說，圖片對話的體驗大概率值得期待，但語音對話可能要打一些折扣。OpenAI表示，該模型擅長轉錄英文文本，但在一些其他語言，特別是那些使用非羅馬字母的語言中表現不佳，建議非英語使用者不要使用ChatGPT來進行此類用途。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

OpenAI官宣推出多模態ChatGPT 能看、能聽、還會說

2023-09-26 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆