大神卡帕西安利爆火AI應用稱“或下一個ChatGPT”
大神卡帕西牆裂推薦!甚至預言這個AI應用,有可能開啟「和ChatGPT一樣大的機會」。它就是來自Google的實驗性AI產品,Notebook LM,背後由Google現在最強大的模型Gemini 1.5 Pro提供支援。
最近這應用要多火就有多火,全因上線了一項新功能——
上傳文件(文字、音訊、視訊),AI不僅能幫忙用文字提煉要點,還可以透過音訊概述(Audio Overview)功能,把文件轉換成AI生成的對話播客,根據文件內容進行討論。
2個AI,用真人般的語音和口吻,圍繞文件內容激情討論,最後總結陳詞。
這真的很酷!
而且不是卡帕西一個人在誇。逛了下網路幾大平台,網友們對Notebook LM普遍還是挺買帳的。
AI界的KOL@elvis也在卡帕西評論區留言:
卡神稱這“讓人想起ChatGPT時刻”,絕對不是誇大其詞!
真正讓多種模型結合運作,會解鎖Notebook LM這樣獨特的內容格式和使用者體驗。
Notebook LM怎麼玩?
玩法很簡單,打開試玩頁面,拖曳上傳需要處理的檔案。
可以是Google文檔,可以是網站和視頻鏈接,甚至乾脆粘貼一大段文本都可以。
每個筆記本支援上傳50個文件,每個文件內容上限500000個單字。
這裡我們上傳了OpenAI o1的System Card文檔,接下來就可以選擇需要建立的內容。
內建支援問答、小測驗、目錄、時間軸、摘要等文字版功能,以及兩位主持人的深度對話音訊內容。
如果有更個人化的需求也可以自己敲prompt。
我們嘗試用中文提問,結果AI是可以理解的。
很可惜的是Notebook LM不支援用中文回答,即使刻意要求也不行。
選擇建立音訊的話,視文檔長度需要等待幾分鐘到十幾分鐘。
趁這個時間來了解這背後的Gemini模型~
NotebookLM由Gemini 1.5 Pro來支持,也就是Google家目前旗艦級大模型。
Gemini 1.5 Pro支援超長128k上下文,這是能解讀長文件的基礎。
在最近的升級中,Gemini 1.5 Pro數學和推理能力也反超OpenAI o1預覽版。
好了,剛才生成的音訊也處理完畢,英文好的朋友可以來聽聽看。
英文沒那麼好的朋友,也可以看看套娃AI轉寫、翻譯出來的AI播客文字版,感受一下。
單純的上傳文檔,生成內容,還只是Notebook的實用玩法之一。
還有人介紹了學生上課錄音,回家用AI整理重點的玩法,也廣受好評。
(不是自己不聽課了的意思)
具體來說,可以遵循以下步驟:、
上課時用手機錄音;
上課期間不需要用電腦,只要(紙筆)記下簡短的重點;
(下課後)把錄音和筆記掃描上傳到NotebookLM,讓它依照錄音細節擴寫筆記。
另外,還可以每週創建一份對所學內容重點的複習音訊。
一種與單純Chat不同的互動範式
其實,NotebookLM並不是出道即爆火。
早在去年5月的Google I/O大會上它就已經出現了,不過那個時候,作為AI筆記本專案的它還叫做Project Tailwind。
到了去年7月,NotebookLM它才改成現在的名字。
起初,只支援美國局部地區的使用者食用;功能也還是圍繞著基礎的Chat模式。
NotebookLM自動產生文件指南(來自Google官網)
到了這個月11號,NotebookLM突然宣布對全球玩家開放,並且新增了重磅功能,音訊概述。
Google給的官方介紹是這樣的:
“新的音訊概述功能,可以一鍵將文件、幻燈片、圖表等轉化為引人入勝的討論。”
因為互動形式很新、AI語音逼真、討論起來真的很像真人播客,大家一下就玩嗨了。
到這兩天,Notebook LM不僅已經能夠把Youtube影片當作輸入,還已經支援超100種語言。
現在,卡帕西的下場“示愛”,更為Notebook LM的熱度添了一把火。
如卡帕西所說,Notebook LM爆火最主要的原因,是它提供了與單純Chat不同的互動範式。
卡帕西表示,Notebook LM消除了大模型的兩大享受障礙:
第一點,聊天其實還挺難的。
有些人在日常生活中跟人交流都費盡心力,更別提要和Chatbot聊天,還得不停提問、追問。
NotebookLM好就好在,生成的二AI播客,其中有一方就會處於提問、引導角色。
咱把文件、影音放進去,等待生成,美美聽AI根據文件嘮就是了。
第二點,閱讀不是件容易的事。
資訊爆炸的碎片化時代,挑個舒服的姿勢,或是開車時候聽別人討論我需要的東西,比自己費勁吧啦擱那兒看容易得多。
——就算看的是AI已經幫我們總結出來的凝練版本(哎,沒錯,咱就是這麼懶!doge)。
本著精益求精的精神,也有網友表示了對Notebook LM更上一層樓的期待。
Hyperbolic Labs的聯創兼CTO Yuchen Jin試玩過後,總結了兩個限制:
一個是它「看不到」,也就是沒辦法處理文件裡的圖片資訊。
不過背後的Gemini是多模態的嘛,比起Notebook LM長眼不會太晚。
另一個是使用者無法引導AI播客的內容。
Yuchen Jin餵給它兩則推文,它就產生了近13分鐘的音訊內容,但它預設聽眾是一般受眾,所以講了很多很基本的概念。
如果能指定生成播客的目標群體,或是談論主題、方向、角度,那真的是棒上加棒。
One More Thing
說時遲那時快,開發者搞出開源版的NotebookLM了!
不過暫時只能餵它PDF嗷。
咱就是說,人類真有意思哈!
以前在音訊轉文字方面費勁,追求把廣播、會議錄音的轉成文字。
現在又開始用大模型把文字轉成播客了…
有意思哇有意思哇(狗頭)。
參考連結:
[1]https://notebooklm.google/
[2]https://x.com/karpathy/status/1840112692910272898
[3]https://x.com/omarsar0/status/1840145774874898506
[4]https://x.com/Yuchenj_UW/status/1840203324571943403
[5]https://github.com/gabrielchua/open-notebooklm