大神卡帕西安利爆火AI應用稱“或下一個ChatGPT”

2024-10-01 Comments 0 Comment

大神卡帕西牆裂推薦！甚至預言這個AI應用，有可能開啟「和ChatGPT一樣大的機會」。它就是來自Google的實驗性AI產品，Notebook LM，背後由Google現在最強大的模型Gemini 1.5 Pro提供支援。

最近這應用要多火就有多火，全因上線了一項新功能——

上傳文件（文字、音訊、視訊），AI不僅能幫忙用文字提煉要點，還可以透過音訊概述（Audio Overview）功能，把文件轉換成AI生成的對話播客，根據文件內容進行討論。

2個AI，用真人般的語音和口吻，圍繞文件內容激情討論，最後總結陳詞。

這真的很酷！

而且不是卡帕西一個人在誇。逛了下網路幾大平台，網友們對Notebook LM普遍還是挺買帳的。

AI界的KOL@elvis也在卡帕西評論區留言：

卡神稱這“讓人想起ChatGPT時刻”，絕對不是誇大其詞！

真正讓多種模型結合運作，會解鎖Notebook LM這樣獨特的內容格式和使用者體驗。

Notebook LM怎麼玩？

玩法很簡單，打開試玩頁面，拖曳上傳需要處理的檔案。

可以是Google文檔，可以是網站和視頻鏈接，甚至乾脆粘貼一大段文本都可以。

每個筆記本支援上傳50個文件，每個文件內容上限500000個單字。

這裡我們上傳了OpenAI o1的System Card文檔，接下來就可以選擇需要建立的內容。

內建支援問答、小測驗、目錄、時間軸、摘要等文字版功能，以及兩位主持人的深度對話音訊內容。

如果有更個人化的需求也可以自己敲prompt。

我們嘗試用中文提問，結果AI是可以理解的。

很可惜的是Notebook LM不支援用中文回答，即使刻意要求也不行。

選擇建立音訊的話，視文檔長度需要等待幾分鐘到十幾分鐘。

趁這個時間來了解這背後的Gemini模型～

NotebookLM由Gemini 1.5 Pro來支持，也就是Google家目前旗艦級大模型。

Gemini 1.5 Pro支援超長128k上下文，這是能解讀長文件的基礎。

在最近的升級中，Gemini 1.5 Pro數學和推理能力也反超OpenAI o1預覽版。

好了，剛才生成的音訊也處理完畢，英文好的朋友可以來聽聽看。

英文沒那麼好的朋友，也可以看看套娃AI轉寫、翻譯出來的AI播客文字版，感受一下。

單純的上傳文檔，生成內容，還只是Notebook的實用玩法之一。

還有人介紹了學生上課錄音，回家用AI整理重點的玩法，也廣受好評。

（不是自己不聽課了的意思）

具體來說，可以遵循以下步驟：、

上課時用手機錄音；

上課期間不需要用電腦，只要（紙筆）記下簡短的重點；

（下課後）把錄音和筆記掃描上傳到NotebookLM，讓它依照錄音細節擴寫筆記。

另外，還可以每週創建一份對所學內容重點的複習音訊。

一種與單純Chat不同的互動範式

其實，NotebookLM並不是出道即爆火。

早在去年5月的Google I/O大會上它就已經出現了，不過那個時候，作為AI筆記本專案的它還叫做Project Tailwind。

到了去年7月，NotebookLM它才改成現在的名字。

起初，只支援美國局部地區的使用者食用；功能也還是圍繞著基礎的Chat模式。

NotebookLM自動產生文件指南（來自Google官網）

到了這個月11號，NotebookLM突然宣布對全球玩家開放，並且新增了重磅功能，音訊概述。

Google給的官方介紹是這樣的：

“新的音訊概述功能，可以一鍵將文件、幻燈片、圖表等轉化為引人入勝的討論。”

因為互動形式很新、AI語音逼真、討論起來真的很像真人播客，大家一下就玩嗨了。

到這兩天，Notebook LM不僅已經能夠把Youtube影片當作輸入，還已經支援超100種語言。

現在，卡帕西的下場“示愛”，更為Notebook LM的熱度添了一把火。

如卡帕西所說，Notebook LM爆火最主要的原因，是它提供了與單純Chat不同的互動範式。

卡帕西表示，Notebook LM消除了大模型的兩大享受障礙：

第一點，聊天其實還挺難的。

有些人在日常生活中跟人交流都費盡心力，更別提要和Chatbot聊天，還得不停提問、追問。

NotebookLM好就好在，生成的二AI播客，其中有一方就會處於提問、引導角色。

咱把文件、影音放進去，等待生成，美美聽AI根據文件嘮就是了。

第二點，閱讀不是件容易的事。

資訊爆炸的碎片化時代，挑個舒服的姿勢，或是開車時候聽別人討論我需要的東西，比自己費勁吧啦擱那兒看容易得多。

——就算看的是AI已經幫我們總結出來的凝練版本（哎，沒錯，咱就是這麼懶！doge）。

本著精益求精的精神，也有網友表示了對Notebook LM更上一層樓的期待。

Hyperbolic Labs的聯創兼CTO Yuchen Jin試玩過後，總結了兩個限制：

一個是它「看不到」，也就是沒辦法處理文件裡的圖片資訊。

不過背後的Gemini是多模態的嘛，比起Notebook LM長眼不會太晚。

另一個是使用者無法引導AI播客的內容。

Yuchen Jin餵給它兩則推文，它就產生了近13分鐘的音訊內容，但它預設聽眾是一般受眾，所以講了很多很基本的概念。

如果能指定生成播客的目標群體，或是談論主題、方向、角度，那真的是棒上加棒。

One More Thing

說時遲那時快，開發者搞出開源版的NotebookLM了！

不過暫時只能餵它PDF嗷。

咱就是說，人類真有意思哈！

以前在音訊轉文字方面費勁，追求把廣播、會議錄音的轉成文字。

現在又開始用大模型把文字轉成播客了…

有意思哇有意思哇（狗頭）。

參考連結：

[1]https://notebooklm.google/

[2]https://x.com/karpathy/status/1840112692910272898

[3]https://x.com/omarsar0/status/1840145774874898506

[4]https://x.com/Yuchenj_UW/status/1840203324571943403

[5]https://github.com/gabrielchua/open-notebooklm

WONGCW 網誌

記錄生活經驗與點滴

大神卡帕西安利爆火AI應用稱“或下一個ChatGPT”

2024-10-01 Comments 0 Comment

相關

發表迴響取消回覆

2024 年 10 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

分享此文：

相關

發表迴響取消回覆