Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

下一代AlphaGo,裸考也能拿滿分

下一代AlphaGo,裸考也能拿滿分

2021-01-02 Comments 0 Comment

如果說AlphaGo 確立了AI 的“圍棋霸權”,那懂得自己思考的MuZero,可能會在更多領域確立“霸權”。Google 母公司Alphabet 旗下的DeepMind,在這一個月里大動作頻出。先是在月初推出了蛋白質結構預測AI——AlphaFold 2,這個AI 在CASP 競賽中拔得頭籌,解決了困擾了學界50 年的難題:

生物學家Andrei Lupas 本人花了十年時間,用盡各種實驗方法也沒能弄清楚一種蛋白質折疊後的形狀,但藉助AlphaFold 2 後,他在半個小時內就得到了答案。

接著,在月底,DeepMind 在《自然》雜誌上發布論文介紹“進階版AlphaGo”——MuZero。簡單來說,MuZero 更“通用”了,它精通國際象棋、圍棋、將棋,還能在數十款Atari 遊戲上全面超越過去的AI 算法和人類。但更具革命意義的是,MuZero 不像它的前輩們,它在下棋和遊戲前完全不知道遊戲規則,完全是通過自己的試驗和摸索,洞悉棋局和遊戲的規則,形成自己的決策。換句話說,AI 會自己“動腦子”了。

MuZero 就像是Netflix 熱劇《女王的棋局》裡的貝絲·哈蒙,在完全不知國際象棋規則的情況下,憑藉幾次觀察就把棋盤“畫”在自己的心裡,並通過不斷复盤棋局強化自己的直覺,最終所向披靡。

不知道規則,怎麼贏棋?

2016 年,AlphaGo 橫空出世,以4:1 擊敗韓國頂級棋手李世乭,並在2017 年的烏鎮圍棋峰會上擊敗了世界第一棋手柯潔。中國圍棋協會甚至當即授予AlphaGo 職業圍棋九段的稱號。

AlphaGo 依賴的還是DeepMind 輸入的專家棋法數據集,然後它的繼任者AlphaGo Zero 開始擺脫對“人類數據”的依賴,開始通過多次自我對弈積累所需數據。2018 年底問世的AlphaZero 更是在前兩者的基礎上迭代,除了圍棋,它還學會了將棋和國際象棋。讓人嘆為觀止的是,從第一次見到棋盤,到成為世界級棋類大師,AlphaZero 只用了24 小時。

“但你不能像下棋一樣,只顧著往前看。你必須學習這個世界如何運作。”DeepMind 的首席研究科學家David Silver 告訴《連線》,按照這個思路,他們決定不提前告訴AI 該怎麼贏了,“這是我們第一次打造這種系統”。

上面提到的“Alpha”家族,最早需要“人類數據”、“領域知識”和“遊戲規則”,至少也還需依賴“遊戲規則”。而剛面世的MuZero 則沒有這些知識儲備,就像是下棋被蒙著眼,玩遊戲背著手。

“Alpha”家族至少也還需依賴“遊戲規則”,而剛面世的MuZero 則沒有任何知識儲備|DeepMind

既然MuZero 連怎麼贏棋都不知道,那它又是如何學習世界運作原理的呢?先以AlphaZero 為例,由於它已經知曉棋局的規則,所以它知道一個動作後的下一個棋步是什麼樣的,運用深度學習中的“蒙特卡洛樹搜索”(MCTS)就能評估不同的下棋可能性,並從中選出最優的動作。在這個過程中,AlphaZero 只需要利用“預測網絡”這一神經網絡。

而MuZero 不知道現有的規則,那麼只能從零開始構建一個內部模型,形成自己對棋局的理解。首先,MuZero 會利用“表徵網絡”將自己觀察到的棋步收集起來,轉化為專屬於自己的知識;

接著,利用“預測網絡”形成策略(即最好的“下一步”是什麼),判斷價值(即當前決策“有多好”);

最後,借助“動態網絡”判斷“上一步有多好”,回收此前做出的最佳棋步,不斷完善自己的內部模型。

也就是說,MuZero 並沒有具體的“行事準則”,它就像是一個小孩,在有了一定思考能力的基礎上,正在不斷完善自己的行事準則。在此之前,“AlphaGo”雖能輕鬆擊敗人類,但也只限於圍棋等專精領域,卻無法“觸類旁通”,每遇到新的遊戲都需要更改框架,重新學習。而掌握了“思考方式”的MuZero 顯然能做得更多了,也就是,更通用了。

“知道雨傘能讓人不被淋濕,比能對雨滴建模更有用。”DeepMind 用這句話表示,對AI 來說,它們會的本領看起來越笨,越有實際意義。

在遊戲方面,以研究AI 打撲克出名的FAIR 研究科學家Noam Brown 這樣評價MuZero:“當前人們對遊戲AI 的主要批評是模型不能對現實世界中相互作用進行準確建模。MuZero 優雅而令人信服地克服了這個問題(適用於完美信息遊戲)。我認為,這是可以與AlphaGo 和AlphaZero 相提並論的重大突破!”

這個會思考的AI,能做什麼?

DeepMind 研究表示,MuZero 在不具備任何底層動態知識的情況下,通過結合MCTS 和學得模型,在各種棋類種的精確規劃任務中可以匹敵AlphaZero,甚至超過了提前得知規則的圍棋版AlphaZero 。

在實驗中,只要為MuZero 延長每次行為的時間,它的表現就會變得更好。隨著將每次行動的時間從十分之一秒增加到50 秒,MuZero 的能力會增加1000 Elo(衡量玩家的相對技能),這基本相當於熟練的業餘玩家和最強的職業玩家之間的區別。

開始自我思考的MuZero 就像人一樣。現實世界混沌、複雜,人們也沒有具體的行事手冊,只能摸著石頭過河,慢慢形成自己的規劃能力,進而製定下一步該怎麼做的策略。

那麼,MuZero 能做什麼?

《連線》記者提到了在生化界做了件“大實事”的蛋白質結構預測AI,接著問起了MuZero 的實用價值。David Silver 表示,MuZero 已經投入實際使用,用於尋找一種新的視頻編碼方式,從而完成視頻壓縮。考慮到大量不同的視頻格式和眾多的壓縮模式,能節省5% 的比特已經是極具挑戰的任務。“互聯網上的數據大部分是視頻,那麼如果可以更有效地壓縮視頻,則可以節省大量資金。”由於Google 擁有世界上最大的視頻共享平台YouTube,因此他們很可能將MuZero 其應用到該平台上。

David Silver 對它的造物有足夠的自信|WIRED

David Silver 想得更遠,“一個真正強大的系統,它能看到所有你看到的東西,它有和你一樣的感官,它能夠幫助你實現目標。另外一個變革性的,從長遠來看,(MuZero 的『強化學習』思路)是可以提供個性化的醫療解決方案的東西。有一些隱私和倫理問題必須解決,但它會有巨大的價值,它會改變醫學的面貌和人們的生活質量。”

目前,“Alpha 家族”這種規划算法也已經在物流、化學合成等諸多現實世界領域中產生影響。然而,這些規划算法都依賴於環境的動態變化,如游戲規則或精確的模擬器,導致它們在機器人學、工業控制、智能助理等領域中的應用受到限制。

而不再“循規蹈矩”的MuZero,先摸索規則、建立內部模型再精通的思路,顯然具有更強的可塑性。會自己思考的AI,離通用AI 會更近一些。

“我不想給它設定一個時間尺度,但我想說,人類能實現的一切,我最終認為機器都能實現。大腦完成的只是一個計算過程,我不認為那裡有什麼神奇的東西。”David Silver 對它的造物有足夠的自信。

如果說AlphaGo 確立了AI 的“圍棋霸權”,那懂得自己思考的MuZero,可能會在更多領域確立“霸權”。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
利用AI技術智能放大圖片視頻的神奇軟件馬賽克一鍵變無碼高清
NEXT
全國最大單體地鐵車站:蕭山國際機場站正式開通

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2021 年 1 月
一 二 三 四 五 六 日
 123
45678910
11121314151617
18192021222324
25262728293031
« 12 月   2 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 索尼又鎖區過百國家無法遊玩《星刃》 2025-05-16
  • 育碧將下架多款經典遊戲公司稱其有權這麼做 2025-05-16
  • 川普急簽中東AI大單惹惱對華強硬派 2025-05-16
  • 美教授AI講義漏洞百出大學生怒討8000美元學費 2025-05-16
  • 奧特曼嘲諷馬斯克AI翻車:追求真相的AI卻在輸出陰謀論 2025-05-16
  • 東南亞人群基因體研究領域取得里程碑突破 2025-05-16
  • 雷軍最新演講曝光:一場意外給小米帶來巨大質疑不再是產業新人 2025-05-16
  • “中東矽谷”?美國、阿聯酋宣布將聯手打造5吉瓦超級AI園區 2025-05-16
  • Google One訂閱服務的用戶數量達1.5億 2025-05-16
  • 巴菲特第一季大幅減持銀行股蘋果仍是最大重倉股 2025-05-16

熱門文章與頁面︰

  • 您可以在Windows 11 24H2 中找回WordPad
  • 「三體運算」衛星星座成功發射一箭12星
  • NVIDIA對川普的迎合促成了AI技術擴散限制的逆轉以及對華為的進一步壓制
  • 黃仁勳將出席台北電腦展成焦點更多AI合作曝光
  • 假期3天不調休端午假期火車票即將開售
  • Waymo透露第六代無人駕駛計程車細節:成本更低、功能更強
  • 76%美國汽車高層認為中國電動車登陸美國是遲早的事
  • 華為折疊PC將在5月19日正式發布
  • 英偉達CEO黃仁勳:不會使用人工智慧的人將失業
  • 結婚12年後一女子因ChatGPT解讀咖啡渣指控丈夫出軌而提出離婚

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.