不用靠真人訓練的人工智慧誕生了! (上)

這是一個能自我摸索規則的人工智慧!不用靠真人訓練了!

比打敗人類棋王的AlphaGo更強！無師自通的人工智慧MuZero誕生

2016 年 DeepMind 開發的人工智慧圍棋軟體 AlphaGo 打敗了韓國棋王李世乭，成為第一個擊敗人類棋手的人工智慧AI。2018 年它的繼任者 AlphaZero 從零開始，靠自學學會西洋棋、將棋、圍棋。

最近，DeepMind 發表超越 AlphaGo、AlphaZero 的人工智慧系統 MuZero，就算不知道規則也能精通西洋棋、圍棋、將棋，以及 57 款雅達利（Atari）遊戲，甚至還能運用在壓縮影片。

▲ 來源：DeepMind 官網。

AlphaGo還需靠真人來訓練，MuZero卻能自我摸索出規則

DeepMind 過去研發出的幾款人工智慧，都在各種棋類遊戲上展現出壓倒性的優勢。但無論是 AlphaGo、AlphaGo Zero 或 AlphaZero，都是基於已知規則，再加上人類資料訓練或是自我學習訓練而成。

而最新登場的 MuZero 與其他的人工智慧AI「前輩」們最大的不同在於，它未事先輸入任何的已知規則，在未知的動態環境下能自行摸索出規則，並作出最佳的判斷。

MuZero 的拿手範圍不只圍棋、西洋棋和將棋等棋類遊戲，還包含經典電腦遊戲公司雅達利（Atari）出品的 57 款遊戲，且都拿出了亮眼的表現。

跟人類一樣的「規劃能力」　MuZero 以有限資訊做出最佳決策

2019 年 DeepMind 就曾透露過 MuZero 的存在，但直到 2020 年底才正式於《自然》期刊發表論文，詳細介紹它的能力與原理。DeepMind 表示，MuZero 最大的突破在於表現了「對未知環境的掌握能力」。

「我們只是告訴人工智慧：用你自己建構的認知，去了解這個世界怎麼運作。」曾任 AlphaGo 與 AlphaZero 首席研究科學家、現正領導 DeepMind 強化學習研究小組的 David Silver 表示，「只要內部的理解成功對上了某個現實事物，那我們就滿意了。」

▲ MuZero 不需要先備知識與規則，就能精通更多的領域。來源：DeepMind 官網。

與 AlphaGo、AlphaZero 相似，MuZero 也使用蒙地卡羅樹搜尋法（Monte Carlo tree search，MCTS），匯總神經網路的預測，並選擇適合當前環境的動作。

MCTS 是一種「最佳優先」的樹狀搜尋演算法，與傳統方法（如廣度、深度優先）相比，最佳優先搜尋利用啟發式估算法，使其在未知的搜索空間中也可以找到有效的解決方案。簡單來說，該演算法不使用學習模型，而是找出「最好的下一步是什麼」。

MCTS 的每個迴圈包括四個步驟：選擇（Selection）、擴充（Expansion）、仿真（Simulation）和反向傳播（Backpropagation）。通過重覆執行這些步驟逐步建構出樹狀圖。

▲ 蒙地卡羅樹搜尋法應用於 MuZero 的示意圖。來源：DeepMind 官網

更簡單地來說，人工智慧MuZero 會對依照三種要素建立樹狀模型：1. 當前位置、狀況的好壞；2. 最好的下一步是什麼，3. 最後會有怎樣的結果。

DeepMind 比喻，MuZero 的運作邏輯就像是「知道雨傘能讓人不被淋濕，比對雨滴建模更有用」，它只對重要的資訊進行建模，不但讓 MuZero 不懂規則也能掌握遊戲，也讓它能保持高效率、高性能。MuZero 在棋類遊戲的性能與 AlphaZero 匹敵，在雅達利遊戲上的表現更大幅超越現有的最佳系統 DQN、R2D2 與 Agent57。