「全新機制、教練先知、全面預測」對付麻將AI研發瓶頸
全新機制應對「巨大的狀態空間」
舉例來說,為了應對「巨大的狀態空間」,研究團隊引入了全新的機制:對探索過程的多樣性,進行動態調控,讓 Suphx 可以比傳統算法,更加充分地試探牌局狀態的多種可能。另一方面,一旦某一輪的底牌給定,其狀態子空間會大幅縮小;所以研究團隊讓Suphx 在推理階段根據本輪的牌局,來動態調整策略,對縮小了的狀態子空間進行更有針對性的探索,進而更好地根據本輪牌局的演進做出自適應的決策。「先知教練技術」應對「非完美資訊」
其次,對於「非完美訊息」博弈的挑戰,Suphx 創新性地嘗試了先知教練技術來提升強化學習的效果。其基本思想是在自我博弈的訓練階段,利用不可見的一些隱藏訊息,以此來引導 AI人工智慧 模型的訓練方向,使其學習路徑更加清晰、更加接近完美資訊意義下的最佳路徑,從而倒逼 AI人工智慧 模型更加深入地理解可見信息,從中找到有效的決策依據。「全盤預測技術」理解「復雜的獎勵機制」
另外,對於麻將復雜的牌面表達和計分機制,研究團隊還利用全盤預測技術搭建起每輪比賽和8輪過後的終盤結果之間的橋樑。這個預測器通過精巧的設計,可以理解每輪比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一輪比賽之中,以便對自我博弈的過程進行更加直接而有效的指導,並使得Suphx可以學會一些具有大局觀的高級技巧。 得益於以上新技術和其他方面的創新,自今年 3 月進入天鳳平台以來,Suphx 在與人類玩家的對局中,學習進度可說是非常快。目前,在平衡攻擊和防禦方面,Suphx 表現出了比許多頂尖人類玩家更明智的策略,能夠戰略性地完成短期損失與長期收益之間的權衡,並根據已有的模糊信息進行快速決策。 Suphx 一直在不斷學習與進步,研究團隊也一直在對 Suphx 背後核心算法的價值進行評估、反思和重複回饋過程,從而實現進一步的改進和提升。劉鐵岩表示「 雖然 Suphx 根據麻將的獨特挑戰,進行了針對性的設計,也取得了不錯的戰績,但我們的創新從未停止。我們期待在不久的將來發明出更新穎、更強大的AI人工智慧 技術,使得Suphx 的能力有更大幅度的提升。縱觀歷史、遊戲AI人工智慧 的進化始終與AI人工智慧 研究進展相生相伴,很多關於人工智能的研究都起源於研究如何構建能夠完成遊戲的智能體。我們希望藉由對 Suphx 的研究來探索及擴展已有AI人工智慧技術的邊界,可以不斷推動人工智慧領域的進步。」推薦閱讀:
人工智慧博弈世紀大對決?鹿死誰手?(上)
人工智慧也跟美中貿易戰有關係?(上)
人工智慧也跟美中貿易戰有關係?(中)
2天考取Google Ads證照!新手廣告投放攻略
擺脫設備工程師血汗職涯, 零基礎的我成功轉職 Python 資料工程師
44歲媽咪順利轉職網頁設計師, 家庭事業都得意
零基礎如何花 14 小時考取 GoogleAds 認證?五種 GoogleAds 廣告不藏私攻略
從無到有 挑戰14小時取得Google證照
留言