AI Arena：掌握遊戲機制訓練你的下一個拳王

2021-11-18 21:11:48

AI Arena：掌握遊戲機制訓練你的下一個拳王

Meta之光

2小時前

274

人工神經網絡

一個最重要的創新：人工神經網絡

AI Arena：掌握遊戲機制訓練你的下一個拳王

為什么需要神經網絡？

簡單來講，神經網絡意味着理論上它可以學習任何用戶動作的映射！

為了介紹一會兒將使用的一些術語，從狀態到行動的映射將被稱為“策略”。

為了讓拳手的神經網絡學習策略，AI Arena將採取模擬學習和強化學習。其中神經網絡架構存儲在IPFS上。

權值

AI Arena：掌握遊戲機制訓練你的下一個拳王

在上圖中，神經元之間的連接稱為“權值”。當你的神經網絡正在“學習”時，所發生的是它正在改變權值的值。

權值最終將決定狀態如何映射到動作，這意味着我們可以將權值解釋為“智能”。

神經網絡權值對於每個NFT都是唯一的，並存儲在以太坊上。

AI設計機制全攻略

狀態

（1）什么是狀態？

狀態是環境在某個時間點的表示。它並沒有包含所有信息——只包含了其中必要的信息。

例如：研究人員使用屏幕上的所有像素作為狀態，讓AI計算出像素代表什么。然後根據他們認為對決策過程重要的因素進行人工調試。

AI Arena一再強調其關心的是為所有人提供平等的機會——團隊希望獎勵能夠更多地給予堅持訓練AI的用戶，而不是獎勵擁有更多資源的用戶。

（2）遊戲將使用哪些變量？

下面是狀態中包含的變量列表。需要注意的是，AI Arena將使用下標1表示用戶自己的AI，下標2表示對手。

此外，競技場的左邊界的X位置為0，右邊界的X位置為1。

AI Arena：掌握遊戲機制訓練你的下一個拳王

訓練

（1）訓練概述

這是改變神經網絡中權值的過程，以使AI能夠起作用。

例如：如果我們在對手面前，我們可能希望我們的战士出擊。

有一系列的權值可以實現這一點，訓練的重點是讓AI學會在特定場景中採取特定的行動。

AI Arena在應用程序中嵌入了以下培訓計劃：

模仿學習

為了學習如何战鬥，你的AI將觀察你並學習模仿你的動作。

自我學習

為了學習你無法教給它的技能，你的AI將與自己的副本對抗，以不斷提高。

AI Arena：掌握遊戲機制訓練你的下一個拳王

（2）為什么需要訓練？

1·隨機初始化

首次創建NFT拳手時，神經網絡權值也隨之生成。一开始它會隨機採取行動，因為它不知道在什么情況下應該採取什么行動。

因此為了准備战鬥，我們必須訓練它，使它學會一個好的作战策略。

2·隨機策略

正如上文“神經網絡”部分中提到的，從狀態到動作的映射稱為策略。

換句話說，策略定義了代理在某些情況下的行為方式。在訓練之前，NFT拳手還沒有學會一個好的战鬥策略，所以只是隨機行動。

模仿學習

（1）通過觀察學習

理解模仿學習的最好方法是想象你是一個師父，你的AI是一個你正在准備战鬥的战士。

你用你的人工智能進行搏擊，它學習模仿你在特定場景中的動作。

我們正在寫一篇關於模仿學習的綜合博文，到時候會將其鏈接到這裏。

（2）演示

實際情況：你實際操控的是左邊的灰色拳手，而你的AI在右邊。你可以測試一些動作，觀察AI如何模仿你。

請注意：它不會立即復刻你的動作，因為神經網絡需要一點時間來學習，所以在AI學會之前，你可能需要多重復幾次你的動作。

為簡單演示，目前AI Arena只允許用戶使用這些操作：向左跑、向右跑、單拳、雙拳和防守。

AI Arena：掌握遊戲機制訓練你的下一個拳王

自我學習

（1）完美匹配

最完美的拳擊搭檔就是用戶自己。通過自我學習，你的AI總是在不斷地挑战自己，不斷地改進。

（2）不同的學習範式

通過模仿學習，AI通過觀看演示進行學習。在自我學習中，AI像對手一樣學習和战鬥沒有多大意義，因為對手是人工智能本身的克隆。

但是如果沒有專家向人AI展示如何战鬥，那么它如何學習該做什么呢？——通過獎勵。

AI將學會採取給予它更多正向獎勵的行動，而減少採取給予它負面獎勵的行動。

定制訓練

Python環境【正在准備中】

AI Arena計劃為玩家引入一個python環境來訓練他們自己的模型。

目前，用戶僅限於使用團隊在應用程序中提供的兩種培訓方法；但不久的將來，應用程序將可以允許玩家導入其自定義培訓模型並上鏈。

遊戲模式探索

AI Arena：掌握遊戲機制訓練你的下一個拳王

战鬥

AI Arena目前有兩種可用的作战模式：模擬賽和排位賽。除此之外，團隊計劃在不久後整合另外兩種作战模式。

1）模擬賽

玩家可以在對抗競技場測試他們的拳手來預先訓練的AI。在這種模式下將沒有任何獎勵。

2）排位賽

玩家將讓他們的拳手去對抗來自世界各地的拳手。玩家的唯一目標就是努力攀登排行榜，成為競技場的冠軍！

玩家在排行榜上的排名越高，贏得一場战鬥的回報獎勵就越高。

3）目標

雖然每種战鬥模式都有其獨特之處，但它們都有一個共同的勝利目標：在指定的時間內消耗對手所有生命值。

鏈金交易員總結

目前AI Arena尚處在早期，很適合提前埋伏觀察。據官方透露，遊戲正式版本大概率於明年推出，而今年年末推出的測試版本將只有白名單用戶可以參與體驗。

白名單用戶名額的獲取方式是參與團隊即將推出的解密遊戲，通過遊戲後的用戶將會被隨機選擇是否進入白名單。

有興趣的玩家可以加入他們的Discord嘗試體驗，大概率後期會有早鳥空投獎勵。

本文來源： Meta之光文章作者： Mora 我要糾錯

聲明：本文由入駐金色財經的作者撰寫，觀點僅代表作者本人，絕不代表金色財經贊同其觀點或證實其描述。

提示：投資有風險，入市須謹慎。本資訊不作為投資理財建議。

金色財經 > 區塊鏈 > AI Arena：掌握遊戲機制訓練你的下一個拳王

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

next & prev

金色觀察 | 從底層設施到虛擬平臺一文縱覽元宇宙板塊熱門區塊鏈項目

A16z合夥人談為何領投Mem協議這個web3.0社交構建工具能帶來什么

AI Agent 2024年回顧展望：我們從哪兒來，又將到哪兒去？

0x Jeff @web3_golem 2024 年 AI Agent 發展回顧 2024 年對於...

星球日報

0 22秒前

起底OKX客服部：平均3分鐘回復、100%反饋率、變被動為主動

Star 鮮少出席线下活動，卻以开放的姿態活躍於 X 平臺。他的推特傾向於親自回復用戶疑問和跟進用...

星球日報

0 23秒前

如何理解近期下跌走勢：第一波“特朗普震撼”來襲

作者： @Web3_Mario 摘要：上周加密貨幣市場經受了較大的回撤，市場上普遍歸因為美聯儲...

馬裏奧看Web3

0 25秒前

一文盤點 2025 年七大 DeFi 質押平臺：如何最大化 DeFi 質押收益？

撰文：Siddhant Kejriwal 編譯：Glendon，Techub News 加密貨幣行...

TechubNews

0 30秒前

特朗普也被“割”？旗下加密項目浮虧超百萬美元

聖誕節前後，加密市場似乎也隨着節日的到來進入休整。自上周鮑威爾一句話帶崩加密市場後，整體市場下挫...

陀螺財經

0 33秒前

Blockworks Mippo：關於2025年的27個加密猜想

原文來源: @Mippo 編譯: Odaily星球日報（ @OdailyChina ）譯者：We...

星球日報

0 37秒前

AI Arena：掌握遊戲機制 訓練你的下一個拳王

AI Arena：掌握遊戲機制 訓練你的下一個拳王

為什么需要神經網絡？

權值

AI Agent 2024年回顧展望：我們從哪兒來，又將到哪兒去？

起底OKX客服部：平均3分鐘回復、100%反饋率、變被動為主動

如何理解近期下跌走勢：第一波“特朗普震撼”來襲

一文盤點 2025 年七大 DeFi 質押平臺：如何最大化 DeFi 質押收益？

特朗普也被“割”？旗下加密項目浮虧超百萬美元

Blockworks Mippo：關於2025年的27個加密猜想

Meta之光

AI Arena：掌握遊戲機制訓練你的下一個拳王

AI Arena：掌握遊戲機制訓練你的下一個拳王