<ul id="64qo0"></ul>

<dd id="64qo0"></dd>

<td id="64qo0"><tbody id="64qo0"></tbody></td><blockquote id="64qo0"></blockquote>

谷歌、OpenAI爭相讓旗下AI玩《精靈寶可夢》游戲：衡量AI真正實力

2026-01-25 23:38:48

體育資訊01月25日稱據科技媒體 Tom's Hardware 今天報道，當今時代我們有無數種跑分測試和評測方法來衡量 AI 的聰明程度與能力，但最近一種相對小眾的測試方法也在 AI 圈內引發關注。

目前，谷歌、OpenAI 和 Anthropic 等 AI 巨頭正在讓自家模型游玩經典的《精靈寶可夢》系列游戲，以此來評估 AI 性能表現。

Anthropic 公司 AI 部門負責人 David Hershey 對此表示：“《精靈寶可夢》之所以能吸引機器學習社區關注，是因為它不像《Pong》等簡單游戲那樣受限。這種游戲對電腦程序來說非常具有挑戰性”。

Hershey 從去年開始在 Twitch 平臺進行直播，每天的日常就是用公司自產模型 Claude 玩《精靈寶可夢》。這名負責人平時的工作就是幫助客戶部署 AI，因此他開直播本質上也是在測試模型。

這名負責人給自家 AI 直播游戲的做法也啟發了不少自由開發者，他們也陸續搞了“Gemini 玩《寶可夢》”“GPT 玩《寶可夢》”等類似的直播節目。

后來，這些直播甚至被谷歌和 OpenAI 注意到，開發團隊有時還會客串直播間親自調整模型參數，在官方力量注入下，Gemini 和 GPT 已經成功通關了 Gam Boy 時代的《寶可夢藍》，目前已在挑戰續作；而 Claude 至今還沒打通任何一個版本。

至于為何要用《寶可夢》評估 AI 性能？Hershey 對此解釋道：“因為它給我們提供了直觀的方法觀察模型表現，還能用量化指標評估性能”。

通常來講，玩家在《寶可夢》系列游戲中需要升級、訓練已有 / 剛抓的寶可夢，還要打敗道館館主來捕捉新的寶可夢。這種游戲流程并非線性，而是充滿著判斷和取舍。

而且，玩家還要經常在游戲中做出選擇：是先冒險挑戰強大的訓練家以獲取珍稀寶可夢，還是穩扎穩打造出一支實力均衡的隊伍。

顯然，人類非常擅長做此類決策，這也是游戲的樂趣所在，但對于 AI 來說，這是一場關乎邏輯推理、風險評估以及長期規劃能力的綜合考驗。

因此研究人員會深入剖析 AI 在游戲里的決策方式，深入理解模型的能力邊界。

Hershey 還會將 AI 玩《寶可夢》的結果分享給客戶以改進控制框架（IT之家注：harness），幫助他們提升算力使用效率，讓模型更高效運轉。

最新資訊