Miyako Shogi System

2010/08/22

前から考えていたが、人対人の棋譜では悪手やポカによる誤った学習の懸念がある。コンピューター将棋の自己対戦の棋譜を用いればその危険性は排除できる。

GPS対GPSによる500局の棋譜で学習をさせてみた。学習条件は下記と同じ。

歩	香	桂	銀	金	角	飛	と	杏	圭	全	馬	龍
128	440	528	668	738	847	954	648	572	652	657	1216	1312

対戦条件は、持ち時間10分、秒読み30秒と、持ち時間3分、秒読み30秒と持ち時間1分、秒読み15秒で、評価関数に5までの乱数を加えて同じ棋譜になるのを防いでいる。下記の人対人に比べると、わずかな違いは有るが、ほぼ同じ結果が得られた。

Bonanza対Bonanzaによる棋譜も現在作成中である。

BonanzaMethodによる駒割自動学習の結果

アマチュア竜王戦(全82局)

歩	香	桂	銀	金	角	飛	と	杏	圭	全	馬	龍
128	426	533	662	706	854	959	666	583	655	651	1207	1319

アマチュアレーティング戦(全576局)

歩	香	桂	銀	金	角	飛	と	杏	圭	全	馬	龍
128	431	535	665	716	859	950	682	571	656	653	1213	1304

朝日名人戦(全460局)

歩	香	桂	銀	金	角	飛	と	杏	圭	全	馬	龍
128	430	532	666	711	852	960	664	571	663	655	1211	1310

グランドチャンピオン戦(全87局)

歩	香	桂	銀	金	角	飛	と	杏	圭	全	馬	龍
128	435	536	670	702	857	944	665	587	659	659	1216	1306

どの棋戦でも似通った値となった。

歩を128に固定し、駒割合計が10000に正規化した。駒取りと成りだけの特徴量で、後の評価値はゼロを返す。学習終了は成銀の価値が銀より11低くなったとき。過学習を防ぐコスいやり方。学習開始の駒割は次のとおり。

歩	香	桂	銀	金	角	飛	と	杏	圭	全	馬	龍
128	410	480	600	690	850	1010	620	600	650	675	1230	1380