2010/08/22
■ コンピューター将棋の自己対戦の棋譜を学習用データに用いる
前から考えていたが、人対人の棋譜では悪手やポカによる誤った学習の懸念がある。コンピューター将棋の自己対戦の棋譜を用いればその危険性は排除できる。
GPS対GPSによる500局の棋譜で学習をさせてみた。学習条件は下記と同じ。
歩 | 香 | 桂 | 銀 | 金 | 角 | 飛 | と | 杏 | 圭 | 全 | 馬 | 龍 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
128 | 440 | 528 | 668 | 738 | 847 | 954 | 648 | 572 | 652 | 657 | 1216 | 1312 |
対戦条件は、持ち時間10分、秒読み30秒と、持ち時間3分、秒読み30秒と持ち時間1分、秒読み15秒で、評価関数に5までの乱数を加えて同じ棋譜になるのを防いでいる。下記の人対人に比べると、わずかな違いは有るが、ほぼ同じ結果が得られた。
Bonanza対Bonanzaによる棋譜も現在作成中である。
2010/08/11
■ 評価関数の自動学習の結果
BonanzaMethodによる駒割自動学習の結果
アマチュア竜王戦(全82局)
歩 | 香 | 桂 | 銀 | 金 | 角 | 飛 | と | 杏 | 圭 | 全 | 馬 | 龍 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
128 | 426 | 533 | 662 | 706 | 854 | 959 | 666 | 583 | 655 | 651 | 1207 | 1319 |
アマチュアレーティング戦(全576局)
歩 | 香 | 桂 | 銀 | 金 | 角 | 飛 | と | 杏 | 圭 | 全 | 馬 | 龍 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
128 | 431 | 535 | 665 | 716 | 859 | 950 | 682 | 571 | 656 | 653 | 1213 | 1304 |
朝日名人戦(全460局)
歩 | 香 | 桂 | 銀 | 金 | 角 | 飛 | と | 杏 | 圭 | 全 | 馬 | 龍 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
128 | 430 | 532 | 666 | 711 | 852 | 960 | 664 | 571 | 663 | 655 | 1211 | 1310 |
グランドチャンピオン戦(全87局)
歩 | 香 | 桂 | 銀 | 金 | 角 | 飛 | と | 杏 | 圭 | 全 | 馬 | 龍 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
128 | 435 | 536 | 670 | 702 | 857 | 944 | 665 | 587 | 659 | 659 | 1216 | 1306 |
どの棋戦でも似通った値となった。
歩を128に固定し、駒割合計が10000に正規化した。駒取りと成りだけの特徴量で、後の評価値はゼロを返す。学習終了は成銀の価値が銀より11低くなったとき。過学習を防ぐコスいやり方。学習開始の駒割は次のとおり。
歩 | 香 | 桂 | 銀 | 金 | 角 | 飛 | と | 杏 | 圭 | 全 | 馬 | 龍 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
128 | 410 | 480 | 600 | 690 | 850 | 1010 | 620 | 600 | 650 | 675 | 1230 | 1380 |