Miyako Shogi System

2010/06/26

■ 評価関数の自動学習（２）

BonanzaMethodのアルゴリズム。ざっくりと、しかも、アレンジあり。

対局データ読み込み
j=sigmoid(本譜の手以外による評価値-本譜の手以外による評価値)  // sigmoid=1.0/(1.0+exp(-x))
dj=(j*(1.0-j))       // シグモイド関数の導関数
d=(本譜の手以外の特徴量-本譜の手の特徴量)    // 特徴量とは評価関数の評価項目
新しい重み=現在の重み-d*h*dj    // h:ゲイン(3からスタート)
対局の全局面でこれを繰り返す。
h=h*減衰率
重みの正規化。重みのカテゴリ毎に重みの絶対値の平均を求め、その平均値がカテゴリ毎に定めた値となるようにスケーリングする。

はじめに戻る
hが1以下になれば完了

この意味は、本譜以外の兄弟ノードの評価値を下げることに他ならない。

2010/06/12

■ 評価関数の自動学習

強化学習：試行錯誤による学習、報酬によりパラメーターを調整。TD(λ)法など。

教師付き学習：理想な出力があり、それに近づくようにパラメーターを調整。BonanzaMethodなど。

2010/06/01

■ 評価関数の改良

数ヶ月更新が滞っていたが、評価関数の改良に明け暮れていた。

Undefined subroutine &SNS::Plugin::attach_kifuj called at (eval 19) line 1.