2010/06/26
■ 評価関数の自動学習(2)
BonanzaMethodのアルゴリズム。ざっくりと、しかも、アレンジあり。
対局データ読み込み j=sigmoid(本譜の手以外による評価値-本譜の手以外による評価値) // sigmoid=1.0/(1.0+exp(-x)) dj=(j*(1.0-j)) // シグモイド関数の導関数 d=(本譜の手以外の特徴量-本譜の手の特徴量) // 特徴量とは評価関数の評価項目 新しい重み=現在の重み-d*h*dj // h:ゲイン(3からスタート) 対局の全局面でこれを繰り返す。 h=h*減衰率 重みの正規化。重みのカテゴリ毎に重みの絶対値の平均を求め、その平均値がカテゴリ毎に定めた値となるようにスケーリングする。 はじめに戻る hが1以下になれば完了
この意味は、本譜以外の兄弟ノードの評価値を下げることに他ならない。