最新

Miyako Shogi System

コツコツ改良、へこたれない
2014| 1|
2013| 12|
2012| 01| 02| 04| 05| 06| 07| 08| 09| 10|
2011| 01| 02| 03| 04| 05| 07| 08| 10| 11| 12|
2010| 02| 03| 06| 07| 08| 09| 10| 12|

2010/06/26

評価関数の自動学習(2)

BonanzaMethodのアルゴリズム。ざっくりと、しかも、アレンジあり。

対局データ読み込み
j=sigmoid(本譜の手以外による評価値-本譜の手以外による評価値)  // sigmoid=1.0/(1.0+exp(-x))
dj=(j*(1.0-j))       // シグモイド関数の導関数
d=(本譜の手以外の特徴量-本譜の手の特徴量)    // 特徴量とは評価関数の評価項目
新しい重み=現在の重み-d*h*dj    // h:ゲイン(3からスタート)
対局の全局面でこれを繰り返す。
h=h*減衰率
重みの正規化。重みのカテゴリ毎に重みの絶対値の平均を求め、その平均値がカテゴリ毎に定めた値となるようにスケーリングする。

はじめに戻る
hが1以下になれば完了

この意味は、本譜以外の兄弟ノードの評価値を下げることに他ならない。

2010/06/12

評価関数の自動学習

強化学習:試行錯誤による学習、報酬によりパラメーターを調整。TD(λ)法など。

教師付き学習:理想な出力があり、それに近づくようにパラメーターを調整。BonanzaMethodなど。

2010/06/01

評価関数の改良

数ヶ月更新が滞っていたが、評価関数の改良に明け暮れていた。

Undefined subroutine &SNS::Plugin::attach_kifuj called at (eval 20) line 1.

リンクはご自由に (Miyako Shogi System Kyoto Japan)

ダウンロードのページ

Lighttpd

DreamPlug