強化学習が実装できる!エンジニアのために、Pythonのサンプルコードとともに、ゼロからていねいに解説。実用でのネックとなる強化学習の弱点とその克服方法、さらに活用領域まで紹介した。コードも公開!
・Pythonプログラミングとともに、ゼロからていねいに解説。
・コードが公開されているから、すぐ実践できる。
・実用でのネックとなる強化学習の弱点と、その克服方法まで紹介。【おもな内容】Day1強化学習の位置づけを知るDay2強化学習の解法(1):環境から計画を立てる
価値の定義と算出:BellmanEquation
動的計画法による状態評価の学習:ValueIteration
動的計画法による戦略の学習:PolicyIteration
モデルベースとモデルフリーとの違いDay3強化学習の解法(2):経験から計画を立てる
経験の蓄積と活用のバランス:Epsilon-Greedy法
計画の修正を実績から行うか、予測で行うか:MonteCarlovsTemporalDifference
経験を状態評価、戦略どちらの更新に利用するかDay4強化学習に対するニューラルネットワークの適用
強化学習にニューラルネットワークを適用する
状態評価を、パラメーターを持った関数で実装する:ValueFunctionApproximation
状態評価に深層学習を適用する:DeepQ-Network
戦略を、パラメーターを持った関数で実装する:PolicyGradient
戦略に深層学習を適用する:AdvantageActorCritic(A2C)
状態評価か、戦略かDay5強化学習の弱点
サンプル効率が悪い
局所最適な行動に陥る、過学習をすることが多い
再現性が低い
弱点を前提とした対応策Day6強化学習の弱点を克服するための手法
サンプル効率の悪さへの対応:モデルベースとの併用/表現学習
再現性の低さへの対応:進化戦略
局所最適な行動/過学習への対応:模倣学習/逆強化学習Day7強化学習の活用領域
内容(「BOOK」データベースより)Pythonプログラミングとともに、ゼロからていねいに解説。コードが公開されているから、すぐ実践できる。実用でのネックとなる強化学習の弱点と、その克服方法まで紹介。
[著者について]久保隆宏
TIS株式会社戦略技術センター所属。Twitter:@icoxfog417。
現在は、「人のための要約」を目指し、少ない学習データによる要約の作成・図表化に取り組む。また、論文のまとめを共有するarXivTimesの運営、『直感DeepLearning』オライリージャパン(2018)の翻訳など、技術の普及を積極的に行っている。
著者略歴(「BOOK著者紹介情報」より)久保/隆宏
TIS株式会社戦略技術センター所属。現在は、「人のための要約」を目指し、少ない学習データによる要約の作成・図表化に取り組む。また、論文のまとめを共有するarXivTimesの運営、『直感DeepLearning』オライリージャパン(2018)の翻訳など、技術の普及を積極的に行っている(本データはこの書籍が刊行された当時に掲載されていたものです)