授業計画 |
回数 |
学習目標 |
学習項目 |
1 |
強化学習とは何かを説明出来る。強化学習の目的を説明出来る。強化学習の基本事項について説明出来る。 |
強化学習 (1):強化学習とは何かおよびその目的を踏まえた上で、強化学習の基本事項(エージェント、環境、報酬、アクション、など)について学習する。 |
【理解度確認】練習問題 |
2 |
バンディット問題について説明出来る。イプシロンgreedy法による探索と活用について説明出来る。 |
強化学習 (2):バンディット問題について学習する。イプシロンgreedy法による探索と活用についての理解を深める。 |
【理解度確認】練習問題 |
3 |
強化学習のタスクについて説明出来る。報酬設計が出来る。エージェント-環境の相互作用について説明出来る。 |
強化学習 (3):環境のモデリングについて学習する。具体的には、Markov決定過程、エージェント-環境の相互作用、強化学習のタスクの種類、行動ポリシー、報酬設計、について学習する。 |
【理解度確認】練習問題 |
4 |
状態価値関数および行動価値関数の定義を記述出来る。状態価値関数と行動価値関数について説明出来る。 |
強化学習 (4):行動ポリシー、状態価値関数、行動価値関数について学習する。 |
【理解度確認】練習問題 |
5 |
Bellman方程式について説明出来る。バックアップダイアグラムを描くことが出来る。 |
強化学習 (5):Bellman方程式とバックアップダイアグラムについて学習する。 |
【理解度確認】練習問題 |
6 |
動的計画法に基づいた状態価値関数について説明出来る。 |
強化学習 (6):動的計画法に基づいた状態価値関数の理解を深める。 |
【理解度確認】練習問題 |
7 |
動的計画法に基づいた状態価値関数について説明出来る。 |
強化学習 (7):動的計画法に基づいた状態価値関数の理解を深める。 |
【理解度確認】練習問題 |
8 |
ポリシー反復法および価値反復法について説明出来る。 |
強化学習 (8):行動ポリシーの改善アルゴリズムについて学習する。ここでは、ポリシー反復法、価値反復法について学習する。 |
【理解度確認】練習問題 |
9 |
確認テストによって理解を確実なものにする。 |
これまでの学習内容の確認テストを実施する。 |
【理解度確認】確認テスト |
10 |
取り上げたAIに関する理論の概要と動向について説明出来る。 |
AI理論の動向 (1):AIに関する最新の理論とその動向について解説する。 |
【理解度確認】練習問題 |
11 |
取り上げたAIに関する理論の概要と動向について説明出来る。 |
AI理論の動向 (2):AIに関する最新の理論とその動向について解説する。 |
【理解度確認】練習問題 |
12 |
取り上げたAIに関する理論の概要と動向について説明出来る。 |
AI理論の動向 (3):AIに関する最新の理論とその動向について解説する。 |
【理解度確認】練習問題 |
13 |
取り上げたAIに関する理論の概要と動向について説明出来る。 |
AI理論の動向 (4):AIに関する最新の理論とその動向について解説する。 |
【理解度確認】練習問題 |
14 |
取り上げたAIに関する理論の概要と動向について説明出来る。 |
AI理論の動向 (5):AIに関する最新の理論とその動向について解説する。 |
【理解度確認】練習問題 |
15 |
総合テストによって理解を確実なものにする。 |
これまでの学習内容の総合テストを実施する。 |
【理解度確認】総合テスト |