↑
試行錯誤を通じて、評価(報酬)が得られる行動や選択を学習するタイプの機械学習のこと。例えば、将棋で敵軍の王将をとることに最大の評価を与え、勝利に近い局面ほど高い評価を与えて、将棋の指し方を反復して学習させる。