「強化学習」のUnicode(ユニコード)文字とURLエンコード 0g0.org

URLエンコード(UTF-8) :
%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92

URLエンコード(EUC-JP) :
%B6%AF%B2%BD%B3%D8%BD%AC

URLエンコード(Shiff_Jis) :
%8B%AD%89%BB%8Aw%8FK

数値文字参照(10進数) :
強化学習

数値文字参照(16進数) :
強化学習

強化学習の説明

日本語名詞強化学習（きょうかがくしゅう）現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。

強化学習（きょうかがくしゅう、英: reinforcement learning、RL）は、ある環境内における知的エージェントが、現在の状態を観測し、得られる累積報酬を最大化するために、どのような行動をとるべきかを決定する機械学習の一分野である。強化学習は、教師あり学習、教師なし学習と並んで、3つの基本的な機械学習パラダイムの一つである。強化学習が教師あり学習と異なる点は、ラベル付きの入力／出力の組を提示する必要がなく、最適でない行動を明示的に修正する必要もない。その代わり、未知の領域の探索と、現在の知識の搾取の間のバランスを見つけることに重点が置かれる。この文脈の強化学習アルゴリズムの多くは動的計画法を使用するため、この環境は通常マルコフ決定過程（MDP）として定式化される。古典的な動的計画法と強化学習アルゴリズムとの主な違いは、後者はMDPの正確な数学的モデルの知識を必要とせず、正確な方法では実行不可能な大規模MDPを対象にできることである。代表的なアルゴリズムとしてTD学習やQ学習が知られている。