強化学習とは？人工知能が進化する重要な用語を分かりやすく解説！

強化学習とは、AIに関わる用語です。

AIの進化に欠かせない強化学習を、分かりやすく解説しました。

ここを頭に入れておくと、より深い学習ができると思います＾＾

スポンサードリンク

強化学習とは？
1. 強化学習のポイント
強化学習の原点
まとめ

強化学習とは？

強化学習とは、コンピューターにひたすら試行錯誤を繰り返させて、成功と失敗から自分で学習させる方法。

より多くの経験から、どうすれば成功するのかを人工知能が自分自身で学んでいきます。

強化学習で一番有名なのが「アルファ碁＝AlphaGo」と呼ばれるGoogle傘下のディープマインド社が開発したAI。

アルファ碁は、2016年にプロの囲碁棋士イ・セドル氏に勝利して話題になりました。

イ・セドル氏は、当時世界最強と言われていました！

囲碁は手数が多いために、AIが勝利する方法を全てインプットするのはまだ先のことだと言われていましたが、強化学習を繰り返した成果がここで現れたのです。

では、強化学習をもう少し詳しく解説していきます。

強化学習のポイント

「コンピューターにひたすら試行錯誤を繰り返させて、成功と失敗から自分で学習させる」という方法は確かに成長度合いも高く、自ら答えを出すので、AIの知能が上がることは間違いありません。

しかし、それだけでは実はうまくいかないんです。

コンピューターは

何が成功で
何が失敗なのか

が実は分かりません。

その為、成功した時は「得点を与える」という方法で、「それが正解だよ」と教えてあげる方法を取りました。

得点（報酬）をもらったAIは、それが成功だと理解できます。
得点がもらえなかった場合は、それが失敗だと認識できます。

これを繰り返すことで、コンピューターを強化していきました。

更に、機械学習で開発された

教師あり学習
教師なし学習

の両方のロボットを使い、「教師なし学習」をより強化します。

機械学習について詳しくこちらで解説しています。

「教師なし学習」「教師あり学習」も説明があります。

機械学習とは？AIの歴史に関係する重要な進化手法を分かりやすく解説！

AI・人工知能を勉強していると、必ず出てくる「機械学習」機械学習って何だろう？というところを、素人でも分かりやすく説明します。教師あり学習・教師なし学習も解説！

一応こちらでも簡単に「教師なし学習」を解説しますと、人間の力を借りずにAIが自分の力で情報を集め、分析してインプットすること。

「教師あり学習」はある程度の答えを人間が教えてあげて、データをインプットすること。

教師なし学習は、ミスも多いものの、数を重ねればどんどん学習して進化します。

これを応用して、強化学習では、教師なし学習に正解したら得点をプレゼントするということで、人工知能は得点を稼ぐためにますます強化していきました。

アルファ碁が人間よりも強くなってしまったのは、

教師あり学習で、人間から入力された囲碁の情報が満載のAI
教師なし学習で全く囲碁の情報はないけれど、自分自身で囲碁のデータをかき集め、成功すれば得点をもらえるAI

が対決し続けることで、

人間が与えた情報
インターネット上にある全ての情報

を「教師なし学習」がどんどんインプットし、情報を分析して精度の高い知能を作り上げたからです。

「教師あり学習」よりも「教師なし学習」の方が、最初のスタートは下でも、何度も対決を重ねることで成長度は、雲泥の差。

また、人間の場合は感情を伴うので、負けると精神的負担も大きく、その先に進めないことも多々あります。

囲碁を一度もやったことのない人が、囲碁の

技術
知識
戦術

をトッププロ並みに覚えるには数年かかりますし、途中で挫折するかもしれません。

しかし、ロボットには「感情」がありません。

負けて悔しい
覚えるのが辛い
考えるのに疲れた

などの人間が持っている「情」に振り回されることがないので、苦しむことも疲れることもありません。

その為、ひたすら試行錯誤をしながら知能を強化し、人間が数年かけて覚えることも、AIなら最短で記憶することが可能。

これは、人間には出来ないことですよね。

これが、強化学習で強くなったポイントです。

スポンサードリンク

強化学習の原点

強化学習を思いついた原点は、人間の快楽。

人間は美味しいものを食べたり、心地よい睡眠を取れたり、自分の欲求を満たされたときに、快楽を得ることができます。

快楽を得ると、その快楽を求めてまた同じ行いをしようとします。

逆に嫌な思いをしたときは、その思いを避けるために回避しようとします。

これを適用して、人工知能にも

快楽＝成功
不快＝失敗

という概念で強化学習を開発。

更に成功した場合は、報酬として得点ももらえます。

また、この方法でAIが劇的に進化した理由として

多くの試行錯誤を繰り返すことで

人間は疲労する・苦しむ
AIは感情がないので何も感じない

ことで、どんどん試行錯誤が試せたということ。

人間は何十年もかけて、成功・失敗を繰り返し成長しますが、AIは何十年もかける必要がありません。

これがAIのメリットですね。

ちなみにこの強化学習にも歴史があります。

人工知能という定義が発表されてから

機械学習
ディープラーニング（深層学習）

を経て、強化学習ができました。

こちらで詳しくAIの歴史等まとめています。

スポンサードリンク

まとめ

AIが進化したのは、強化学習やディープラーニングを駆使したものです。

今後もますます学習方法が強化し、いつの日か人間と同じレベルのAIが誕生する日も近いかもしれません。

人間の悩みを完全に解決するAIはまだ誕生していません。

しかし、この強化学習を経てさらなる進化を遂げる日も近いかもしれません。