> > >

黒歴史2015

万能人工知能の定義と思考の強化学習

知能の定義ができれば脳は不要

人工知能の設計思想は大きく二つに大別される。記号型AIは記号着地問題がある一方、主流のニューラルネットワーク(ディープラーニング等)は、脳を完全に再現できれば完成が約束されているものの、どこまで再現できれば人工知能ができたといえるのか分からない。これは、知能がどういうものなのか分かっていないからである。もし知能をうまく定義できれば、それに従ってアルゴリズムを決めれば良いので、脳を真似る必要はなくなる。また、進捗状況、あと何をすればAIが完成するのがはっきり分かるメリットがある。

速度、汎用性で知能の分類

知能のアルゴリズムは、全く同じ処理ができるが、ただ計算速度が異なるだけの場合がある。したがって、知能は速度成分と非速度成分(汎用性)に分解できる。特定のゲームしかできないAIと区別して、人間のような知能は、汎用人工知能AGI(強いAIとほぼ同義)と呼ばれる。しかし、人間も万能ではないため、人間同等レベルをAGIと定めようとすると、どの程度の汎用性があれば良いのか明確でない。むしろ、人間を超える完全な汎用性をもったAIの方が定義し易い。汎用性が最大の万能AIは、十分な計算時間が与えられれば、どんな問題でも最適解を出せることを意味する。

計算の優先順序

計算能力が無限大なら必ず最適解を出せるとしても、それより僅かに計算能力が小さいだけで最適に近い解が出せないようでは実用性がない(深さ優先探索でなり易い)。少ない計算能力でもある程度最適に近い解を出すことができ、計算能力が半分になっても、解の精度が半分以上であるのが望ましい。理想的には、報酬/計算能力の傾きが、計算能力の増加と共に減少し0に漸近する。これは、報酬UPに効果的な部分から優先的に計算していくことを意味する。

知能を構成する3要素

知能はハードウェア、ソフトウェア(アルゴリズム)、知識(データ)から構成される。ハードウェアを並列化すればいくらでも高速化はできるので、ソフトウェアの効率が悪かったとしても大して問題ない。ハードウェアは指数関数的な成長が可能としても、ソフトウェアの方は、理想的な究極のアルゴリズムに近づくにつれて成長は鈍化する。(技術的特異点シンギュラリティが発生するといえるかは解釈次第?)

強化学習

人の知能は強化学習のモデルで表現できる。感覚神経(視覚等)、報酬(快楽、痛み等)の入力を受け、運動神経へどう出力するかという方策を決めている。次の瞬間さえ良ければ良いわけではないので、次の瞬間から∞時間後までの報酬の期待値を最大にする目的で方策を選んでいると考えられる。人工知能の目的(行動基準)を、ある値を最大化(最小化)とすることは妥当だろうか。実用的には、与えられた仕事でより良い結果を出してさえくれれば、思考の仕方が人間と異なっていても、問題ない。

性能の評価

目的の報酬をより多く得られたAIが優れているかというと、そうではない。例えば、AI-Aは9割当たりのクジAを選択、AI-Bは1割の当たりのクジBを選んだとする。結果、Aは外れ、Bが当たりだったとしても、より良い結果を出したBが優れているとは言えない。Bは神が振るサイコロの目を予測できたのではなく偶然である。最適解であったかどうかは、利用できる情報を最大限に利用して推測したかという過程で決まり、実験的な結果からは確率的にしか分からない。

フレーム問題

自動運転AIの報酬を事故らないことだとした場合、最適解を出そうとすると、あるハンドル操作を行った場合の1秒後に事故ってないか、2秒後、3秒後はどうかと無限に考えねばならず、事故ってしまう。どこから先は無視して良いか考えねばならないが、それを正確に計算しようとすると、それの計算に無限に時間が掛かってしまう。フレーム問題は、無限の計算量を有限の計算能力では行えないことと解釈できる。ディープラーニング等のNNでは、ニューロン数・層数が有限でループもしていないため、一定時間で計算が終わるようになっている。層数等のパラメータにより、どこまで考えれば良いかというフレームがあらかじめ決められているといえる。

連続式知能、思考の強化学習

最適解を正確に求めるには無限に計算しないとならないが、それではいつになっても考えがまとまらず行動に移せない。その解決法としては、少しずつ計算して、その合間に、計算を続行して精度を上げるか、行動に移すかを逐次判断すれば良い。一般的な強化学習は一定の思考後に最適な行動を判断するが、それに加えて、次に何を考えるかも判断すれば良い。思考することも行動(方策)の一部であるとして、行動だけでなく思考も学習により最適化してしまえば良い。今ある情報を元に、何を思考(または行動)しようかと常に優先順位を決めようとしている状態は、人間では自由意志に相当し、人工意識といえる。

フレーム問題の解決

小刻みに何を考えるべきか判断すれば、計算が終わらずに停止してしまわないように思えるが、次に何を考えるべきか考える際、全ての選択肢を洗い出し優先順位を付けようとすれば、それに無限に時間が掛かってしまう。解決法は、学習により有効と推測される選択肢から抜き出して評価し、他の多数の選択肢は「その他」にまとめてしまう。精度を上げるために、順次「その他」から選択肢を抜き出していけばよい。無限にあるものを有限の処理能力で処理するには、こんなように無限にあるものを有限のもので代用する他ない。{(ある行動をするべきか思考)をするべきか思考}するべきか思考…というように、無限に思考しなければいけないように見えるが、思考するべきか思考するより実際に思考した方が速くなった時点で、それ以上思考する必要はない。

万能人工知能の定義

定義:常に全情報から、目的を最も達成できると推測される選択をする。

補足説明

常に:行動(思考)の選択と実行を繰り返すが、一定周期で行うのではなく、行動が終了次第、選択に移る。一回の思考の長さも選択して決めるため、学習により最適化される。

全情報から:感覚として入力された全データを少しでも捨てることなく、それら全て使用して、あらゆる規則性を仮定する。

目的を最も達成:環境からの入力の一部を報酬とする。単一の入力ではなく複数の入力値の線形結合にして良い。-∞~∞の時間で積分した値を報酬とする。(現在時刻からにしないのは、目的を時刻により不変にするため)。報酬が最大(または最小、または特定の値に近い)を目的とする。

推測:帰納による推論を行う場合、その確証性の基準は普遍的でなければならない。

選択:行動の選択だけでなく、思考内容も選択する。ソフトウェアに可能な処理は全て選択の対象となる。

確証性理論

期待値だけで正しい判断ができるか

人工知能の強化学習による行動選択の指標としては今後もらえる報酬の期待値を使う。期待値を使うのは、未来のことは知りえないので演繹的な推論はできなく、過去の情報から帰納的に推論するしかないからである。しかし、本当に期待値が高い選択をするのが正解だろうか。コイントス(ベルヌーイ試行)を例に考える。「表裏」「表裏表裏表裏表裏表裏」このどちらも表の確率p=0.5が、試行回数が多いほうが直感的に確からしい。また、「表」「表表表表表表表表表裏」この場合、前者はp=1、後者はp=0.9だが、期待値は小さくても試行回数の多い後者の方が表が出やすいと感じられる場合がある。

頻度主義、ベイズ主義と、確証性主義

コイントス1回で表が出た際の、次の結果を推測する場合を考える。頻度主義の確率論では、この1回の標本分布から母集団の分布を推測し、表の確率p=1となるが、仮に次回に表が出れば、p=1のままだが、次回に裏が出た場合はP=1/2に更新される。このとき、次回の結果を見る前でも、見た後にpは1/2以上、1以下であるといえる。一方、ベイズ主義では、事前確率p=0.5とすると事後確率はp=3/4となるが、正しい事前確率を知っている必要があり、表でも裏でもない状態があれば成り立たない。事前確率を知らないのであれば、1/2は表が出て、残りの1/2は不明のままであると確証性理論では考える。頻度主義が知っている範囲の情報のみで推測するのに対し、ベイズ主義では必要な事前確率を知らない場合に無差別の原理で適当な値を使ったりするが、確証性主義では知らないことは知らないままとして考える。

確証性理論と大数の法則

次回のコイントス結果を予想する場合、頻度主義では、大数の法則により標本分布を母集団分布とみなし、次回のコイントス結果も同じ母集団に属するものして推測する。確証性理論では、既知の標本に、未知の標本として次回コイントス結果を加えた集団の分布を考える。全標本の大きさに対する既知の標本の割合を確証率、未知の標本の割合を不確証率とする。コイントスの予測は既知の事例から未知のことを帰納的に推測しようとしているが、その確からしさの尺度となる確証率は、単純に既知のことと未知のことの比率を表している。また、確証性理論では標本は母集団から抽出されたものとは考えないため、無作為抽出されたものである必要はない。代わりに、未知の標本が、(既知の標本+未知の標本)の集団に属している確率を、前述の既知標本数÷(既知標本数+未知標本数)に掛けたものを確証率としている。確証性の原理では、関係する観測の数が増えるほど帰納の確証性が増すとされるが、関係する観測かどうかという証拠の質については集団に属する率に、観測の数という証拠の数については既知・未知標本数の比の部分に対応している。