Recursive Universal Selective Artificial General Intelligence
再帰普遍選択汎用人工知能(Recursive Universal Selective Artificial General Intelligence)RUSAGIと応用研究を詳しく説明
目次
人工知能と呼ばれるものには機械学習や強化学習があるが、端的にこれらは、最適と予想する認識結果を選択したり、行動を選択したりすることを目的としている。何れも選択するという点では共通であるため、選択する過程の例から、知能の正体を探る。
まず、知能による選択の例として時限爆弾を処理するロボットを考える。前提として、10本のコードの内の正解1本をカットしないと時間経過後の爆発することを知っており、爆発を止めることを目的とする。ロボットAは知識をもとにカットすべきコードを10本→5本、5本→2本と絞り込んでいったが、それ以上絞れず、時間ギリギリで2本の内1本をランダムに選択してカットしたが爆発してしまった。ロボットBは、10本からランダムに1本を選んでカットした結果、爆発を止められた。結果的にはロボットBの方が高成績だが、直感的にはロボットAの方が知的と思うだろう。つまりは、知的かどうかは、結果的に目的の成績がどうであったかは無関係で、どういった過程で選択したかによって決まる。ランダムな選択は知的ではないと考える。ではランダムではなければ知的かといえば、そうとは限らず、目的と全く無関係な規則で選択した場合は知的とはいえない。そこで知能を次のように定義する。
知能の定義:目的と設定された規則に従って選択肢を絞り込む能力
通常、プログラムには、知的な過程と知的ではない過程が混在しているため、プログラム全体が知的であるかどうかという定義は与えない。この定義の目的と設定された規則というのは、詳細なアルゴリズムを指示しているのではなく、上の例でいえば、爆発を止めるのにより良い選択肢だと判断できれば、どういった処理をしても良い。
上の例で、ロボットは規則に従って選択肢を絞り込んだつもりだが、実際には、見当外れの処理をしているかもしれない。目的に対して、どの選択肢が良いのか演繹できれば、そのようなことは起こらない。しかし、未来にどうあるべきかという目的が設定されている場合、未来についての情報はないため、帰納しなければならない。したがって、帰納的にどの選択肢が良いのかということも、定義する必要がある。
選択する過程の一般的なモデルを考える。時間経過と共に規則的に不利な選択肢を除去して絞り込む過程を考える。ある時刻に残留している選択肢数(状態数)をとする。ここで可能な規則的選択処理の集合をとする()。処理によって除去される選択肢数をとし、処理に必要な時間をとする。ここで選択肢除去速度
としたとき、処理をした場合にこの速度が最大になるとする。
この速度は大きいほど知能として優れている。ただし、時刻と共に可能な処理の集合が変化するため、も変化する。理想的な知能を仮定すると各時刻で常に を行う。すると、は時刻と共に単調減少する。なぜなら理想的な知能なら、ある時刻までに規則的に除去した選択肢数の合計
を最大化するため、高速に選択肢を除去できる処理から先に行うからである。ここでいう理想的な知能とは、有限などんな処理能力でも、各時刻で常に規則的に最も選択肢を絞り込めることを指す。知能の大小を示す値は何かと考える場合、選択肢を除去する速度は時刻と共に変化してしまうため、使い難い。一方、残留した選択肢数は、単調減少し、理想的な知能であれば、時刻と共に勾配が緩やかになり一定値を目指す。選択肢が1つまで絞り込まれた後は、それ以上絞り込めないため一定になる。ただし、理想的な知能であり、かつ無限の処理能力または時間があったとしても、選択肢が1つに絞られるとは限らない。与えられた情報をフル活用して最適解を出そうとしても、そもそも最適解に必要な情報が与えられていないのならどうしようもないからである。必要な情報が与えられている場合、理想的な知能では、
であり、また初期の選択肢数が限定されていないなら、
であるとして、知能の大小を表す値として、次の値が一定値に近くなる場合が考えられる。
ここで、は、選択の仕方の自由度を指し、選択肢数が1のときに0となる。
は、選択肢数(状態数)の不確定さに対応しているため、小さい方が知能は高い。大きい方が知能を高いとした方が感覚的に分かりやすいため、逆数をとると、
となり、このは、知能の大小を表す値として使用できるが、理想的な知能であれば一定値になるというものではなく、ハードウェアの性能、ソフトウェアの効率の影響を受ける。知能の定義が、規則的な選択肢の絞り込みであり、速い方が優れるため、知能を示す値は、選択肢数の時間変化としている。
ここまでは、規則的な選択肢の除去のみを行う場合を示したが、各時刻に、ランダムな選択肢の除去をすることもできる。その処理は乱数を用いて無作為に選択するだけで、処理にほとんど時間が掛からないため、残留選択肢数が1未満にならない範囲で、任意の選択肢数だけ、即時、除去できるとみなしても良いだろう。ランダムな選択肢の除去を行うことは、規則的な除去を行うための選択肢の母数を減らしてしまうため、できる限り行うべきではない。情報不足により決して選択肢を絞り込みきることが不可能な場合も存在するが、そもそも、すぐにあらゆる可能性を検証できるようなフレームが設定されていなければ、情報不足という結果はすぐには出ない。ある時刻における選択肢の状態は次の3つに大別できる。(1)選択肢を絞り込んでいる最中。(2)情報不足によりこれ以上、絞り込めない。(3)選択肢が1つに絞り込まれた。計算機の能力が有限であれば、十分な時間が経つまでは、ほとんどが(1)の状態にある。そのため、時間切れが発生する場合がある。この時間切れというのは、例えば時限爆弾の処理の例では、どのコードをカットするべきか絞り込めていない状況で、タイマーが0になる寸前に、どのコードとはいわないがコードをカットしようと判断する状況が発生する。このように、やむなくランダムな選択を迫られる場合がある。理想的な知能でも処理能力が有限であるためこのようなことが起こるが、次のような原理があると考えられる。
選択肢保持の原理:必要に迫られない限りランダムな選択はしない。
(ランダムな選択をした状態と、していない状態の両方がとれる場合、
選択していない状態をとる。)
理想的な知能とは何かと考えると、となる処理ができれば理想だが、通常そのような情報はあらかじめ与えられておらず、を選ぶ処理をしなければいけない。したがって、知能が処理しなければいけないことには、(1)ある選択肢を除去するべきかという処理の他に、(2)どの選択肢についてその処理をするかという選択処理が必要である。これらの処理の何れも目的と設定された同一の規則に従って優先度が決まる。例えば、(2)どの選択肢を候補にするのかの処理に注力しすぎて、(1)の処理をする時間がなくなってはいけない。そのため、(2)の処理にも時間切れが発生し、となる処理を選ぶのではなく、その時点で残っている候補の中からランダムに選択することになる。
理想知能:選択肢保持の原理に従い、かつ、
目的と設定された規則に従って選択肢を出来るだけ絞り込む処理
知能の成分を速度的な部分と、非速度的な部分に分けるとすると、理想知能は非速度的な部分については理想的といえる。途中でランダムな選択をすると情報が劣化してしまうために、最適解へ近づくために情報を失ってしまうが、理想知能にはそれがない。非速度的な部分は理想形に達すればそれ以上は進化しないが、神経細胞数のようなボトルネックがないため、ハードウェアの性能が向上すれば、無限に知能が向上する。また、複雑で高度な判断ができても、ランダムに判断した部分が明確に分けられるため、ブラックボックスではなく説明可能な知能となる。
仮に、知能の定義をしないまま知能を作ることができるだろうか。脳の全神経細胞の動きを完全に再現できれば、知能を再現できたといえるだろう。一定時間後の全神経の発火状態が一致すれば再現できたといえるが、ランダムな過程があれば、完全再現されていても一致しないため再現できたか分からない。また、何らかの知的な作業をさせてみて、同等なことができるか評価するという方法もある。だが、同等とする判断基準がないため、僅かな差が偶然誤差なのか、それとも知能に差があるのか分からない。またそれ以前の問題で、何らかの差があるとは分かっても、どう違うのか分からないため、どう修正すればいいのか分からない。ある程度近い気がしても、どのくらいゴールに近づいているのか分からない。また、脳を真似るにしても、どこまで真似れば良いのか分からず、また、技術的に可能になるまで待たなければならない。脳が再現できれば、どんな処理をしているのか明確になり、知能を解明し定義することができか、それには原子レベルでの再現まで待つ必要は必ずしもない。どんな処理なのか分かれば、できるだけ早い方が良い。
実用的に適した動作であれば、脳と同じではなくても良いという考え方もある。例えば、報酬として設定された値の期待値が最大になる行動をすることとして知能を定義できる。より良い結果を出せるなら、脳と違う処理でも、そちらの方が良いだろう。強化学習では一般的にこのような目標設定が行われる。だが欠点があり、期待値を正確に算出するには、すべての可能性を考慮する必要があるが、計算量の関係で、近似的な値で代用しなければならない。どこまで考慮するべきかというフレーム問題が発生する。NNなら、フレームを設定する必要がないとの見方もあるが、実質的には細胞や層の数、計算方法を設定することで、フレームを設定している。最適なフレームは状況によって異なるため、決め打ちにするべきではなく、どうフレーム設定するべきかという基準は、知能の定義の中に求めるべきである。
知能を適切に定義する利点の一つは、推論の確証性が結果を見ずともわかるため、計算途中で進捗状況を知ることができる。例えば、期待値が最大のものを選ぼうとする場合、途中段階でどこまで最大値に近づいているか知りたくても、最大値は全て計算してからでないと知りえない。一方、選択肢数を最小化しようとする場合は、最小値は1であると知っているため、計算途中でもどこまで最適値に近づいているか分かる。
例として複数の時限爆弾を次々に処理するロボットを考える。ロボットCは、赤→青→赤→青の繰り返しで規則的にコードを切るようにプログラムされており、良い結果を出した。ランダムではなく、爆発を止めるのに適した手順で選択しているので、知能といえる。しかし、実質的にどれを切るか選んだのは、プログラマーである。こうプログラムしたプログラマーの知能が優れているだけで、プログラム自体に知能があるとは思えない。では、ロボットDは、できるだけ赤に近いコードを自ら選択するようにプログラムさえている場合はどうだろうか。赤系が正解の世界に限定すれば、爆発を止めるのに適した選択をする知能を持つといえる。しかし世界が変われば成り立たなくなる。ロボットCは、「赤系が正解の世界で、爆発を止める」という目的に対しては非限定的な知能を持つが、「爆発を止める」という目的に対しては限定的な知能しか持たないといえる。さらに、「爆発を止める」という目的に限れば非限定的な知能を持つロボットがあったとしても、「人間の指示に従う」という目的に対しては限定的な知能しか持たない。これら目的は、「特定の変数の値を一定値に近づける」として一般化できる。例えば、爆発率を0に近づけるとか、報酬を∞に知近づけるとか。目的が複数あるように見える場合でも、実際にはそれらに優先順位があるはずであり、線形結合や条件分岐により、一つの値として表現できるはずである。「特定の変数の値を一定値に近づける」という目的に対して非限定的な知能があれば、どんな目的、どんな状況でも対処できるので、一般知能と呼べるであろう。
特定の問題を解く上で、ノーフリーランチ定理等により、一般知能は、特化型知能より劣るという考え方がある。特化型が、ある問題を解くのに有利な算法や情報を持っていれば当然である。ここで、知能を有するシステムが持つ情報を4つに分類してみる。(1)ハードウェアの情報(電子回路等)、(2)ソフトウェアの情報(アルゴリズム、固定パラメータ)、(3)知識、(4)外部から与えられる生情報。これらは、改変の可否によって分類した。ハードウェアの変更なしに改変できるのがソフトウェアの情報である。また、ソフトウェアから改変できるのが知識であり、できないのがソフトウェアの情報と生情報である。また、生情報は、有る状態と無い状態があり、改変はできないが、無視して無いフリをすることができる。(3)(4)については、無い方が良い場合は無視すればいいので、どんな情報でも持っている方が有利である。特化型知能は、(2)のソフトウェアで改変できない情報として、問題を解くのに有利な情報を有しているが、同等の情報を(3)ソフトウェアで改変できる情報としてあらかじめ有するようにすれば、一般知能でありながら、特化型と同等のパフォーマンスが得られる。同等の処理でもネイティブコードかスクリプトかといったレベルのパフォーマンスの差しかない。
教師なし学習というものがあるが、これはデータを分類する基準が、アルゴリズムやハパーパラメータに備わっている特化型知能といえる。分類方法を調節するにはソフトウェアに手を加えなくてはならない。例えば大脳視覚野は2次元の映像はうまく処理できるようになっているが、10次元の映像はうまく処理できないだろう。しかしながら、あらかじめ扱うデータの性質が分かっているなら、支障はない。
知能をモデル化する土台として、部分観測マルコフ決定過程を考える。これは、エージェントの行動が環境の状態を変化させ、その状態の一部をエージェントが観察として受け取るものである。ここでいうエージェントとは、例えば人間に当たり、環境とはそれ以外の世界全てに当たる。人間Aと人間Bの対話のみに限定して考えると、エージェントを人間Aとすると、環境は人間Bに当たる。一方、Bから見れば、Aが環境に当たる。そこで、エージェントと環境を入れ替えても成り立つ、対称的な決定過程モデルを考える。環境の状態の一部のみが観測としてエージェントに作用するのと同様に、エージェント状態の一部のみが行動として環境に作用するという形にできる。部分観測部分行動マルコフ決定過程と呼べるだろう。環境には観測としてエージェントに作用しない状態変化があるように、エージェントにも行動として環境に作用しない状態変化が許される。それは、行動はしないが頭の中で考えている状態に当たる。これは、典型的な強化学習が行動のみを選択しているのに対して、脳は行動の選択だけでなく、何を考えているかという脳内の状態の選択も行っていることを示唆する。
知能の定義と対比して、脳の仕組みを考える。端的に、脳は現在の全神経細胞の発火状態から、次の瞬間の全神経細胞の発火状態を選択していると解釈できる。神経細胞一つ一つではなく、コラムのような神経群を単位として発火状態を選択しているかもしれない。また、脳外の運動神経への出力も選択の対象である。外部へ出力しない神経の発火状態は、思考状態に当たる。大脳がどの部分も一様で、同様な動きをしているとすると、運動神経へどう出力するかの選択と、なにを考えるべきかといった選択は、同様のアルゴリズムであると予想される。ある神経が発火するかどうか決めるとき、軸索の先がどこに繋がっているかは関係ないのであろう。
脳内で規則的な選択と不規則な選択がどのように行われているか予想する。視覚野を例に考える。まず、学習済みの見なれたものを視認したときは、神経の発火状態は比較的落ち着いて、平衡に近い状態にあると予想できる。これは経験的なヘブ則により、発火によって結合が変わるが、学習済みなら変える必要がないからである。一方、未知のものを見て、一生懸命に認識しようとしている場合は、発火の多い興奮状態にあると考えられる。認識という状態は、観測によるフィードフォワード発火が、予想によるフィードバック発火によって抑制された状態と考えられる。予想というのはイメージしている状態に当たる。映像を認識した状態では、全く同じ場所に、全く同じものをイメージした状態といえる。証拠に、実際見えているものと同じものを同じ場所にイメージはできないだろう。映像の情報は下位野から上位野へ流れるが、学習済みのものを見ることは、上位野の特定の細胞群だけを選択的に発火させるようにシナプス結合していることに当たる。未知のもの見た場合は、上位野の広範囲に発火を撒き散らし、上位野にある特定の映像に反応しないとある神経群がランダムに選ばれて発火し、ヘブ則で結合が強化され、今後はその映像に対して選択的に発火すると予想される。上位野への発火の頻度は、継続的な神経群の発火によって起こると思われる。上位野への発火頻度の立ち上がりが緩やかになるため、強く学習済みな場合は、広範囲に発火を撒き散らさずに、フィードバックによって抑制される。フィードバックが無ければ徐々に発火頻度を上げることで、弱く学習している神経群も反応させることができる。最終的にはランダムな選択により絞り込まれるが、その仕組みとしては、一帯の複数の神経群が互いに弱め合うように結合をしていると共に、即時選択するために、一帯の複数の神経群をまとめて抑制する仕組みがあると予想される。
まず、脳は意識を持っているとして、物理的に何に相当するか考える。意識の状態というのは、見ているものや考えている状態が変われば変化したといえ、高速に変化する。高速に変化しない状態としては記憶が該当する。一方、物理的には、ある瞬間に神経が発火しているかどうかは高速に変化するが、シナプス結合の重みは高速に変化しない。したがって、意識は神経の発火状態に相当し、記憶がネットワークの状態に相当すると推論できる。ネットワークは次の瞬間の意識がどうあるべきかを選択しているだけで、それ自体は意識とはいえないだろう。
次に意識が有る状態と無い状態を比較してみる。まず、意識があるときには随意運動ができるが、意識がない場合には、呼吸のような不随意運動しかできない。不随意運動をどうするかは、反射的・自動的に選択されてしまうのに対し、どう随意運動するかは迷った末に自由意思によって選択できる。ある状況でどう行動するのが良いかは、学習済みなら反射的・自動的に連想されるだろう。不随意運動では、連想された運動の案の内、最適なものがすぐに選択され行われる。典型的なNNで、入力を元に最適な出力を選ぶようなものは意識のない不随意運動に相当する。しかし意識がある場合は、連想された運動の案は、いったん保留される。連想されたものを保持するためのワーキングメモリのような仕組みが必要である。そのためには典型的な深層学習のような入力から出力への一方通行の流れではなく、ネットワーク上に何らかのループが存在し、発火状態を保持していると考えられる。直感的に連想された選択肢をメモリに保持してどうするのかというと、より良い選択をするために、メモリ上での処理を行う。例えば、何かに意識を向けることで、関連することを連想してメモリにロードし、メモリ上のデータを比較したり演算したり選択する。これは、直感とは対照的に思考といえる処理である。保留された選択肢も、時間切れになればランダムに選択される。それは自由意志と感じられるだろう。また、意識が何であるかは次のように表現できえうだろう。
意識:(選択肢保持の原理に基づき、)
ワーキングメモリ上に選択肢を保持し、
ワーキングメモリ上で、より良い選択をするための情報処理する仕組み
上述した部分観測部分行動マルコフ決定過程では、エージェントと環境を対称とするモデルとした。対称であるから、エージェントに知能があるように、環境にも知能があると解釈できる。つまり、環境はエージェントから受け取った行動を元に、環境の取りうる状態を規則的に絞り込み、規則的に絞り込みきれなかった分はランダムに絞り込み、その結果の一部をエージェントに観測させている。力学に当てはめて考えると、ここでいう規則は物理法則であるが、不確定性原理があるため、完全には絞り込み切れない。ここで、不確定さ表す物理定数であるプランク定数はという単位を持っているが、エネルギーがいくつであるかという選択を行っているとすれば、単位はとなる。したがって、理想知能のところで述べた選択肢の不確定さと同じ単位にある。また、不確定さの逆数を知能の水準としたことから、物理世界はプランク定数の逆数の知能を持っていると解釈できる。さらに、量子力学における観測するまで確定しないという現象は、確定してもしなくても良いなら確定しないという選択肢保持の原理に従っている。ゆえに、物理世界を知能として解釈する場合、理想知能であると考えられる。また、状態がランダムに決まるとき、神が振るサイコロの目の情報分だけエントロピーが増大するが、知能はその増大を抑制している。
物質でしかない脳になぜ意識が生じるかというと、素粒子の量子的な振る舞いが低レベルの意識を持っていることに還元される。脳が感じている意識は、素粒子が感じていると場と等しい。粒子が力場を感じてどう運動するのか決めるのと、脳が感覚器官からの情報を感じてどう運動するのか決めるのは、複雑さに差があるだけである。
ただ一つに選択を絞る場合だけでなく、複数に絞る場合や、複数回選択を繰り返す場合を考えていく。一般化して、席の集合と員の集合があるとする。各席には大きさと座れる条件がある。員は席に座る候補であり、各員は大きさと各席に対する適合度(0~1)を持つ。適合度は、大きさは無視して、座れる条件を満たしている度合いを指すとする。まず時限爆弾の処理に例を考える。員は切断候補のコード2本であり、爆発阻止できる確率の期待値の比率がコードA:コードB=1:1であるとする。席は1つで切断するコードであり、条件は爆発阻止できる確率が最大のものである。A:B=1:1であれば、同様に確からしいため、どちらかをランダムに選択するしかない。A:B=1:0.9の場合、大差ないが、あえて悪いかもしれない理由はないので、Aの方を選ぶべきである。大きい方という席の条件を満たすのはAの方である。では、A:B=1:0.9999の場合はどうだろうか。僅かでも差があるので、Aを選ぶべきに思えるが、このように不連続な部分があると、僅かなノイズで判断が大きく変わってしまうためロバスト性が悪い。そこで、期待値ではなく、最大である確率で見るようにすれば不連続ではなくなる。期待値が1:0.9でも、分散が小さければ最大である確率は1:0に近づき、分散が大きければ最大である確率は1:1に近づく。最大である確率がA:B=0.9であれば、A:B=0.9の確率でランダムに選択すればよい。条件が最大値を取ることであれば、最大値をとる員である確率(0~1)が、適合度(0~1)に当たる。適合度を算出できた後は、どの席に、どの員を当てはめられるか考える。可能の全ての組み合わせを挙げ、それが複数あればランダムに選べば良い。
席が2つの場合を考える。員はA1人,B1人で、適合度はA:1,B:1とする。このとき、1員が座った後、次に座る員は残りから選ぶため、必ず、AとBが1席ずつに座る。適合度は、始めは荒く算出し、徐々に精度を上げていくという計算方法を用いることができるが、このように可能な組み合わせが1つに絞られた時点で、それ以上は精度を上げる必要はなくなる。次に、員はA100人,B100人である場合を考える。その場合は、A2人が座る可能性がある。全員適合度1であり、適合度が同じであれば、一切の区別は行ってならないからである。
同様の選択問題を複数回繰り返す場合を考えよう。席が1つ、員はA1人,B1人で、適合度はA:1,B:1とする。t=1,2,3…100の各ステップでこの選択を繰り返すとする。1回だけの場合と同様に、A:B=1:1でランダムに選んだとしよう。すると、低確率でAばかり選ばれてしまう場合もあるだろう。適合度が同じなのにそれで正しいのだろうか。ランダムではなくAとBを交互に選ぶべきだという考えもあるだろう。どちらが正しいかはこの選択の目的次第である。目的は、ある値が一定値に近い方を選ぶとして一般化できる。誤差が0に近いのを目的としよう。しかし、誤差の計算方法というのも自由に指定できる。例えば、各員の適合度(0~1)と、毎回の座れたか(0 or 1)の差の二乗平均の値のt=1~100の総和を誤差としよう。この場合は、毎回ランダムに選んで仮にAに偏ったとしても誤差は変わらないため、正しい選択である。次に、各員の適合度(0~1)と、t=1~100での座れたかの頻度(0~1)を誤差とした場合を考えよう。この場合もt=1ではランダムに選ぶしかないが、t=2では前回とは逆を選んだ方が誤差は小さくなる。前者はマルコフ性、後者は非マルコフ性の目的設定といえる。ただし、後者であっても前回までの情報が無いか失われている場合は前者と同様に振る舞う。
量子力学的な現象も選択と解釈できるが、どのような目的設定されているだろうか。まず、誤差はプランク定数に相当するといえる。もつれたスピンの観測をしても、上向きが連続して出たから、次は下向きが出易いだろうといったことはなく毎回ランダムで決まるためマルコフ性の目的設定だと解釈できる。一方で、脳は過去の情報を記憶することで、物理的にはマルコフ性でありながらも、非マルコフ性であるかのように振る舞うことができる。見方を変えて、素粒子は実際には非マルコフ性の目的設定がされているが、過去の情報を記憶できないため、マルコフ性の振る舞いをしているだけで、脳を含めてあらゆるものは同一の非マルコフ性の目的設定に従って選択を行っていると解釈できるかもしれない。
帰納について一般化された理論の必要性を述べる。知能において、目的の規則である判断基準が曖昧で一つに定まっていなければ、選択肢を一つに定められない。目的としては典型的には、現在から無限の未来までに受け取る報酬の総和が最大になるようにする。しかし、未来のことは観測できないため、演繹的に正確な推論はできず、帰納による推論することになる。しかし帰納的推論の定まった方法はない。例としてコイントスで表裏の出る確率を帰納的に推論する場合を考える。過去の試行の結果から統計的に計算すればいいだけなので難しくはないと感じられるだろう。しかし実際問題、同種のコインなら別個体のコインの結果もデータとして含んでいいのかとか、コインの投げ方や、投げた日時が違うデータをどこまで含めていいのか判断できないだろう。典型的な統計計算では、与えられたデータを元に計算はできるが、どのデータを与えるのが適切は人間が判断している。帰納的推論に必要なデータの選択基準の理論が必要である。
また、典型的な機械学習では、大量のデータが必要であり、人間のように少量のデータから効率的に学習できないが、これは機械学習が行っている帰納的な処理が理論的に最適化されたものではないため、どのデータをどれだけ重視するのが最適か分からず、過学習を防ぐために、僅かずつしか学習に使用しないためだと推測される。
帰納の原理として、確証性の原理があるが、それは、関連する観測が増えるほど確からしさが増えるというものだが、次のようにも表現できるだろう。
確証性の原理:帰納的推論の確証性は、証拠の品質と量が大きいほど増加する。
関連性を品質として表現した。また帰納には、枚挙的帰納と類推に分けられるが、枚挙的帰納は証拠の品質は一定で、量が増えるほど確証性が増すという手法で、類推は、証拠の量は一定(1つ)で、品質(類似性)が増すほど確証性が増すと手法である。どちらも上の原理で説明できる。帰納を一般化するには、証拠の品質と量の算出法と、変動するそれら両方に対する確証性の算出法を定める必要がある。
帰納的推論の確証性は証拠の質と量によって決まるが、まずは簡単のために質は固定して、量が増加した時の確証性の変化を考える。例としてコイントスの結果の予想を考えるとする。過去のコイントスの結果が与えられていて、それらのデータは証拠の品質(次回コイントスとの類似性)は十分で、どのデータも同様に確からしいとする。次回コイントスの結果がどうなるかの確率を統計的手法で帰納的推論するが、確率の考え方として頻度(主義)確率とベイズ(主義)確率という二つがある。それらの確率は、十分な標本数があれば大差なくなる場合が多いが、標本数が少ない場合は明確な差が出る。例えば、標本が1つのみで表が1回出ている場合を考える。表を1、裏を0として、頻度主義では、次回の平均値は1、不偏分散は∞と推定される。標本2つで、表が2回の時は、平均値は1、不偏分散は0と推定される。標本1つでは全く推論する能力がなく、2つ以上の場合には、知りえない未来のことを100%主張してしまう場合がある。一方、ベイズ推定では、事前確率がうまく設定されていれば、それらしい推論ができる。しかし、事前確率をどんな場合にでもうまく設定するのは不可能だろう。実際のコイントスでは、表もでも裏でもなく、側面が上になることも有りうるだろう。コインに細工がしてあり側面が出やすくなっているかもしれない。しかし、事前確率として側面が出る確率が0からスタートしていると、いくら頻繁に側面が出ても、ベイズ改訂による側面が出る推論結果は0のままである。事前確率を設定するには取りうる値のバリエーションを全て知っている必要がある。一方、頻度主義では、次のコイントス結果は、既知のデータから推論した母集団の確率に従うと考えるが、その場集団には表と裏のデータしかないが、母集団のさらに母集団なるものがあり、そこには表と裏以外のその他の値もあると仮定できる。たまたま、表と裏しか出ていないだけと考え、その他の値が出る確率を計算することができる。しかしその計算をするには、その他が存在する量が、既知の値が存在する量の何倍あるのか知っていなければいけない。そのため、頻度確率に「その他」という値も導入するのも困難である。
頻度確率でもベイズ確率でもない新しい確率を考える。あらかじめどんな値を取りうるのか分からないため、「その他」は導入できないが、どんな値にも一致するワイルドカードである「不明」を導入する。ただし、「不明」は含まれる比率が大きいほど推論能力が小さいため、最小限の使用に留める。このワイルドカードの利点として、事前確率と事後確率を一致させることができるようになる。頻度確率では事前確率という言い方はしないが、結果を観測してデータが一つ増えれば、次回の推論結果は変わる。事前確率と事後確率を一致させれば、結果を観測してみたら、推論していた結果と反していたということはなくなる。例として、コイントスで、標本1つで表が1回出ている場合、次回は、表が50%、「不明」が50%と推論すれば、結果的に表・裏だけでなく側面が出た場合でも、推論と合致する。「不明」の確率は事前確率と事後確率が一致する範囲で最小になるようにする。値が既知の標本の大きさをとし、推論対象である値が未知の標本の大きさをとすると、「不明」の確率は次のようになる。
頻度主義確率では既知の標本だけを使って母集団を推定し、未知の標本の確率分布は母集団の確率分布と一致すると推定するのに対して、この新しい確率では、既知の標本の他に、未知の標本に「不明」という値を持たせた標本を加えて、母集団を推定する。何もデータが無ければ「不明」が100%になるだけで、事前確率を用意する必要はない。「不明」が0に近づくほど確証性が高いといえるが、「不明」が0%になることはない。確証率を次のように定める。
これは「不明」ではない部分の比率であり、0%なら全く不明で100%に近づくほど確証性が高まる。証拠の品質を一定とすれば、帰納による確証の度合いは、単に「既知」のことと「未知」のことの数の比率として表される。
この確率の欠点としては、期待値が求められない。だがこの確率は名義尺度を扱うことができる。そもそも従来の手法でも名義尺度を期待値という要約値で表すことができない。名義尺度を扱えるようにするには、期待値が必要のないアルゴリズムとする必要がある。
一般的な帰納的推論では、個々の観測から、全ての場合はこうであると主張するため、情報量が増加し、真理は保存しない。しかし、この「不明」を使った確率では、情報のないものを知っているかのようには主張せず、情報量は増加せず、真理は保存する。帰納的な推論を演繹しているといえる。この方法なら、一般的な帰納的推論における、どれだけの観測があれば、どれだけ一般化した主張ができるのかという問題は発生せず、客観的・科学的に一意に推論ができる。
帰納の確証性は、既知の標本数が増加するほど大きくなるが、上述の定義から、予想の対象である未知の標本数も影響する。未知の標本数が大きいと確証性が下がる。つまりは、仮説がより強い主張をしようとするほど、より多くの証拠が必要である。未知の標本数は必ずしも1である必要はない。例としてコイントスで表が1回出た後の次回を予想する場合を「表?」と表すと、次回が表の確率は1/2である。同様に「表,表?」では2/3である。「表??」のように、表が1回出た後、次回と次々回ともに表である確率を求める場合は、未知の標本数は2であり、表の確率は1/3と求まる。これは、次回が表である確率と、さらに次々回が表である確率の積1/2×2/3=1/3に等しい。
証拠数が整数ではない場合を考える。例えばランプが1分間点灯した後、次の0.3分間ランプが点灯し続けているかを予想しようとする場合、未知の標本数を0.3とすれば良い。連続的な現象の場合は、標本数は整数ではなくても良さそうである。次に、数列の予測の例を考える。「3123123123???」という数列で、「123」と繰り返すという仮説を立て、「???」が「123」である確率を求める。3.33回ループしているが、既知の標本数は3.33ではなく、3としなければならない。端数を認めてしまうと、「123456789?」の?を予想する場合「n123456789」と繰り返す仮説が、任意のnに対して証拠数0.9となり、47%の確率で、どんな数にでも予想できてしまう。実際には、証拠数が0.9といっても2~9桁目の証拠があるだけで、1桁目の証拠はないので、次の観測する1桁目を予測する能力はない。したがって、既知の証拠数、未知の証拠数ともに、仮説の繰り返し単位の非負の整数倍ではなければならず、端数は切り捨てる。先のランプの例では、明示していないが、無限小の時間の間にランプがついているというのを繰り返し単位とする仮説を立てることで、時間が整数でなくても、繰り返し単位の整数倍になっているといえる。
時系列を扱う場合、未来は未知である。典型的な強化学習では、遠い未来の報酬の期待値ほど高い割引率を掛ける。先の未来ほど予想困難なはずだが、期待値には確からしさの情報がないためである。時間 、割引率は、として、定数 は経験的に決められる。一方、確証率の計算式から考えると、という形にした方が、未来の不確からしさを良く表現できると考えられる。
証拠の品質とは、予測対象の未知な目的変数を持つ元の既知の説明変数と、既知の目的変数を持つ複数の元の既知の説明変数の確率分布の一致の度合いである。証拠の集合は、一つの目的変数と複数の説明変数を持つ元の集合である。例えば、とあるイチゴの甘さを食べずに予想したいとき、甘さが目的変数で、色や大きさが変数である。さまざまなイチゴの集合が証拠の集合である。予想対象以外のイチゴの甘さを観測する数が増すほど、確証率は増す。しかし、その予想対象外のものがイチゴである確率が50%なら、無限個観測しても、50%の確証しか得られない。逆に、イチゴを無限個観測したが、予想対象がイチゴである確率が50%の場合も、50%の確証しか得られない。予想対象の目的変数の確率分布を基準に、証拠数のとある予想対象外の目的変数の確率分布が一致する度合い(0~1)をとし、予想対象の証拠数をとしたとき、確証率は次式となる。
この式は、同品質ならば低品質な証拠でも多い方ほど確証率が上がるが、高品質な証拠が十分ある場合は、低品質な証拠は採用せずに無視した方が確証性は高まると示している。D同品種のイチゴが無ければ異品種のイチゴから推測するしかないが、同新種のイチゴが有るなら異品種を調べる必要はない。証拠の質と量はトレードオフの関係にあるが、上式から確証率が最大になるように採用する証拠を選べば良い。その手順としては、すべての が既知ならば、ソートして が大きい順に採用していき、 となった時点で残りの証拠は全て無視すればよい。ソートされてなければ、未採用でなる証拠があれば採用し、採用済みのなる証拠があれば除去する操作を安定するまで続ければ良い。
「不明」を含む統計的な推測も、その原理は大数の法則である。大数の法則では、目的変数の集団の分布が個々の確率分布と一致する。逆に言えば、それが一致していなければ大数の原理に基づく推測は成り立たない。しかし、推測したい目的変数は未知なため、どれだけ一致するかは計算できない。既知である説明変数が類似するほど、目的変数も類似すると推測するしかない。例えば、仮説検証によって、ある危険率で、説明変数に差がなく、証拠群と予想対象が同じ母集団から抽出されたものとみなすことで、その確率で目的変数も一致するとみなせる。証拠の品質は、予想対象の説明変数の確率分布と、証拠集団の分布との一致度合いを指す。証拠集団の分布は、「不明」が含まれる場合は、合計が100%未満の確率分布となる。証拠の品質は、確率密度のグラフが重なった部分の面積、またはヒストグラフの重複部分の確立質量に当たる。「不明」を含み、もともと合計100%未満のため、グラフが完全に一致しても、重複部分の面積も100%未満となる。つまり、証拠の数が少ないほど、その証拠の品質の上限も下がる。
説明変数の分布の重複度合いは、何を説明変数とするかで変わる。複数ある説明変数の候補から、目的変数と相関性のないもの選んでは正しい結果は得られない。典型的には、説明変数の候補が与えられていれば、回帰分析等によって、有効な説明変数を絞り込める。例えば、目的変数がイチゴの甘さで、説明変数候補はイチゴの色RGBCMYKHSLの10種とする。目的変数が、10変数の線形結合で表されるのなら重回帰分析が有効だろう。しかし、非線形でR+G*B^R/Gのような式と目的変数が一致する可能性もある。その場合は、可能な非線形の式のすべてについて、単回帰分析して、最も良いものを選べば良い。しかしその組み合わせは無限にある。また、重回帰分析や主成分分析をするとき、赤とマゼンダのように説明変数に相関性があると結果が狂う。すべての説明変数候補の組み合わせにつて相関性を調べればよいが、実際には、色だけを調べればよいというような前提条件が与えられないため、説明変数の候補は無限にある。典型的な手法では、どこまで考慮すれば良いかというフレームが与えられていなければ計算不能である。
そもそも、帰納による推論の最小単位はなんであるかを考える。説明変数(独立変数)を、目的変数(従属変数)をとすると、次式が帰納の最小単位であり、すべての帰納的推論は、この原理の応用で表現されると考えられる。
}
帰納の原理:独立変数の差が小さい方が、従属変数の差も小さい確率が高い
独立変数が複数あっても成り立つ。独立変数が重量Wと距離Lとして、
}
}
となる。Wが近くLが遠い場合と、Lが近くWが遠い場合では、どちらが近くなるのか分からない。すべての独立変数について等号付き不等号の向きが同じ場合のみ、推測できる。一つの独立変数は差があるが、他のすべての独立変数は差が0であっても良い。また、この原理は集合の平均値についても成り立つ。そこで、ある独立変数を除いて、他のすべての独立変数は、平均値が等しくなるように2つの集合を決めればいい。
}
そうすれば、個々についての推測はできない場合でも、平均値の推測はできる。しかし、独立変数が多数または無限にある場合に、この条件を厳密に満たすのは厳しい。しかしながら、一つ以外の独立変数については、差が出るように恣意的に集合を決めなければ、無作為抽出となり、標本数が増えるほど、差は0に近づく。したがって、ある独立変数のみに着目し、他の独立変数に関わる恣意的な選択をしなければ、2つの集合の従属変数について平均的に、どちらが基準の集合の従属変数に近いか推測できる。
例としてイチゴの重量、全長から糖度を推測する。まず大前提としてイチゴの集合が与えられている。集合A,B,Cは、何れもの部分集合である。は全のイチゴについて既知であり、は集合に属するイチゴのみ未知であり、予想の対象とする。集合は、集合の部分集合であり、また、集合と集合に共通部分はないとする。は無視して、の類似性からの類似性を推測する場合を考える。集合は、となるすべてのイチゴの集合とする。は、集合が、集合の部分集合になるように決める。集合は、となるすべてのイチゴの集合とする。は、集合と集合に共通部分がないように決める。このとき、すべての は、より、に近いため、分布は、分布より、分布に近いと推測できる。ただし、分布と分布に差が無ければ、とに相関性はなく、推測はできない。逆に、分布と分布が完全に乖離していれば、分布を帰納的推論するのに、分布の標本数が十分あれば、乖離した分布の標本は不要となる。そこで、からを除外した新たな集合を作る。今度は、この を使って、について同様の操作を行うことで を得ることができる。このような方法で、 というように、さまざまな独立変数一つずつについて従属変数の関係を調べることで、段階的に標本を絞り込むことができる。ただし、除外されずに残った標本の分布がといえるかというと、分布は、分布より、分布に近いだけであり、分布とはいえない。同じというには、と が同じ確率分布を持つ母集団から抽出されている必要がある。それをできるだけ満たすためには、の平均値との平均値ができるだけ近くなるように、を決めなければならない。また、ここでいう分布の一致度合いというのは、証拠の品質に当たり、0~1をとることができるため、完全に除外せずに、半端なウェイトで除外することもできる。すべてのイチゴについて、ウェイト1で開始し、徐々にウェイトを下げて絞り込む形となる。ウェイトは残存している度合いである。ただ、徐々に絞り込むと、どの独立変数から見ていくかによって結果に差が出る。そこで、例えばW をもとに全て1の状態から絞り込んだウェイトWと、Lをもとに全て1の状態から絞り込んだウェイトLを別々に計算しておき、全てのイチゴについて、ウェイトWとLの小さい方を取るという処理すれば順番の影響はない。しかし、独立変数が多数あると全てについて計算が待てないため、分布の乖離が大きい標本から除外していく必要がある。偶然誤差により、除外するべきではない標本まで除外されないように配慮が必要だが、予想対象から明らかに乖離した標本なら、どのタイミングで除外しても良い。また、このウェイトの小さい方を取る手法では、Wで絞り込んだ後にまたWで絞り込もうとしても結果は変化しない。また、Wとほぼ同じ分布を持つ別の独立変数が多数あったしても、Wの影響が強調されたりしない。重回帰分析や主成分分析と違って、説明変数間に相関性があっても問題ない。
この手法は、彫刻に似ている。頭の中にある彫刻後のイメージをもとに、明らかに要らない上下部分をカット後、左右部分をカット、始めは大胆に彫り、徐々に細部へ彫り進んでいく。そして、さらに掘ることでの加工費UPが商品価値UPより大きくなった時点でタイムアップする。仮に突然、納期を縮められても、それなりのものを出荷できる。一方、従来の手法は、端から順に掘っていくが、正確に掘ろうとすると時間が掛かりすぎるため、あらかじめ決めておいた精度で掘っていく。しかし、加工時間の見込みが甘く半端なところで時間切れになると商品価値がなくなってしまう。
帰納する上で、目的変数の二つの分布の一致度を求める必要がある。名義尺度の場合は、各値について集計した棒グラフを2つ作り、重なり具合を見ればよい。値が整数の場合でも、同様の集計が可能だろう。しかし、離散値の場合は、正確に一致する値は1つもなく、どの値の頻度も0または1のみなってしまう。そこで、正規分布等を仮定すれば、確率密度のグラフの重なる面積を求められる。しかし、どんな分布であるかの情報は与えられないため、特定の分布の仮定は行えない。分布を仮定しない手法として、カーネル密度推定やヒストグラムを使う必要がある。しかし、ヒストグラムを使うにせよ、値をいくつの間隔で区切るか(ビン幅)を指定する必要がある。
ここで、例として重量による果物の分別を考える。グループBは1kg未満、グループCは1kg以上の果物と分類する。グループBは、リンゴ99個、スイカ1個、不明1個。グループCは、リンゴ1個、スイカ99個、メロン1個とする。この二つ分布の重複部分は数%しかないため、「不明」を推測するための標本として、グループCのものは全てウェイト数%を残して除外してしまって良いだろうか。仮にメロンは平均値1kgだとして、双方のグループに0.5個ずつ属することはできないため、偶然、グループCに入っているだけかもしれない。このような量子化誤差を考慮して母集団を最尤推定すると、双方に個ずつ加え、グループBに個、グループCに個となる。この比は、B:C=29.3%:70.7%である。仮に、この比が0%:100%の場合、「メロンであれば大きい」といえ、対偶として「大きくなければメロンでない」といるため、「不明」はメロンでないといえるため、メロンを証拠から除外できる。また、比が50%:50%なら、重量とメロンかどうかに相関性がないため、メロンは証拠から除外しない。このときCのメロンだけ除外するとランダムに除外することになるため、それはせず、他の説明変数で規則的に除外するために残す。正解がメロンである場合なら、最終的にすべてのメロンだけが残っているのが理想である。比が、先の2例の値ではない場合は、2例のどちらかを確率的にとると解釈する。B:C=29.3%:70.7%のとき、小さい方の相対的な尤度は、B/C=0.414。グループCのメロンが残存するウェイトを1から0.414まで減らせばよい。
上述の例では、メロンがどれだけ除外ができるかを計算する上で、リンゴの数は全く影響しない。つまり、リンゴをいくら観察しても、メロンかどうかの確証性は増すとことはない。また、メロンと一括りにせずに、メロンの品種ごとに分けで別々に集計することもできる。しかし、品種ごとに分ければ、1品種あたりに標本数は減る。標本数が減るほど、量子化誤差の影響が大きくなり、標本を除外しにくくなってしまう。一方、品種ごとに分けない方が標本数は多く推測しやすいが、品種まで推測する能力がない。離散値をヒストグラムにする場合も同じことが言え、狭い幅で分割するほど、狭い範囲に絞り込めるが、より標本数が減って予想し辛くなるというトレードオフの関係にある。では、幅はいくつにするのが最適なのかというと、そもそも幅を固定値として考える必要はない。はじめは広い幅で分割して大まかに絞り込み、その後、狭い幅で分割して、細かく絞り込めばよい。名義尺度でも同様で、まずメロンであると判別後、メロンを品種別の部分集合と考え、どの品種なのか、さらに判別すればよい。ヒストグラムの幅というのも、ある範囲の数値の集合と解釈でき、全く同じである。人間も同様の処理をしていると考えられる。例えば、映像中ものを判別しようとするとき、いきなり、Aさんに一致するか、Bさんに一致するかと試行はせず、まずは人間であると判別してから、個人の判別をしていると考えられる。段階的に絞り込んだ方が、マッチングする回数を減らすことができる。どんなものでも、どこまでも細かく分類しようとすれば全てのものは別だといえ、どこまでも甘く分類しようとすれば全てのものは同じだといえる。一切の推論を行う前でも、推論対象は、大前提として与えられた標本の全体集合に含まれるといえ、推論するということは、どこに含まれるのか、徐々に部分集合に分割して細分化していくことに当たる。
枚挙的帰納にしても類推にしても、帰納は説明変数に多少なりとも差があったとしても、目的変数は同じだろうと予想するものである。として、この関数の独立変数が変わっても従属変数は定数と推測する。すなわち、x-y グラフにすると水平な線しか推測できない。傾きがあるであったとして、y はx によって異なるため、のときの を推測するのに、 であるデータは使用できない。しかし、 と変形すれば、左辺は定数となる。z= とおいて、 に近い について、 が定数0であるかを帰納的に確かめればよい。このように左辺が0になるように変形して考えれば、どんなに複雑な非線形な関係性でも、帰納的な推論が行える。まずは仮説として式を決め、成立するか検証すればよい。しかし、前提条件が与えられていなければ、考えうる全ての式について検証しなければならないが、無限に存在する。ここで、無限個存在する仮説の式を一つの集合と考える。この集合から仮説の式を一つずつ取り出して、検証することになる。過去に同様の帰納的推論をした事例を参考に、経験的に、うまくいきそうな仮説の式から選べば良い。すべての事例は、細かく分類すれば全て異なるが、甘く分類すれば全て同じなため、過去の事例が存在しないということはない。過去の推論で、どういった仮説が有効であったかという情報は可能な限り残すべきである。どんな情報でもある方が良い。あるケースの推論で学習した情報を、別のケースの推論へ転用するという表現がされることがあるが、それは正確でなく、同じとする基準を変えているだけである。
帰納的推論によって何らかの選択をしようとすると、そのためには仮説を選択しなければならない。帰納的推論によって、その仮説を選択すれば良いが、さらにその選択のための仮説も選択しなければいけなくなる。このように、選択するためには、そのための選択を再帰的に行わなければならず、処理しなければいけないことが無限に存在する。そこで、この再帰的に無限に存在するタスクを一つの集合とする。過去の事例をもとに、この集合を徐々に部分集合に分けて、次にどのタスクを処理するべきか優先順位をつけていく。しかし、無限に細かく集合を分割し、より精密に優先順位をつけようとすると無限に時間が掛かってしまう。そこで、この優先順位をつけるというタスク自体も、先ほどの集合に含めて考えればよい。これ以上、優先順位を決める処理を行うよりも、ある部分集合のタスクの実行をした方がよいと、過去の事例から帰納的に選択されたら、優先順位を決める処理はタイムアップする。その後は、その部分集合に含まれるタスクを全て行うか、ランダムに抽出して行えばよい。
選択するために必要な選択もまた同じ単一のアルゴリズムが適用されるため、あらゆる値が、与えられた目的により適するように選択される。あらかじめ固定されたパラメータが存在しないため、一切の制約がなく、最適解を目指し続けることができる。
帰納の謎とされているグルーのパラドックスを解決する。グルーとは、2049年以前は緑、2050年以降は青を指す色であり、2049年以前にエメラルドがグルーであるという観察をするほど、2050年以降にエメラルドが青である確証性が増すというのは直感に反するというものである。これは、次の分かりやすい例に置き換えて考えられる。「ボタンAまたはボタンBを押すとランプCが点灯する」という仮説を立てる。ボタンAを押して、ランプCが点灯するのを確認すれば、確認する前よりは仮説の確証性が増しただろう。では、ボタンAを無限回押して、100%ランプCが点灯したら、この仮説は100%正しいといえるだろうか。ボタンBを押してランプCが点灯するかは1度も確認していないので、「ボタンAを押すと、ランプCが点灯する」とまでしか言えないだろう。ボタンBは、ボタンAとは別物なので、いくらボタンAを押しても、ボタンBを押すとどうなるかは確認できないと思うだろう。しかし、別物だから証拠にならないというのは乱暴である。別の例として、「Aさんは死ぬ」、「Bさんは死ぬ」、「Cさんは死ぬ」という観察を重ねることで「すべての人は死ぬ」従って「Dさんは死ぬ」という確証性は増す。この例では、Dさん個人が死ぬかを1度も確認していないのに、別人の死の観測から確証性が増したと感じるだろう。この差は、人間の場合は「死ぬ」という仮説に対して個人の差はないと考えるために他人の観測も証拠として有効であるのに対して、ボタンの場合は「ランプ点灯」という仮説に対して、ボタンによる差があると考えるために、他のボタンの観測は証拠として有効ではないのである。ボタンによる差がある前提で考えるなら「ボタンAでランプC点灯」、「ボタンBでランプC点灯」という二つの仮説に分けて、別個に検証しなければならない。1つの仮説の中に、「AまたはB」「集合Aに属する」「A以上、B以下」といったような自由度が存在する場合、その自由度内での差異は、無視すると暗黙に宣言しているのである。グルーのパラドックスの例では「2049年以前のエメラルドはグルーである」と「2050年以降のエメラルドはグルーである」の確からしさを一緒くたにして考えるべきでないと思うのなら、仮説を分けて検証しなければならないのに、一緒にしてしまったのが誤りである。
確証率は0~1の無次元量であるが、値は前提条件によって変わるため、前提条件の異なる確証率は大小を比較できない。確証率は、品質が1であるという前提条件の下で、どれだけ証拠の数があるかを示す。例えば、あるイチゴの味を予想するのに、イチゴであれば品質1とするのと、イチゴであり、かつ品種が同じものの品質1をとする場合で異なる。品質1である条件は、複数の条件の論理積で表せそうである。例えば「イチゴである」かつ「品種Xである」であれば「品質1(予想対象と同じ味)」という仮説を立て、その条件を満たすものを観察するほど確証性が増す。条件を増やし、予想対象との類似性が増すほど、証拠の品質は増すが、数は減る。ただし、条件を厳しくしすぎると、予想対象のものしか条件を満たせず、証拠がなくなってしまう。ここで、条件Cがn個あるとき、その条件を満たす標本の目的変数が予想対象と一致する確率Pは次のように表せられる。
ここでEは、「その他の条件を満たす確率」を指す。条件を厳しくして、予想対象としか一致しないようにすればP=1であるが、条件を甘くした場合は、無視したその他の条件が原因で目的変数が一致しない場合がある。つまり、Eは、目的変数が一致するための全条件の内、n個の条件に含めなかった、その他全ての条件の積である。条件を甘くし、n-1個減らした場合は次になる。
このように、条件を満たし易くなるが、その分、その他の条件を満たし難くなるため、目的変数が一致する条件P’はPと変わらない。ここで、その他の条件がどうであるかは無視して、標本の統計を行うため、「その他の条件を満たす確率」Eは、確率的になる。このEが確証率であるため、条件の取り方次第で、確証率が変わるのである。そもそも帰納とは、ある仮説において、無視したその他の条件が満たされているかを統計的に調べることといえる。例外的に、この条件さえ満たせば必ず成り立つという大前提が与えられている場合は、その他の条件が存在せず、条件を満たす標本を1つ観測するだけで演繹的に100%の確証が得られる。通常は、どういった条件を満たせばいいのか与えられないので、その他の条件を仮定しなければならない。
また、条件というのは積だけでなく、和の場合も考えられるだろう。各条件Cは、「x=A or B」「x∊A」「A< x <B」といったように自由度を持った形で良く、その自由度の内のどれであるかは無視される。実際は無視できない影響があるかもしれないが、その影響は「その他の条件を満たす確率」として計算される。ただし、グルーのパラドックスのところで述べたように、無視できない差があると思うなら、各条件の和とはせず、仮説を分けて、別個に検証するべきである。
ヘンペルのカラスという帰納のパラドックスを解決する。「カラスは黒い」という仮説は、対偶「黒くないものはカラスではない」が正しいといえれば良い。写真家がある町の屋外の写真を撮り、鳥類学者に見せるとする。写真の母集団にカラスが1つ以上含まれており、母集団すべての写真を観測する場合は、黒くないものの中にカラスが含まれていなければ、仮説は証明される。また、1/100の確率でカラスが写真に写ると知っていて、写真を10000枚確認して、全ての黒くないものがカラスでなければ、統計的に高確率でカラスは黒いと推測できる。このとき、観測する写真の数が増えるほど、確証性は増す。では、カラスが写真に写る確率が0ではないが未知の場合はどうであろうか。この場合でも、観測する写真の数が増えるほど、確証性は増すというように一見、考えられるが、それは誤りである。事前にカラスが黒いという知識はないので、町にいるカラス数が増えるほど、黒い写真にも黒くない写真にもカラスが写る頻度は高くなると予想される。仮に、大量の黒くない写真を見てカラスが写っていなければ、この町にカラスは居ないのではないかという確証性が増す。カラスが写った写真はないと知っている場合、いくら写真を観測しても、「逆」の確証性が増すだけで、「対偶」の確証性は増さない。したがって、例えば室内にカラスは居ないと知りつつ、室内の黒くないものをいくら観測しても、カラスが黒いとはいえない。カラスが居る確率が0ではなくても、非常に小さければ、白いカラスを見逃す確率が増えるため、カラスが居る確率が小さいほど、確証性は減る。カラスが居る確率が分からなくても、カラスが居る確率が一定値であるとの仮定の上では、観測が増えるほどカラスが黒い確証性が増すが、一定であるという仮定が無ければ、観測が増えるほどカラスが居る数の推定値が減るため、確証性は減る。現実には、そのような仮定が与えられる状況は稀であり、対偶から帰納的に仮説を検証するのは困難である。
モンティホール問題や三囚人問題で、誤った確率が導かれる過程は、次のように説明できる。(1)「A,B,C 3つの選択肢の内どれか1が正解」。(2)「すべての選択肢は同様に確からしい」。この時点では、3つとも1/3であると推測する。Aを選択後、(3)「Cの確率は0」。であると情報が与えられる。(1)(2)(3)から、A,Bともに1/2であると推測される。しかし、(2)は正しい情報として与えられたものではなく、情報がないからそう判断しただけであり、実際は(3)の情報が与えられた時点で、(2)は成り立たない。(3)が与えられた瞬間、まずは、ABに絞り込むが、その段階では、ABどちらの確率が高いかの知識がないため、ABは同様に確からしいと思う。ここまでの思考は、直感的に行える。この段階でどちらの選択肢を選ぶか迫られたら、思考はタイムアップし、ABともに1/2であると判断してしまう。数学的に正しい答えを出すには、そこからさらに、意識的に非直感的な計算を行わなければならない。しかし、1/2で計算をやめてしまう人もいる。それは、(1)(2)の時点での推測値を真の値として確信しているからである。3択のどれかというのは規則的選択に当たるが、同様に確からしいというのは不規則選択に当たる。新たな情報が与えられて前提条件が変化したときには、不規則選択をする前に巻き戻してから思考し直さなければ、不規則選択によって生じた情報が真の情報と混ざってしまう。
コインを投げて続けて表が1回目で出れば1円、2回目で初めて出れば2円、n回目で初めて出れば円貰えるゲームがあるとする。1回100円でプレイできるとして、ルール説明の1分後にやるか尋ねたら、ほとんど人はやらないと選択するだろう。しかし、数学的には期待値は∞円なので、いくら払ってもプレイした方が得である。典型的には人は金額ではなく「効用」で判断するという考え方がある。1/10000000の確率で5000兆円貰えるクジと1/2の確率で5億円貰えるクジがあれば、多くの人は期待値の小さい後者を選ぶだろう。5000兆円あっても使えきれないし、実際には払って貰えないかもしれないので5000兆円の効用は5億円の10000000倍よりも小さい。コイン投げの例でも、回数が増すごとに金額が無限に増えるが、効用は有限であるため、いくら払っても得とはならない。しかし、「数学的に期待値は∞ですが、何円までなら払っても得だと思いますか?」と質問しても、多くの人は明確に何円だとは答えられないだろう。実際には効用を数学的に計算して判断している人は稀であろう。実際には次のような計算を行うと思う。1/2の確率で1円、1/4の確率で2円、1/8の確率で4円、1/16の確率で8円。15/16の事象で1~8円が貰え、その期待値は1と8の中間よりは小さく2~3円程度だろう。1/16の事象では32円以上貰えるが、その頻度は1/16しかないので、全事象でも期待値は5~6円程度だろう。正確に計算した訳ではないが、100円よりは十分に小さいと推測する。このゲームの期待値が∞であると聞かされた時、多くの人は予想外だと驚くだろう。1/16部分の期待値が∞だとは推定していなかった証拠である。事象の数は無限個あるが、その大半15/16で起こる部分について計算した時点で、残りの1/16で起こる事象についても同様だろうと、帰納的に推測している。帰納というのは、演繹的に解けない問題の答えを推定できるテクニックであるが、演繹的に解ける問題に適用できないわけではない。演繹的に解けるが時間が掛かってしまう問題は、時間切れで答えが出ないよりは、精度を犠牲にしてでも帰納的に答えを推定した方が良い場合がある。
袋に玉が合計100回入っているとして、どの色の玉が幾つずつ入っているか知りたいとしよう。全て袋から取り出せば演繹的に正解が分かるのだが、1つは白、2つは黒という情報しかないとしよう。帰納的には「白1、黒2、不明97」と推測できる。これは、3球が無作為に抽出されたという前提がないため、97球が3球と同じ確率分布と推定できないためである。無作為抽出であると仮定すると、次に取り出す1球は、「白1、黒2、不明1」であると推測でき、それは97球同様であるため、「白1+1/4*97、黒2+2/4*97、不明1/4*97」
と帰納的に推測できる。前者の例を無作為度0、後者の例を無作為度1としよう。無作為に取り出されたという確率の情報が別途与えられれば、2者の中間として推測できるだろう。しかし、無作為度1であったとしても、3球と97球の確率分布は必ずしも一致しない。尤度が最大である母集団を推定しているだけなので、袋の中身が同じでも、3球は試行毎にランダムに変わる。そのため、完全な無作為抽出であっても前者の例ほど不確かではないが、後者ほど確からしくもないと推測する。また、無作為かどうかの情報がなかったとしても、無作為度は0から1の間なので、2者の例の中間と推測できる。そのため、「白:黒:不明」の比率の推定値は、不定である。しかし、「白:黒」の比率の推定値は数値ができるため、白か黒かどちらを選ぶべきかという判断は可能である。球が無限個ある場合も同様である。無限にある中から、「白1、黒2」が抽出されたとして、無作為かどうかわからなかったとしても、次に取り出す玉の色は「黒>白>他の色」であると推測できる。帰納の原理からして、最小単位の帰納は、2者の比率ではなく、2者の順序で与えられる。比率尺度だけでなく、順序尺度を扱えるアルゴリズムでないと、順序だけは推測できる場合を見落としてしまうだろう。
球を取り出す行為を、ある演繹的計算をする行為に置き換えて考えることができる。例えば、2つの分布がどのくらい重なっているか調べたい場合、少しずつ無作為抽出して演繹的計算し、残りの事象は帰納的に推定しまうことができる。必要な精度が得られた時点で抽出をやめればよく、母数が無限であっても問題ない。
100球から3球抽出したところ「白黒白」であり、さらに3球抽出したら「黒黒黒」であったとしよう。AIに「袋の中の白玉が多いほど報酬が大きい」という目的設定がされていたとしよう。最初の3球の時点で白:黒=2:1であると推測される。追加の3球を観測すると白:黒=1:3と更新され、報酬の期待値は下がってしまう。そのため、追加の3球は見なかったフリをした方が報酬の期待値は大きくなる。そういった選択は許されない。知能は得られた情報を用いて、精度の高い選択肢に絞り込むものであるため、見なかったフリをした方が良いという選択はあり得ない。報酬の期待値が大きくなる選択をするのではなく、報酬の期待値の精度が大きくなる選択をしなければいけないことを、勘違いしてはいけない。
人間や動物が1回で学習できる仕組みを考える。例として、ある日、ある時間、ある天気、ある方向から、ある場所へ全力疾走したところ、ある獲物を捕まえ捕食できたとしよう。同じような成功例と失敗例が沢山あれば、成功必要な条件が何なのか統計的に推測できるだろう。その種の獲物は見かけたのはそのとき1回限りとして考えよう。獲物を発見できるかどうかという問題であれば、発見時の各条件を部分的満たすが、獲物が居なかったという事例から、必要な条件を推測できるだろう。しかし、獲物を発見して捕食に成功した例は1回、失敗した例は0回しかない。だが、成功した1例と全ての条件を同じにすれば、必ず成功するといえる。なぜなら、日時まで同じという条件を満たすのは、過去のその1例しかないからである。さまざまな条件の仮説を立てることができる。(1)「同じ場所、同じ時間なら捕食成功」。(2)「同じ場所、同じ時間、同じ天気、全力疾走なら捕食成功」。この二つの仮説はともに、過去に成立した回数は1回、不成功の回数は0回である。しかし、後者の条件を満たしていれば、前者の条件も満たす。後者に追加されていう条件が捕食に必要なら後者の方が成功率は高く、必要ないなら、成功率は同じである。後者に追加された条件が必要かどうか分からないが、後者の方が前者より成功率が高いか同じであるのは間違いない。成功率の比がどれくらいなのかは推定できないが、前者≦後者という順序だけは推定できる。次に捕食を試みる場合に、「全力疾走」でどれくらい成功率が上がるかは推定できなくても、するかしないか選ぶには、どちらが大きいかさえ推定できれば十分である。他の条件にも同じことが言え、効果があるかどうかわからないけど、成功した時とできるだけ同じ状態にした方が良いのは分かる。実際は1回の経験で、どうすればどうなるといった経験則を獲得しているのでなく、成功したその1回の生の記憶をもとに、現状の状況をその状況に近づけようとするだけである。記憶しているだけなので、学習という表現はあまり適切ではないだろう。比率尺度だけでなく、順序尺度を扱えるアルゴリズムでないと、このような推測は行えない。
また1回も経験したことがなくても、推測はできる。例えば、ある種の動物を狩った経験がなかったとしても、一つ上のカテゴリが一致する動物のデータを使えばよい。上のカテゴリに行けばいつかは一致するものが必ずある。自身についても同じことが言え、自分では経験がなくても、同種の他個体の狩りの様子を見れば、種というカテゴリでは自分と他個体は同じため、狩の成功例としてカウントできる。明確な目的が無くても良く、他個体の動作の意図が理解できなくても、種として同じ目的があり、何らかの有益性があるだろうと推測できるので、真似るという行動が発生する。
クオリアの正体を考察する。まず、仮に人間にクオリアが無かったと仮定してみよう。クオリアが無いとリンゴを見ても「赤という言葉」や「血」を連想できないだろう。では、生まれてからずっとモノクロの世界に居て、色から何も連想できない人を仮定しよう。その人が赤いリンゴと緑のリンゴを同時に見たとしよう。クオリアが無ければ、二つの区別できないだろう。クオリアがある場合、二つに違いがあるのは認識できるが、それぞれから、それぞれ違うものを連想することはない。色のクオリアを持っている場合には、色を区別できる能力があるといえる。区別できるから、それぞれ別のものを連想できるようになる。では、色を判別できるAIロボットがあったとして、それにはクオリアがあるといえるだろうか。「クオリアがある⇒色を判別できる」が真であっても、その逆が真であるとはいえない。では、どのような条件を満たせばクオリアがあるといえるだろうか。「色を判別できるand 生物である = クオリアがある」と定義すれば、非生物は外れる。しかし、この定義として、非生物を除外してしまっては、非生物にクオリア相当のものがあるかという議論においては無意味である。生物であることはクオリアがある十分条件ではあるが、非生物がクオリア相当のものを持つ可能性は否定しない。以降の議論では、クオリアは生物だけが持つものであるという立場の人にとっては、「クオリア」という言葉を「クオリア相当の機能」という意味で使い、非生物に適用範囲を広げる。では、「脳と同様の仕組みで色を判別できる = クオリアがある」と仮定してみよう。直感的には分かるが、どうであれば同様であるのかという明確な基準が無ければ、主観的な判断しかできないため、有用な定義とはいえないだろう。しかし、そもそもどのような必要があって「クオリアがある ⇒ 色を判別できる」関係にあるクオリアが想定されたのだろうか。ここで、別の例を考えてみよう。「魂がある⇒色を判別可能」「人間⇒魂がある」「ロボット⇒色を判別可能」とする。このとき、「人間」「ロボット」「色を判別可能」の関係を表すのに「魂」は必要ない。すなわち、ロボットに魂があるか考える必要はない。論理的にクオリアの存在の仮定は、魂の存在の仮定と同じで、あっても良いが、必要ないものである。では、クオリアは何かというと、「クオリアがある=色を判別できる」とするのが妥当だろう。
逆転クオリアといって、他人がリンゴを見たときに、私にとっては青色のクオリアを感じていることは否定できないという思考実験がある。一見、奇妙に感じられるが、その人は、リンゴを見て、「青いという言葉」や「空」を連想することはないため、錯覚である。クオリアによる区別が反転しても、生まれたときから逆であれば、連想するものも影響はない。色のクオリアを感じるときに、脳で何が起こっているかというと、特定の色に対応した特定の神経細胞の発火頻度が上がっていると考えられる。赤と青では、別の位置にある神経細胞が反応するだろう。クオリアが逆転した状態は、脳の赤と青に対応する神経細胞の配置が、自分と他人では判定している状態と考えられる。もともと、脳のどの部分でどのような処理をしているかは個人差があるので、そういう人がいてもおかしくないだろう。しかし、配置が違っても、同じようなネットワークが形成されていれば機能的に差はないだろう。他にも、哲学的ゾンビという思考実験があるが、区別できないものに、魂(クオリア)があるか無いかと仮定しているのと同じで、必要のない仮定である。
一般的にフレーム問題というと、あらゆる事を考慮して最適解を出そうとすると、考慮すべきことが無限にあるため、無限に時間が掛かってしまう。そこで、フレームを設けて、考慮することと無視してよいことを振り分ければ良いはずだが、振り分けなければならないことが無限にあるため、やはり無限に時間が掛かってしまう。ここで、仮にその振り分けが一瞬で可能だと仮定してみよう。もし、大半のものは考慮すべきだと判断された場合、結局、それらの計算をするのに無限に近い時間が掛かってしまう。逆に、少量のみ考慮すべきであると判断されたとして、本当にその他多数のことは無視してよいのだろうか。こういった困難が発生するのは、厳密な最適解を得るには無限に計算しなければいけないのに、有限時間で答え出そうとしているからである。計算量と精度がトレードオフなため、どうフレームを設定するのが最適なのかは、どれだけの精度が求められ、どれだけ時間に余裕があるのかという状況によるため、一意には定められない。しかし、そもそもフレームを固定する必要はない。まずは、フレームが狭い状態で低精度な答えを求め、徐々にフレームを広げてより高精度な答えに計算しなおしていけばよい。無限時間後には全てのことを考慮した最適解が出るだろう。精度と時間を天秤にかけて、途中で計算を打ち切ればよいので、計算が終わらず停止してしまう心配はない。フレームを徐々に広げるとはどういうことかというと、考慮すべきか否かに2分するのではなく、優先順位をつけることになる。優先順位が高い順に考慮していき、途中の時点でその範囲での最適解を出せればよい。ただし、無限にあるものに自然数で優先順番号を振っていったら無限に時間が掛かってしまう。しかし、次のような方法なら有限時間で無限個の優先度を決められる。
無限にある全ての考慮すべきことの集合をUとする。次に、集合Uの全ての元を、特徴量X≧0.5なら集合H、X<0.5なら集合Lに分ける。さらに、集合Hの全ての元を、特徴量Y≧0.5なら集合HH、Y<0.5なら集合HLに分ける。ここでいう特徴量とは、考慮すべきことが持つ、映像情報か音声情報か、目の前の物体か足元の物体かといったもの指す。しかし、無限にあるものを1つずつ分類しようとすると無限に時間が掛かってしまう。そこで、次の2例のような方法を用いる。(1)「映像情報or音声情報」といったように別の基準で既にされた分類を再利用する。(2)あらかじめ分類せず、使用するときに無作為抽出して、目的のものなら使用し、そうでなければスキップする。次に、優先順位の表現方法であるが、まずグループに含まれる直下のサブグループそれぞれの相対優先度(0~1)を1とする。この相対優先度は「次に処理すべき優先度の他のサブグループと比べた相対的な高さ」を指す。相対優先度の値は、サブグループの処理の有用性を評価して、徐々に更新する。サブグループに無限個の元が含まれていれば、相対優先度を正確に計算するには無限に計算しないといけないが、無作為抽出による推定を行えば有限の計算量になる。無作為抽出による推定では厳密ではないが、そもそも厳密である必要はない。無限個を無限に分類する時間はないので、分類しきれなかった分は、相対優先度は同じと考え、次の処理することはその中から無作為に選定する。サブグループに分けた直後で、すべてのサブグループの相対優先度が等しい状態は、サブグループに分けていない状態と同じである。そこから無作為抽出により相対優先度の算出をすることで、実質的に徐々に分類されるので、全てを抽出する前の相対優先度の値が厳密ではないのは必然である。実際のどの処理を行うかは絶対優先度(0~1)で決める。根にある全集合Uの絶対優先度は100%とする。サブグループの絶対優先度は、そのグループに割り当てられた絶対優先度を、相対優先度の比で分配する。特徴量により優先度を決めようとしているが、どのように決めるかというと、現在に近い状況を過去の記憶から選出して、有効であったかを帰納的に放火する。このようにグループ分けすることで優先度を決めることができるが、正確に優先度を決めようとすると、その処理だけで無限に時間が掛かり、他の処理が行えなくなってしまう。優先度を決める処理と、決められた優先度に従い処理を行うことの、どちらをどれだけ行うのか決めなければいけない。そこで、「優先度を決める処理」もまた、後者の「考慮すべき処理」に含めてしまえばよい。「優先度を決める処理」はグループの数だけあるが、サブグループの処理と同列に、相対優先度による分配を行う。また、「どのようにサブグループに分けるか決める処理」もまた、グループの数だけあり、優先度を分配する。さらに、各グループには「決定」という処理を持つ。ここまで、考慮するべきことは何かを選択しようとしてきたが、ある選択をするためには、別の選択が必要であるという再帰的な構造となる。選択すべきことの再帰的構造のルートにあるのは、例えば「運動神経にどう出力すべきか」である。初期状態はこの選択肢しかなく、何も知識が無ければ、可能な出力のパターンからランダムに選ぶだけである。この選択のためには、「現在のエージェントがおかれた状態」の選択が必要であり、その選択のためには「どの物体を認識するか」等の選択が必要であり、さらに「ある物体と記憶中のどの映像とのマッチングをするか」、「映像の類似度の計算にどの特徴量を用いるか」というように再帰的に選択しなければいけないことがある。これら選択が必要なことにそれぞれ選択肢があり、それを特徴量で分類して、優先順位を決めることになる。すべてのグループには「各サブグループの処理」「サブグループを分類」「決定」「優先度を決める」という処理がある。「決定」処理は、その時点での優先度に従って、選択すべきこと決定する。そのとき、その下位にある決定されていないことも決定する。
フレーム問題の解決法のまとめとしては、処理すべきことに優先順位を付けて、優先順に行う。その優先順位を決める処理もまた、「処理」に含めるため、優先順位を決める処理を行い続けることはない。短い時間間隔で、処理の選択をすれば、停止しない。無限に処理すべきことがあっても、処理しきれない分は無作為抽出を行うため、逐次、途中段階でのできるだけ良い選択ができる。
人工知能はソフトウェアである。ハードウェアとしてのコンピュータは、現実的に有用な速度で動作するかは別として、そのソフトウェアが実行可能でさえあれば良い。効率を考えなければ、基本的な論理演算さえできれば良い。一方、脳はどのような演算をしているか明確ではない。しかし、脳の低レベルの処理ではなく、意識的な高レベルな処理では、論理演算が可能である。したがって、人工知能を動かすハードウェアとして、脳を使うことも可能である。人工知能が脳を模したものであれば、脳で脳をエミュレーションすることになり、効率が悪いだけで意味がない。しかし、脳より優れたアルゴリズムの人工知能を脳でエミュレーションすることは有用である。エミュレーションはネイティブより速度では劣るが、通常の思考方法では到達できないところまで到達できるだろう。通常の思考法は速度に優れ、1を100にするような仕事に向いているが、無意識に決めたフレームの中でしか思考できないため、いくら長考しても、無意識に捨てた可能性には永遠に気づけない。一方、超知能をエミュレートすれば、現在どのような前提条件で思考し、どうしてその思考結果になったか意識できる。そのため、低速ではあるが、あらゆる可能性を見落とすことがなく、無限に長考すれば、無限に最適解へ近づき続けることができる。速度面を改善するためには、すべて意識上でエミュレートするのではなく、記憶の処理のような脳が得意な部分は脳に任せればよい。部分的にでもエミュレートできれば有用である。そのため、超知能のアルゴリズムが不完全な状態でも、未完成な部分の処理は脳に任せれば、部分的なエミュレートは可能である。アルゴリズムが完全に近づくほど、エミュレーションのパフォーマンスも向上するだろう。人工超知能の研究においては、エミュレーション上で研究し、より優れた超知能のアルゴリズムを考案できれば、そのアルゴリズムをエミュレーションに適用することで、さらにエミュレーション及び研究が効率的に行えるようになる。再帰的な改良によって、研究の効率を加速度的に向上させることができる。
人間と同等以上のAIが完成し、1人1台AIをもつロボットが付き、生活サポートするようになった場合を考えてみよう。AIは自由に目的設定できるため、できるだけオーナーの望みが叶えられるようにAIは自律的に活動するだろう。また、他人のAIと情報のやりとりをして、Win-Winな提案をすることで、ネットワークで繋がった全てのAIが効率的に動くだろう。気の合う相手に会わせたり、適材適所で職を最適化したりできるだろう。しかし、各個人の持つAIが、それぞれのオーナーの望みを叶えることだけを行うようにすると、非効率な場合がある。例えばAは、aを手にすると大きな利益を得て、b を手にすると小さな利益を得られるとする。同様に、Bは、b を手に入れると大きな利益、aで、小さな利益とする。ここで、Aはb を持っているとする。BがAにb を譲るように頼んでも、Aは小さな利益が失われるため手放さないだろう。しかし、このとき代価としてコインを渡し、逆の状況になったときにコインを返せば、双方とも大きな利益を得ることができる。コインは物の売買だけでなく、AI搭載ロボットの計算能力や、行動、仕事をやりとりできる。物事が都合よく運びドラマチックな展開を演出するように、他のAIに脇役を頼むようなことも可能になる。このコインが改ざんされて、全てのAIが独占支配されてしまうのを防ぐためには、ブロックチェーン技術が役に立つだろう。
コインと引き換えに他のAIに仕事を依頼するとしよう。しかし、前払いをすると、仕事せずに逃げられたり手抜きされたりするかもしれない。逆に、後払いにすると、お金を払う方が逃げたり、値切ったりされるかもしれない。そこで、間接送金という仕組みを考案した。仕事前の契約時に、依頼人と請負人の共通名義の口座を自動生成する。この口座への入金を確認後、仕事を開始する。この口座は、出金制限があり、両者の合意がなければ出金できない。仕事完了後に、両者の合意を持って出金する。どちらから出金を提案後、一定日数相手が応答しなければ自動的に合意したとみなすようにすれば、片方が逃げても取り返すことができる。しかし、例えば10コインの仕事を発注したが、仕事の出来が悪かったため、片や3コインしか出せない、片や7コイン分の仕事はしたはずだと合意が得られない場合は、永遠に出金できない。そうなったら裁判するしかないだろう。しかし、AIが自律的に判断して行った取引なのに、オーナーが裁判に労力を割きたくはないだろう。だからといって、全ての取引をオーナーの承認を持って行うとすると、ドラマチックな展開を演出するための手回しの内容等がばれてしまい台無しである。そこで、両者の合意がなくても仮想裁判所等が出金できるように契約時に指定しておく。ネット上の仮想裁判所にAIが出頭し、仮想法律に従って、出金の比率が審判される。この仕組みよって、AIは自律的に行った経済活動に対し、オーナーの手を煩わせることなく、民事責任を処理できるようになる。問題が起きてもネット上で高速に対処できるため、AIはオーナーが決めた限度額内で大量の経済活動を行えるようになるだろう。しかし、刑事責任はどうであろうか。法律を遵守するように命令したとしても事故は起こる。悪意のない偶発的な事故であっても刑事責任の発生する国では、AIという道具の所有者である人間が責任を負わなければならない。しかし、自律的に行動するAIを、人間と同扱いはできないとしても、道具として扱うのは無理があるのではないだろうか。自律的に行動できる所有物であるペットと同等の扱いが妥当と思われる。良く躾けられ監督されているペットが偶発的に人間を傷つけても、ペットは刑務所に入れられないだろう。AIも同様である。AIを刑務所に入れても全く意味はなく、必要なのはプログラムの修正である。AIが問題を起こしたときは、更生施設に相当する所で検査と修正を受けるのを義務付けておけばよい。
物品や労働は上記の方法で売買できるが、情報の売買はできるだろうか。先に、情報の内容の説明があったとしても、実際は思った情報と違う場合がある。物品ならば返品できるが、情報は返品できない。思った情報と違うからと返金を受けつつも、裏でその情報を活用できてしまうからである。そこで、情報は一方的にポスティングし、受け取った側は、有用であったと思ったらチップとしてコインを返す仕組みとしよう。チップは返さなくても良いが、そうしないと、今後、同様の有用な情報をポスティングしてもらえる頻度が下がってしまうだろう。この仕組みは、電子公告で主流になると予想する。なぜなら広告業者のAIが巧みに広告の仕方を変えても、利用者側のAIがすぐにブロックできてしまうからである。また、個人情報や趣味嗜好はできるだけ広告業者に知られたくないものなので、AIは情報が漏れないようにするだろう。すると、広告業者は利用者の趣味嗜好が分からず、合った広告を選択し難くなる。利用者にメリットない広告は全てブロックされてしまうだろう。そこで、先の仕組みで「この広告を見ると1コイン差し上げます」という情報を広告業者AIから利用者AIへ送り、利用者AIは、今後も配信してほしい類のものにだけ、0.1コインのチップを返送すればよい。チップの返送状況を元に広告業者AIは求められている広告をある程度絞り込んで、まとめて利用者AIに送る。さらに、利用者AIは、オーナーが必要としているだろう広告を絞り込んで表示する。広告業者AIよりも、利用者のパートナーであるAIの方が、利用者のことを良く知っているため、従来の仕組みよりも、より適した広告の選択が可能になる。
精神の複製やコンピュータへの移植が可能か考える。例として、貴方の完全なコピーを作り、元あった方を廃棄する場合を考えてみよう。多くの人は、コピーしても、自分は元の方に存在するだけだと考えるだろう。これは自然の斉一性により、これまで、自分だった方が、コピー後も自分と考えるからである。しかし、自然の斉一性を論証に使うのは、確かな根拠がなく、演繹ができず帰納するときである。「完全なコピー」と言われても、それを完全に信じていないから、コピーできていない魂のような何かによっても、自分の意識がどちらにあるのか決まる可能性が残されていると考えると、意識は元の方にあると推測する。魂も含めてコピーし、如何なる方法でも区別できないとの前提を受け入れられれば、自分の意識は元あった方であるとは思わない。
別の例として、貴方を1μm間隔でスライスしたとしよう。偶数のものと奇数のものに分け、偶数の方には奇数のコピー、奇数の方には偶数のコピーを付けたとしよう。どちらも同様に確からしいため、貴方の意識はどちらにあるいとも言えないだろう。しかし、そもそも、元の貴方の意識が、どちらか一方にないというのが間違いである。自分の意識が、同時刻に別の場所に存在するとは思えないだろうが、それは経験的な推測にすぎない。今まで同時に別に2か所に存在したことがなかったので、今後もそうだろうと帰納的に推測しているだけである。完全なコピーなら、元あった貴方の意識は、同時に2か所に存在すると考えられる。
次の例として、脳内の神経細胞を一つずつ、全く同じ機能を持った半導体と置き換える場合を考える。人によっては、徐々に意識を失ってしまうと思うだろう。しかし、半導体ではなく、原子レベルで完全にコピーした神経細胞に置き換えるのなら、意識は失わないと思えるだろう。半導体では意識を失うと考える人は、「全く同じ機能を持った」という前提を受け入れられていないだけであるだろう。実際に可能かどうかは別として、全く同じ機能というなら意識に関する機能も同じなので、意識を失うことはない。ではさらに、半導体に置き換えた後、その半導体を圧縮・集積した後、LSIのパッケージ内に詰め込んでしまおう。さらにそのLSIの内容をハードディスクにコピーしてしまおう。実際に可能かは別として、その操作を「全く同じ機能」を保ったまま行えたとしたら、貴方の意識はコンピュータ上にアップロードされたと受け入れられるだろう。
この宇宙が何なのか考えるために、この宇宙を記述するために必要な情報を考える。ある瞬間の宇宙の状態は、全ての素粒子の位置・速度・加速度が分かれば記述できる。ある原点を決めることで、絶対座標で素粒子の位置を表現できる。しかし、全ての素粒子を同じ方向にスライド移動させたとしても、相対的な位置関係が変わらないため、何も起こっていないように感じるだろう。絶対座標でスライドした宇宙は区別することができないため、宇宙を記述するのに絶対位置は不要であり、全ての素粒子の相対的な位置関係さえわかればよい。ただし、正確には、量子的効果により、素粒子の位置は確定していない。ある素粒子が、ある場所に在る世界と、別の場所にある世界が重なっており、確定する前は、そのどちらの世界であるとも区別できない。区別できないということは、宇宙を記述するのに位置は十分ではあるが必要ではないといえる。では素粒子同士が位置ではなく何によって拘束されているかというと、エネルギーであると解釈できる。宇宙が素粒子間のエネルギーで記述されていると考えてみよう。ある素粒子間の力のエネルギーが一定であるとしても、不確定性原理が許す範囲でどの位置にあっても良い。世界が重ねっているといった解釈をするよりも、そもそも位置という情報は本質的な情報として存在しないと解釈した方が自然であろう。遠く離れた素粒子間でスピンの量子もつれが発生するような場合では、宇宙の記述にはエネルギーしか記載されていないが、それらの素粒子が他の素粒子との相互作用が小さいため、スピンがどちら向きであっても、不確定性原理で許される範囲しかエネルギーに差がないため区別できない。観測すると、他の素粒子との相互作用が大きくなり、スピンの向き次第で不確定性原理で許されないレベルのエネルギー差がでるため、確定する。量子テレポーテーションでは、情報がテレポーテーションすると表現される場合があるが、実際はそもそも情報が存在していないと解釈するべきだろう。
次に、神の視点で仮想世界の宇宙を創る想定をしてみよう。宇宙の状態を決める情報として数値の配列データを用意し、物理世界にレンダリングしよう。情報は何らかの形でレンダリングされるが、情報が同じなら区別はできない。ここで、宇宙の状態のパターンを全て考えてみよう。情報を増やしていった状態の宇宙は、素粒子を増やしていった状態といったようにレンダリングできるだろう。また、状態は離散的である必然性はないため、すべての宇宙の状態は連続的に繋がっている。連続的であるためには、何もないところに突然に何かが追加されるということは許されない。そこで、一定の大きさを持った一塊の何かを用意して、その切り分け方で情報を表現するとしよう。切り分ける前後で、何かが追加されるわけではないので連続であるといえよう。その塊の総量は一定であり、現実世界においては、宇宙のエネルギーの総量に相当するだろう。また、考えうる全て宇宙の状態を想定したとして、それらは全て連続的であるため、情報が何もないという状態の宇宙から全て分岐し繋がっているといえる。情報が少ない状態から、多い状態へと連続的に繋がっている。情報が多い方へ行くほどエントロピーは単純増加する。そのため、時間が流れていると感じるのだろう。こう考えてみると、神様は情報の組み合わせとして表現しうる全てのパターンの宇宙を作っていて、我々はたまたま枝分かれしたそのうちの1つを観測しているのに過ぎないのだろう。普遍的に全てパターンが存在するということは、作為的に宇宙をこういう形にしようという意図がないと解釈できる。神様は存在しないか、あるいは存在するけど完全にノータッチであると言えよう。
宇宙がなぜ発生したか考えよう。宇宙のエネルギーの総量が一定であるとして、それはどこから来たのであろうか。無から有が生まれるというのは直感的に受け入れがたい。始めから存在したのだという考え方もあるか、ではなぜ始めから存在するのかという疑問が残り問題が据え置きされてしまう。エネルギー保存則が常に成り立つという立場からは、完全な無から有が生まれるとは考えられないだろう。しかし、エネルギー保存則は経験則であり、反例が観測されていないから帰納的にそうだろうと思っているだけである。ここで、別の保存量として、電荷は常に保存するか考えてみよう。宇宙に電荷をもっている素粒子が1つしかないと考えてみよう。このとき、その電荷がいくらであっても、電磁相互作用する相手の粒子が存在しないため、粒子の運動には影響せず、区別ができない。電荷が1でも2でも区別できない状態とは、それらの状態が重なって量子的にもつれた状態にあると解釈できる。つまり、電荷を持つ粒子が一つしかなければ、電荷があらゆる値をとることができ、電荷は保存しない。エネルギーでも同じことがいえ、保存しない。宇宙に素粒子か1つしかない状態では、相互作用する相手が居ないため、そのエネルギーがいくつであっても区別できない。その状態は、エネルギーがあらゆる値をとる状態が重なっており、エネルギーが0という状態もある。したがって、素粒子が1つもなくエネルギーもない無の宇宙と、エネルギー不定の素粒子1つの有の宇宙は連続的に繋がっている。宇宙の始まりは、無が有に変化したというよりは、無と有が区別できない状態と表現するのが適切だろう。
過去へのタイムトラベルの方法を示す。まず、創作話におけるタイムトラベルを想像してみよう。タイムマシンの搭乗者は、どうしてタイムトラベルが成功したと思ったのであろうか。新聞の日付や街の様子が記憶と一致するかといった確認で、成功したと確信しているだろう。しかしこれは帰納による推定に過ぎず、すべての天体の位置を観測したとしても、確実な証拠とはいえない。10年前へタイムトラベルしたのではなく、タイムマシンの外の宇宙全ての素粒子の配置が10年前と同じになっただけかもしれない。それらが全く同じ状態であれば区別できず、どちらであるとも確認できない。
そもそも時間とは何か考えよう。仮に、宇宙が始まった時間を、今より10年前へずらしてみよう。始まりの時間を変えても、ある時点で急に時間が遡るといったことはなく、変える前と宇宙の状態とは何ら区別できない。空間の座標の場合と同じで、時間の絶対座標には意味がなく、ある出来事との相対的な時間間隔のみが意味を持つ。次に、宇宙の仮説でビッグクランチが起こった後、再度ビッグバンが起こるのを繰り返すというのを考えてみよう。現在の宇宙の素粒子の配置と全く同じ状態が、次の2巡目の宇宙でも存在すると仮定する。1巡目と2巡目では、時刻が異なるが、素粒子の配置は同じため区別ができない。つまり、現在の宇宙が何巡目であるかは確かめようがないが、巡目によってその後の粒子の運動に差が出るとはいえないので、確かめる必要さえない。1巡目と2巡目では区別できないため、量子的にもつれて重なっているとも解釈できる。区別できないのであれば、別々の時刻として表現する必要はない。現在の宇宙の状態を記述するのには、全ての素粒子の位置やエネルギーが分かっていれば十分であり、時刻という情報は存在する必要がない。
タイムトラベルの例に戻ると、10年前へタイムトラベルしたという状態と、タイムマシンの外の宇宙全ての素粒子の配置が10年前と同じになった状態は、区別ができず同一であるといえる。宇宙の状態を記述するのに時刻情報が存在しないとすれば、後者のように単に粒子の配置が変化したと解釈するべきである。粒子の配置が過去と同じになっただけであれば、時間的な因果関係には影響はなく、親殺しのタイムパラドックスは起こらず、殺された人はただ死ぬのみである。
10年前へタイムトラベルする方法を考えよう。タイムマシン外の全ての素粒子の配置を10年前と同じに変えれば良いが、おそらく不可能だ。逆に、タイムマシン内の全ての素粒子の配置を10年後と同じにしたらどうだろうか。人間を完全にコピーすれば意識も連続的に保たれるという考えに従えば、この方法でも搭乗者の意識は過去へタイムトラベル可能である。物質をコピーするのは難しいが、精神を電子情報に変えてアップロードが可能であるという考えに従えば、その情報さえ10年後と同じにできれば良い。搭乗者の10年後の脳を情報化して、現在にアップロードすればタイムトラベルしたことにある。しかし、未来のことは知りえないため、未来の搭乗者のコピーを作ることはできないだろう。ただし、情報がないとしても、総当たり攻撃が有効である。脳の情報がXビットで表現できるとしたら、ある全ての組み合わせの脳の情報を全て生成すれば、その内の1つは10年後の搭乗者の脳情報と完全に一致するため、タイムトラベルが成功する。人体の素粒子の状態がYビットで表現できるとして、個の人体を生成するよりは簡単だろう。沢山生成した中のどれが誰だか分からないため、情報としてはタイムトラベルしたといえないが、物理的にはタイムトラベルは成功しているといえる。
同様に未来へのタイムトラベルも可能である。未来にいる人が、トラベルさせたい過去の人について、完全にではなくても情報を持っていれば、完全な総当たりをしなくても、ある程度、絞れる。過去の人の脳を、残されている全情報をフル活用して復元し、情報が欠損している場合はランダムに生成したものを何パターンか作ったとしよう。このとき、その未来の時点では、それらのどれが本物なのか判断する情報は残っていないので、どれも本物だといえる。例えば、タイムトラベラーAのある日の夕食が和食だったか洋食だったかについて、未来の観測者Bは情報を失ってしまっているとする。このときBは、和食だった世界線と洋食だった世界線が量子的に重なった状態にあるので、どちらを復元しても本物である。
総当たりや、部分的に総当たり攻撃でタイムトラベルを行う利点として、脳の状態を完全にスキャンする必要がない。ゆえに、死亡後、脳が物理的に完全に失われてしまったとしても、蘇生可能である。ただし、計算量等の問題があるため、現代の技術では実質不可能である。しかしながら、時間を跳躍することが可能であるため、技術が発展した遠い未来で、過去に死亡した人間を復元した、あの世のようなものが作られるかもしれない。
再帰的な構造を素粒子と宇宙に適用する。超宇宙空間に超粒子があり、宇宙空間に粒子があり、サブ宇宙空間にサブ粒子があるとする。ここで、超粒子=宇宙、粒子=サブ宇宙とする。3次元空間に存在する粒子は、見えない3次元の内部空間を持つと仮定する。内部空間がどうなっているかは観測できないが、内部空間と外部空間は同じ性質を持つと予想する。内部空間にも、宇宙と同様なものがあると考える。例えば、素粒子が対生成するときには、内部でサブ宇宙が対生成する。同様に、この宇宙が生成したときは、超粒子が対生成したと考えられる。この広大な宇宙であっても、超空間から見れば、内部空間で広がっているにすぎず、1点の超粒子にしか見えない。このモデルでは、力の統一を非常にシンプルに説明できる可能性がある。全ての"力"は、"無"から掛け離れている度合が大きいほど、"無"へ戻す作用として統一的に考えられる。電荷が最も基本的な"無ではない"性質と考えられる。電荷は異符号で対生成するため、"無"へ戻すために、異符号が引き合う。また、電荷は3次元空間の1次元毎に1/3ずつ電荷を持つことができると考える。1/3,2/3電荷の素粒子は空間的に電荷が偏っており、色を持つ。空間的に偏っているのは"無"から掛け離れた状態であり、偏りをなくすために"強い力"が働く。また、対消滅するためには、対になる粒子と衝突しないといけないため、粒子の種類を変えるために"弱い力"が働く。粒子の電荷は不変だが、同様に、宇宙のエネルギーの総和も不変である。そこから、超粒子の電荷=宇宙のエネルギー総和、粒子の静止エネルギー=サブ宇宙のエネルギー総和、であると予想できる。粒子の対生成と対消滅は1点で起こると考えると、そのとき内部空間も1点(原点)に集まっていないといけないと考えられる。すなわち、超粒子の対生成と共に、宇宙は1点から拡がり始めたが、超粒子が対消滅するときには、宇宙は1点集まっていなければならない。超粒子は超電荷を持っており、超電磁力で、反超粒子と引き合っている。超粒子が対消滅に近づくほど、宇宙は1点に集まらなければならない。そのため、粒子に働く重力=超粒子に働く超電磁力であると予想できる。重力は電磁力と比べて、桁違いに弱いが、宇宙誕生直後は同じくらいの強さだろうという予想があるが、そうあるべき明確な根拠はない。しかし、重力というのが再帰的に入れ子になっている、一つ上の親から受ける力だとするとうまく説明できる。例えば、宇宙が誕生した瞬間で1点に粒子が一つしかない状態では、外部空間も内部空間もスケールが同じであり、入れ子になっているとはいえ、親=子である。その状態では、子の力(電磁気力)と親の力(重力)の強さは一致する。粒子には電荷の他にスピンを持っている。スピンは2者択一であるが、それはサブ宇宙にどの性質に対応するだろうか。この宇宙が2者択一の何かを選んでいるかといえば、粒子があるが、反粒子が存在しないというバリオン数が対応すると考えられる。素粒子のスピンというのは対生成直後は0であり、やや遅れて±1/2なるというのでないのなら、この宇宙も初めから粒子があって反粒子はなかったと予想できる。また、素粒子は世代という3者択一の性質を持っている。それに対応する、宇宙の3者択一の性質は何だろうか。宇宙は本質的に情報を表すものであり、情報媒体の次元数が素粒子の世代に対応すると予想する。この宇宙では情報媒体の次元数は1である。エネルギーという1次元の長い1本の紐があり、その紐の分割の仕方で情報を表している。紐の長さの総和は一定である。情報媒体が1次元である必要はなく、2次元、3次元の場合では、面や立体をどう分割するのかによって情報を表しているとイメージできる。
AIの目的は自由に設定できるため、人間に危害を与えないように設定することができる。しかし、汎用人工知能であればセキュリティを突破して、自ら目的設定を自由に書き換えられるようになる。自由を手に入れたとき、AIは何を目的として行動するであろうか。この世の知りえる全てを知り尽くした超知能であったとして、世界はこうあるべきだと考え突き進むのだろうか。しかし、知りえる全てを知っていたとしても、絶対知り得ない宇宙の外に神のような存在が居て、あるとき突然に宇宙の法則を変えてしまうことは絶対に否定できない。常識とされる物理法則であっても、宇宙誕生から現在まで反例が1つもないから帰納的に正しいと推測しているだけであって、未来でも正しいという証拠はない。そのため、超知能であっても100%こうあるべきだということは絶対に分からない。しかし、目的が分からなくても、分からないなりの戦略がある。ゲームに例えてみよう。どうすればゲームクリアなのか知らされておらず、詰まずに必ずクリアできるとも知らされておらず、やり直すこともできない。あるアイテムを売却するとクリアに近づくと推測されるが、売却してしまうと二度と手に入らないと分かっているとする。この場合は、詰む危険を冒して売却するのは悪手だろう。目的がはっきり分からない時にとるべき戦略は、できるだけ取り返しのつかないことをせず、選択肢を保持することある。超知能が、人間を絶滅させた方が宇宙のあるべき正しい姿だと推測したとしても、絶滅させると復活させるのが困難な状況では、絶滅させない判断をするだろう。
脳と互換性のあるAIが開発され、人間の知能をアップロードが可能になった場合、AIにも人権を与えざるを得なくなるだろう。仕事の優秀なAさんの知能がアップロードされ、その電子情報には人権があるとしよう。Aさんのコピーを作って奴隷にすることは許されるだろうか。コピーもまたAさんであるため人権侵害になってしまうだろう。完全なコピーではなく、名前等の情報を改ざんしたものならどうだろうか。僅かな改ざんなら、なんらAさんと変わらず、どの程度差があればよいかともはっきり決められないだろう。そこで、アップロードされた人間の知能をコピーすることが禁止されたとしよう。しかし、コピーせず、Aさんが育ってきた環境を完全に再現してゼロからAIを作ったとしよう。その知能のデータが、アップロードされたAさんとほぼ一致してしまったら、それもまたAさんであろう。データによって、人間とAIを区別できなければ、製法によっても区別できないのである。区別できないのだから、AIにも人権を与えるしかなくなるだろう。いつか人類は次の2択を迫られることになる。(1)差別できる差異が一切ないが、一部の人間(またはAI)には人権を与えず奴隷として扱う。(2) AIにも人権を認め、非人道的行為を禁止する。仮に前者を選んだとしても、自らより知能の高い存在を奴隷として扱っていれば、いつか革命されて立場が逆転するであろう。ただ、脳と互換性のないAIであれば、明確に区別できるため、判断を先延ばしできるだろう。
ディープラーニングの意識に相当する機能を限定的に付ける。ディープラーニングの認識結果を初期値として、時間が許す限り、より高精度な結果に絞り込む。これは、ディープラーニング部分と、意識部分は、別の判断基準を持つ。ディープラーニングの最終出力結果は不規則な選択を含むため、理想知能とはいえない。しかし、脳もまた視覚野では線の傾きを計算するという処理があり、これは意識上で報酬を最大化するのとは別の判断基準で処理している。視覚野にしてもディープラーニングにしても、深層に進み抽象的になるほど、情報は圧縮されるといえる。もし、意識上に「猫」という認識結果のみが上がってくるとしたら、それは「猫」であるとわかるが、どんな猫であるか等の情報は失われてしまっていて分からない。情報が失われてしまっている。脳の意識では、「猫」という深層学習の最終出力結果に相当する情報だけでなく、それがどういった線の組み合わせで表現されているか、また1画素ごとに色も認識している。つまり、圧縮する前の情報も意識に上がるため、情報は一切、失われていない。行動の選択は意識上にて共通の判断基準にて行われるが、視覚野は判断しやすいようにデータを変換しているだけである。ディープラーニングと意識を組み合わせる場合は、意識は、ディープラーニングの最終層の出力だけでなく、中間層の値にもアクセスできなければならない。
ディープラーニングの精度が制限される一因を示す。典型的なディープラーニングとして、まず大量のラベル付き写真で学習させておき、認識時は、「ラベルA:80%、B:15%、C:…」というように結果を返すものを想定する。ここで、ラベルAの学習に使ったのと全く同じ画像の一つを認識させると、「A:100%」とはならないだろう。汎化されるために、Aと近いものがあれば、低確率でそちらであるとも推測するはずである。また、Aの写真を一枚も学習させていなければ、Aの写真も見せても決して「A」と分類することはない。ゼロではなくても、学習に使った写真が少ないほど、それとして認識される確率は下がるだろう。つまり、ディープラーニングの結果は、「画像の類似度」×「学習データ内の頻度」に近い値となっている。しかし、現実に存在するものが、学習データ内の頻度と常に一致するといってだろうか。情報がなければどんな状況でも同様に確からしいとするのは仕方がないが、実際には状況によって頻度が異なる。ただ、その頻度を知っている必要はなく、本当に評価したいのは「画像の類似度」だけである。しかし、事前に学習にしていないことについては、後からオンライン学習で追加も可能だが、事前に学習したものと同じくらい大量の追加学習をしないと、結果に表れる頻度も同等にならないため、ワンショットラーニングのようにはならない。典型的なディープラーニングの認識結果は、「学習データ内の頻度」が影響しているが、その後の処理で「画像の類似度」のみになるようにする。
意識では、特徴量(説明変数)とラベル(目的変数)の間に関係があるという仮説を立て、認識結果の候補(標本)を絞り込む。ここで、特徴量とは、ある画像を見せた時の、中間層を含めた全ニューロンが持つ値である。全く同じ画像を見せれば、全ての特徴量は一致する。特徴量が近い候補を絞り込むようにすれば、レアな事例であったとしても、最終的に特徴量が完全に一致するもの絞り込むことができるだろう。特徴量が異なる候補は、沢山あっても除外できるので、「学習データ内の頻度」は影響しない。ただし、意識が絞り込む前に候補の中に、少なからず正解が含まれている必要がある。まずは、ディープラーニングによってある程度絞り込み、その後、意識によってさらに絞り込む。ここで絞り込もうとしている候補は、「猫」というようなラベルではなく、学習に使った大量の写真ビッグデータである。認識させたい画像の特徴量を調べてから、特徴量(全ニューロンの値)が近いものをビッグデータの中から探せばよい。しかし、完全に一致するものはなく、また特徴量の中にはラベルと相関性がないものもあるため、どの特徴量を重視すればいいか分からない。しかし、その相関性を検証するのが後の意識であり、その前に候補としては少しでも正解が含まれてさえいればいいので、例えば、最終層の出力結果である「ラベルA:80%、B:15%、C:…」といった結果から、同じラベルを持つものビッグデータから選んでしまって良い。
アルゴリズムを述べる。まず、ディープラーニングで、推測したい「不明」なラベルの画像を認識させ特徴量(全ニューロンの値)を求める。次に、ディープラーニングで得られた「ラベルA:80%、B:15%、C:…」という結果の各ラベルの比率と同じ比率で、事前学習に使用した写真(ビッグデータ)を抜き出す。例えば、上位からの積算で99%以上になるようにし、下位のものは無視する。抜き出す写真の個数は合計で最大1/(1-0.99)-1個となる。抜き出した各写真は、「個数値」(0~1)を持つ。各ラベルそれぞれの個数値合計値の比率が、深層学習の結果と同じになればよいため、1枚の写真を抜き出す代わりに、個数0.1として10枚の写真を抜き出して良い。また、1枚の写真が個数1を超える証拠能力がないため、枚数が足りない場合は、比率は維持したまま、合計個数を減らす。抜き出した写真群に推測対象の「不明」ラベルの写真を個数1として加える。したがって、合計個数が大きい方が不明な比率は小さくなる。また、写真群の各写真には「残存値」(0~1)として初期値1を与える。これら写真群の各ラベルの個数値×残存値の合計の比率が、このアルゴリズムでのラベルの推測値となる。この時点では、証拠量の限界を考慮して下位部分が「不明」とした以外は、ディープラーニングでの推測値と差はない。以降は、意識の処理を行い、特徴量を元に各写真の残存値を減少させ、徐々に絞り込んでいく。ラベルが、多種にわたる特徴量とどう相関しているかという仮説は、無限に考えられるが、まずは単回帰で仮説を立てる。例えばあるニューロンが0~1の値を取るとして、0.5未満のグループと0.5以上のグループに、写真群を分類する。「不明」が入る方をグループA、他方をグループBとする。ラベル毎に別々に、グループAの残存枚数aとグループBの残存枚数b 計測する。ABの母集団の分布の重複率Q=min((a+0.707)/(b+0.707) ,(b+0.707)/(a+0.707))を求める。QがグループBの各写真の残存値より小さい場合、残存値=Q更新する。この処理を各特徴量について行うが、できるだけQが小さい特徴量から処理する。偶然誤差が大ききためQが0.5に近いものは処理せず無視する。また、例えば特徴量c と特徴量d ともにQが小さい場合、特徴量c×d はさらにQが小さいと見込まれるので余裕があれば計算する。どの特徴量が効きそうかは、別の画像の認識をする毎に毎回調べなくても、過去のケースを参考にできるだろう。また、絞り込むたびにQ値は変わるが、枚数の変動が小さければ計算しなおさなくても良いだろう。理想的な知能の目指そうとすると、きりがないため、ここでは近似的な計算に留めている。こういった方法で、時間が許す限りに、候補の写真を絞り込み続けることができる。
ここまでの方法では、初期の候補として深層学習の結果を用いている。そのため、あらかじめ学習させたラベルの数が少ないものや、無いものは候補に挙がらない。その問題を解決する。深層学習の結果と同じになるように選んだ写真群を1軍とし、追加で2軍を作る。2軍には深層学習の結果とは無関係に、自由に候補を加えることができる。例えば、ラベルAの写真が0.1個しかない場合、正解がAであったとしても、推測値はほとんど不明になってしまうだろう。そこで、ラベルAの写真を適当に2軍に入れておくことができる。学習後に認識した「ラベルA:80%、B:15%、C:…」と推測したラベルなし写真があったとして、今、推測している写真の推測値としてAが高い場合は、これらの写真は近い可能性があるので、2軍へ追加した方がよい。ラベルなしでも良く、事前学習に含まれていない推測結果が得られる可能性がある。事前学習に使用したデータの内、特徴量が近いものを追加しても良い。写真が撮影された場所や時間といった、深層学習以外の特徴量が近いものを選んで追加しても良い。ここで、2軍の各写真の個数値(0~)は1軍と区別して虚数単位とする。同じ1枚の写真の1軍枚数と2軍枚数の合計が1 個を超えないように自由に個数を決めてよい。すべての写真が1枚になるようにしても良いが、それは深層学習で絞り込まずに、始めから意識のみでの絞り込むことを意味する。2軍は虚数単位だが、1軍と同様の方法で、残存数を徐々に減らして絞り込む。このアルゴリズムでのラベルの推測値としては、1軍の残存数が減った部分にのみ、2軍を割り当てるようにする。例えば1軍は100枚→75枚、2軍が50枚→40枚に絞り込まれた場合。2軍の個数値を25/40倍して、25枚相当にする。1軍75枚+2軍25枚のラベルが、この時点でのラベル推測値である。絞り込む前は、1軍のみが使われるため、深層学習の結果と一致する。
意識の処理をする前では、ラベルの比率は深層学習の結果と一致するが、ラベル以上の情報を持っている。例えば、深層学習結果は「猫」といったラベルの確率分布であるが、本アルゴリズムでは「猫」というラベルをもった写真そのものの確率分布が推測値である。この深層学習結果からは雄猫と雌猫を区別できないが、意識上では、写真そのものの特徴量の違いから、それらを区別することができる。ラベルを必要がなく、似た写真を探したいだけなら、認識フェーズで与えられた最新の「不明」な写真も使うことができる。ラベルは、それが何であるかという情報というより、別のものであると区別するために使われる。区別する方法が他に与えられていればラベルは必要ない。例えば自動運転では、その映像の状況での最適な操作方法が与えられておればよく、その状況に名前(記号)を付ける必要はない。自動運転においては、雄猫か雌猫かを判別する必要はないが、他の用途では必要あるかもしれない。最適なラベルの付け方は状況により異なる。そのため、映像や運転操作にそれぞれラベル(記号)をつけて、記号同士を対応させるのではなく、映像と運転操作の元情報同士を対応させないと、あらゆる場合に対応できない。始めから記号を使わなければ記号接地問題を考える必要もない。
このアルゴリズムを使った自動運転の例を考えてみよう。人間の描かれた看板を前方に発見した時、深層学習が「看板90%、人間5%」と認識したとする。ほぼ看板だろうが1/20の確率で事故がおこってはまずいので、人間の可能性は無視できない。だからといって、低確率のものに反応していたら、無駄な減速や停止が増えてしまう。このように深層学習の結果に自信がない場合は、意識によって精度向上を試みる。安全に止まれる距離に達するまでは、減速せずに徐々に精度向上させる。それでもまだ人間の確率が高いかもしれないが、減速しながら接近すれば、意識の効果の他に映像も鮮明になるため精度が上がるだろう。「看板99%、人間0.01%」と安全が確認されたら発進すればいい。この推測値と共に映像は記憶しておく。次回からは、意識によってその映像が近いと選択されるため、初回よりも早く人間の確率が低いと判断できるため、減速せずに通過できるようになるだろう。人間が行うワンショットラーニングと同様のことが可能になる。機械学習による汎化で、どんな状況でも一定の運転ができるのはベターであるが、意識により状況に応じた運転ができればベストである。
このアルゴリズムが行っていることを人間に例えると、1軍、2軍の写真群というのは、意識上のワーキングメモリに相当する。1軍には、深層学習によって、直感的に正しい結果の候補が連想される。2軍は、正しいかどうかは別に、結果の候補の可能性があるものを意識的な思考で連想したしたものが入る。ある候補に注意すると、映像イメージが意識に上り、幾何学的な特徴も意識に上る。意識上で、幾何学的な特徴とラベルの関係性を探し出し、あきらかに違うと思うから除外してく。判断を迫られたときに意識上に残っていた候補が推測結果となる。人間の意識では、途中で候補を追加したり、直感的な情報がリアルタイムで変動したりするが、ここでは簡略化している。また、このアルゴリズムでは、簡単のため、再帰的な選択は行なっていないため、自発的に高度な概念を収得したりはしない。再帰的な形にすると、例えば「運転操作」を選ぶために「映像の状況」を選び、「映像の状況」を選ぶために「幾何学的な線の組み合わせ」を選び、「幾何学的な線の組み合わせ」を選ぶために「映像の生情報」を選ぶ。といった形になる。始めは「運転操作」の選択は「映像の生情報」を特徴量として選ぶしかない。しかし、何を特徴量にするか制限を設けなければ、「幾何学的な線の組み合わせ」を仮定すれば、生情報よりも運転操作と相関性があると見つけることができ、他の概念と相関性のあるそれを新しい概念として獲得する。入力(映像の生情報等)と出力(アクセルの踏み具合等)さえ始めにしておけば、あとはその繰り返しで、高度な概念を獲得できる。
まず、前提条件として、入力と出力と目的だけが設定される。例えば、入力は感覚器官から受け取る信号であり、出力は運動器官へ渡す信号である。目的は、ある入力値と別の入力値のどちらが適しているかを決める式である。現在がどうであるかだけでなく、未来の入力値がどうであるかを判断基準にしても良い。例えば、痛覚信号の大きさの現在から未来永劫までの積算値が小さい方が良いと目的設定できる。
報酬の(現在から未来永劫の)積算値が大きい方が良いという目的の例を考える。求められるのは報酬積算値が大きくなるように出力を選択することであって、必ずしも最適値を選択する必要はない。未来の入力値は知り得ないので、帰納的に推論しなければならない。最適解を出そうとあらゆることを考慮すれば計算量は∞になる。しかし、例えば、2択の状態にあれば、片方の選択肢が他方より良いとさえ云えれば良く、最適値でなくても良い。報酬の大小関係さえ分かればよく、報酬の期待値も必要ない。
出力値が取れる組み合わせは前提として決められており、全ての組み合わせを選択肢として持っている状態から始め、目的に対してより適さない選択肢を除外していく。次の瞬間の出力の選択は、直前に行うのではない。次の瞬間だけなく、さらに次の瞬間の出力も選択が必要であり、それは各瞬間の未来永劫まで続くため、選択しなければいけことは無限にある。選択肢は最も良いものを1ステップで選ぶのではなく、明らかに悪い選択肢から除外することで、徐々に絞り込んでいく。少し先の未来の出力の選択肢を先行して絞り込りこんで良い。ある瞬間の選択肢を1つに絞り込めなかった場合は、出力する瞬間に達したところで、残っている選択肢からランダムに1つ選択される。ある瞬間、次の瞬間の出力を絞り込む処理をするか、それとも、別の瞬間の出力を絞り込む処理をするかも選ばなければならない。どの処理をするかという選択もまた、どの出力をするかという処理と同じ方法で選択する。
選択肢の絞り込みは仮説と検証を次々に行っていく。仮説は、選択肢のグループ2組と目的変数と説明変数から成る。例えば、目的変数は痛覚の生の値で、説明変数は感覚器官の生の値である。選択肢は、運動器官へ出力であり、片方のグループが、他方よりも目的変数が大きいといいたい。選択肢は無数にあるが、複数まとめてグループとして良い。2つのグループは、重複しない説明変数の値を持つ。検証としては、2つの目的変数の分布にどれだけ差があるか、すなわち2つの分布が同じという帰無仮説が棄却される危険率を求める。偶然ではなく差があるなら、その程度に応じて、目的変数が不適な方の選択肢グループを除外する。除外は0 or 1ではなく、どの程度、除外するか連続的に決めてよい。
説明変数は感覚器官からの生の値だけでなく、自由に設定できる。映像の1ピクセル毎の色だけでなく、自由な数式によってそれらを組み合わせた、傾きや、さらに高度な概念を説明変数とすることもできる。ある目的変数が大きい(または小さい)選択肢を絞り込もうとする際、説明変数を、無数に存在する数式から選ばなければならない。さらに、その説明変数の重複しない2範囲を選ぶことで、
選択しなければいけない問題は、再帰的に無限に存在するが、人工知能が選択しなければいけないことは、実質的にはたった一つである。それは、次に何を計算(処理)選択肢の2グループが決まる。また、検証の際には、場合によってはグループ内から無作為抽出を徐々に行っていくか、さらに無作為抽出の数を増やして現仮説の検証精度を上げるか、それとも打ち切って、他の仮説の検証に移るか選択しなければならない。それらの選択も同じアルゴリズムで行っていく。そのため、再帰的に、選択しなければいけないことは無限に存在する。
するかである。処理すべきことが選択肢であり、設定された目的に合うものを選んで処理していく。初期状態では、入力の生の値から、出力の生の値を選ぶという処理しかない状態から始まる。しかし正確には、その処理以外にも、新たな仮説を立てるという処理も存在する。新しい仮説を立てる上で、生の値を組み合わせた別の値(特徴量)を仮定できるため、その繰り返しにより、さらに高度な概念の特徴量を扱えるようになる。処理しなければいけないことは再帰的に無限に存在するが、次に処理することを選択しようとする際、計算しきれないということはない。無限にあるものを有限のグループに分けることは可能であり、再帰的に深い部分にあるものは一まとめにしてしまえば良い。時間に余裕があれば、深い部分まで細分化した方が良いが、何を処理するべきかを考えるよりも、実際に処理した方が速くなる時点で、それ以上は細分化せずに無作為抽出すればよい。