> > >

黒歴史2005

知能の哲学的考察

知能とは?

 人工知能を作るためには、まず知能とは何かをはっきりさせなければなりません。知能とは、知的な判断・行動をすることと言い換えられます。また、判断・行動は、どちらの方がより知的かと比較することができます。例えば、知能を持つ者が行動Aと行動Bのどちらかを選択するとき、より知的な方を選択します。これは、より知的な方の行動をした方が良いと判断したともいえます。これより、知的な行動とは、目的に適した行動をすることといえます。より目的に適した行動をすることが、より知的といえます。そこで、常に目的に対して最適な判断をすることを完全知能とします。

知能の目的とは?

 哲学的な話になりますが、生物が、判断・行動するとき、何を目的としているでしょうか?さまざまな目的があるでしょうが、目的の目的を辿っていくとどこへたどり着くでしょう?心理的には、人は究極的には幸せになることを目的として行動しているといえます。しかしこれは、行動の基準を幸せと言い換えているだけで、幸せが何かは分かりません。

今度は、人間を物体と考えて、客観的に考えてみましょう。人体は物質に過ぎず、脳を構成する物質も物理法則に従って運動しているだけです。この世の全ては物理法則に従っています。それでは、脳によってもたらされる知能もまた、物理法則が元になっていると考えられないでしょうか。人が何かを考えるのも、リンゴが地面に落ちたり、電子と陽子が引き合ったりするのと同じといえるかもしれません。

次に、知能はなぜ存在するのか考えてみましょう。それは、脳や生物が存在するからでしょうが、なぜ生物は存在するのでしょうか?客観的に見ると、生物は呼吸や食事をして廃棄物を出しているだけです。このような有機物を分解する存在はなぜ必要で、存在するのでしょう?有機物、たとえばエタノールは、燃焼すると二酸化炭素と水に変わります。これは、エタノールより、二酸化炭素と水の方が安定なので、反応が進みます。このように、より安定な状態になろうとするのが自然界の法則です。しかし、火を近づけなければ、エタノールは二酸化炭素と水には変化しません。活性化エネルギーの分だけ、エタノールは一時的に不安定な状態になり、遠回りしなければ安定な二酸化炭素と水になれないからです。しかしながら、火がなくても、生物はエタノールを分解する仕組みを持っています。火がない状態でエタノールが分解するためには生物が必要なため、生物が存在すると考えられるでしょう。

ここで、生物の目的は何かと考えると、通常は安定な化学物質をより安定な状態へ変化させる反応を促進させることと言えるでしょう。簡単に言えば、より多くの有機物を分解することです。より多くの有機物を分解するためには、自分自身は分解されて活性を失ってはなりません。また、自分の複製を増やすことで、より多くの有機物を分解できます。生物やその知能はこれを目的にしているといえるでしょう。具体的に目的を表すと、(1)食事により有機物を分解する。(2)より多くの食事をするため、自分個人の命を保持する。(3)自分の複製である子孫を作り、種全体での食事量を増やす。これらの目的をより効率よく達成するために知能は存在します。この三つに対して、食欲や性欲が存在します。その欲が満たされたとき、快楽を感じます。脳は、得られる快楽の量が最大になるように命令を出します。一般的に知能とは、特定の変数(例えば得られる快楽の量)を特定の値(例えば無限大)に近づけることを目的にしていると考えられます。

知能と力学の比較

 図の中央にボールを置いたとします。ボールは重力に引かれてできるだけ低い所へ行こうとします。しかし、左端より右端の方が低いにもかかわらず、ボールは左へ転がります。これは、一瞬先の未来の、ボールの位置しか評価されないため、一時的に高くなる右ルートは選ばれないためです。しかし、この図を、下に行くほど多くの食料が得られると置き換えて考えると、賢い動物は右のルートを選ぶでしょう。一時的に上に行くため腹が減りますが、その先でそれ以上の食料が手に入るからです。この動物は、ボールとは違い、一瞬先の未来だけではなく、少し先の未来も予測したため、右のルートの方が適すると選択したといえます。どちらも、下に行くという目的に対して最適な動作をしたといえますが、力学では一瞬先しか考えないのに、知能は未来を予測していることが異なります。力学では、次の瞬間のポテンシャル(ボールの位置)が最低になるように運動するのに対し、知能では、次の瞬間から未来永劫までのポテンシャルの積分値の期待値が最低になるように行動するといえます。ポテンシャルを低くする代わりに、報酬を大きくするともいえます。

知能の種類
知能・完全知能

 目的に適した判断・行動をすることを知能と定義する。特に、常に目的に最適な判断・行動をすることを完全知能と定義する。完全知能には無限の計算能力が必要。

理想知能・擬理想知能

 ある有限の計算能力において、常にできるだけ目的に適した判断・行動を行うことを理想知能と定義する。理想知能は、計算能力が大きいほどより適した判断・行動を行い、計算能力が無限の場合には完全知能になる。理想知能より能率が悪いが、計算能力が大きいほどより適した判断・行動を行い、計算能力が無限の場合には完全知能になるものを擬理想知能と定義する。一方、計算量を増やしていってもローカルミニマムから抜け出せないものや、計算量を増やすと誤差が大きくなる領域があるものは非理想知能とする。擬理想知能の条件を満たす人工知能なら、少ない有限の計算能力でも、思考に時間がかかるだけで、知能と呼べるような動作をすると考えられる。

汎用人工知能

 ここで汎用と言っているのは、入力が0か1であり、初期状態で全ての入力が独立しているものです。画像等を処理させるには、これに座標の情報を持たせる必要があります。しかし、簡単のためにまずは汎用のものを作ることを考えます。

汎用擬理想人工知能

 計算量が無限では実装できないので、計算量が有限な擬理想人工知能を開発しなければなりません。計算量が有限なため、この人工知能は、大きく分けで二つの部分から成り立つことになります。

(1)   規則処理
これは、入力情報から規則を見出し、グループ化や新概念の創出などを行う手続きです。

(2)   意識
規則処理の優先順位を決め、処理や出力を決定します。

知能の情報

基礎的な知能のモデル

 基礎的な知能のモデルを考えます。時間Δtごとに、Ni本の入力端子Iから入力信号(I1~INi=0 or 1)を受け取り、それに対してNo本の出力端子Oから出力信号(O1~ONo=0 or 1)を出力します。またNp本の入力端子Pからの入力信号(P1~PNp=0 or 1)は報酬に対応します。

              I1~INi=0 or 1

              O1~ONo=0 or 1

              P1~PNp=0 or 1

ある瞬間tの報酬の量Psum(t)は、P1~PNpの合計値となります。理想知能は次の瞬間から未来永劫までに得えられるPsum(t)の期待値の合計Ptotal(t)=Σ[k=t+Δt→∞]Psum(k)が最大になるようなO1~ONoを出力します。

              Psum(t)=Σ[k=1~Np]Pk

                   Ptotal(t)=Σ[k=t+Δt~∞]Psum(k)

ある瞬間の出力の組み合わせは2No通りあります。したがって、nΔt後の未来のパターンは(2No)n通りあります。理想知能では、(2No)n通りの予想のそれぞれについて、Ptotal(t)の期待値を推定し、最大となる出力を決定します。これはΔtごとに逐次行われます。

知能の持つデータと予測

 入力端子がN本あるとすると、時刻0からtまでの時系列のデータは、Δt=1とすると、N*t個あります。この二次元配列が、知能が得られることができる外界の情報の全てを含んでいます。そして、この配列のデータは推論よるものではなく真実です。知能は最適な行動を選ぶために、未来を予測しなければなりません。未来の予測は複雑な処理が必要でしょうが、表面的に見れば、入力信号時系列データの過去の部分から未来の部分を予想しているだけです。過去の入力データから数値の並び方の規則性を見つけて未来の値を予想しているだけです。知能はこのような規則性に関する情報も持っています。また、規則性を見つけることで複数のデータを一まとめに表すことができます。例えば、1という値が10連続で現れる部分は値と長さだけ記録すれば十分です。この連続性から未来を予測することができます。また、1111111111という個別のデータは不要になります。規則性を探る操作はデータの圧縮と類似しています。

知能が持つデータの本質

 知能は観測した外界のデータと、外界の法則に関する情報を持っています。これは、知能はその内に外界をモデル化したもの、あるいは外界の複製を作っているといえます。その複製の世界で、ある行動をした結果どうなるかを予測して、最適な行動をしているといえます。この予測というのは、物理法則を元に物体の運動を計算して予測するのと同じようなことです。外界のモデルは、さまざまな性質を帯びた点の時系列配列で表されます。ここで、点は知能へ入力された信号であり、性質というのは信号の規則性・法則性へ対応します。性質は、その性質を持つもの(1)と持たないもの(0)の二つの値をとります。時間や座標のように-∞~+∞といったような軸上の値をとるものもあります。同じ性質や軸を持つものは、グループと考えられます。全ての点は、いつのデータかという時間の値を持っています。すなわち、全ての点は、時間というグループに属しているといえます。また、すべての点は、どの入力端子から入力されたのかという情報を持っており、グループ化されています。すべての点は外界全体というグループに属しており、他の全てのグループはその一部分となっています。

 例えば、地面に置かれたリンゴを観測した場合を考えてみましょう。視覚情報の点の中には赤いという性質を持っている部分があります。それらの赤い点は、赤く連続した領域という性質を持ったグループとして、外部と区別されます。そのグループは丸っこいという性質を持つことから、リンゴという性質を持ちます。このグループは地面から独立して動かすことができるという性質を持ちます。また、食べると美味しいとか、Aさんの所有物だとかという性質を持つことができます。また、リンゴに傷がある場合には、傷のある部分という性質の子グループを持つことができます。

知能の論理

一次元予測

時間の関数(配列)A(t)とB(t)の相関関係を考える。A(t)、B(t)の値は0または1とする。この場合、この二値をとる二者の相関関係は、2^2^2=16通り存在する。ある瞬間tにおけるA(t)とB(t)の値の組み合わせは(A,B)=(0,0),(0,1),(1,0),(1,1)の2^2=4通りある。いくつかのtについて、この4通りについて、それぞれいくつのサンプルがあるか頻度を調べる。サンプルが有り(N=1)と無し(N=0)の二値にとすれば、(0,0)=0or1,(0,1)=0or1,(1,0)=0or1,(1,1)=0or1で2^4=16通りとなる。これら16通りを示す。

(1,1)=N11, (1,0)=N10, (0,1)=N01, (0,0)=N00
(1,1)=0, (1,0)=0, (0,1)=0, (0,0)=0 :不明(データ無し)

(1,1)=0, (1,0)=0, (0,1)=0, (0,0)=1 :A=0, B=0

(1,1)=0, (1,0)=0, (0,1)=1, (0,0)=0 :A=0, B=1

(1,1)=0, (1,0)=0, (0,1)=1, (0,0)=1 :A=0

(1,1)=0, (1,0)=1, (0,1)=0, (0,0)=0 :A=1, B=0

(1,1)=0, (1,0)=1, (0,1)=0, (0,0)=1 :B=0

(1,1)=0, (1,0)=1, (0,1)=1, (0,0)=0 :A=¬B, ¬A=B

(1,1)=0, (1,0)=1, (0,1)=1, (0,0)=1 :A→¬B, B→¬A

(1,1)=1, (1,0)=0, (0,1)=0, (0,0)=0 :A=1, B=1

(1,1)=1, (1,0)=0, (0,1)=0, (0,0)=1 :A=B

(1,1)=1, (1,0)=0, (0,1)=1, (0,0)=0 :B=1

(1,1)=1, (1,0)=0, (0,1)=1, (0,0)=1 :A→B

(1,1)=1, (1,0)=1, (0,1)=0, (0,0)=0 :A=1

(1,1)=1, (1,0)=1, (0,1)=0, (0,0)=1 :B→A

(1,1)=1, (1,0)=1, (0,1)=1, (0,0)=0 :¬A→B, ¬B→A

(1,1)=1, (1,0)=1, (0,1)=1, (0,0)=1 :無相関

このように4つの値により相関性を表すことができる。また、A=0のときB=N01/(N00+N01)、A=1のときB=N11/(N10+N11)というように、値を予測できる。しかし、このような予測ができるのは、時間によらずAとBの相関関係が一定の場合のみである。t=1~20の20個のサンプルで統計をとったとしてもt=10の時点で相関関係が変化した場合には、この統計データは不正確なものになる。そのため、相関関係の時間変化を調べる必要がある。また、時刻t1とt2におけるAとBの相関関係は、時間差が小さいほど変化している可能性が低い傾向にある。特に、t1=t2なら相関関係の変化はない。

見えない概念

 入力A、B、C、Dを考えたとき、これらを元に新しい概念を作るにはどうしたらよいだろうか。これらを組み合わせることで、A ∧ Bとか、C∨Dとか、¬Aといったような新しい概念を作ることができる。しかし、このような組み合わせだけであらゆる概念を表現できるかというと、それはできない。この世界には入力信号として検知できない概念もある。しかし、そのような不可視の概念も、入力信号に与える間接的な影響から予測することができる。例えば、A(t)=B(t)という相関関係が90%の確率で成立する場合を考える。

  A(t)≒B(t) (精度90%)

精度が90%しかないが、CやDの概念を考慮したとしてもこれ以上100%にならないなら、ABCD以外の未知の影響によって10%分は成立しなくなっていると考えられる。そこで、未知の概念Xを導入する。

  A(t)∧X(t)=B(t) (精度100%)

そして、この関係は100%成り立つと考える。成立するときはX(t)=1であり、成立しないときはX(t)=0である。このようにして、見えない概念Xを導き出すことができる。ただし、A(t)=0のときには、X(t)は0でも1でも成り立つので、どちらか分からない。入力A、Bは、0 or 1の二値をとるが、見えない概念Xは、0 or 1 or ?(不明)の三値をとる。具体的な例として、目の前にあるリンゴを認識する場合を考えてみよう。A:目を開けている、B:リンゴが見える、X:リンゴが存在する、という関係にある。

  (目を開けている)∧(リンゴが存在する)=(リンゴが見える)

人は、リンゴが見えればリンゴが存在すると認識するが、瞬きなどで目を閉じている間でもおそらく目の前にリンゴが存在するだろうと予測する。このようにして、新しい概念を獲得できる。

グループ

 A→C

 B→C

 ↓

 AとBはグループ

三角推論

 AとBに関係あり、BとCにも関係がある場合、AとCに関係があるかもしれない。

知能の情報処理

入力データの規則性の種類

 入力データは、どのような規則性を持ちえるだろうか。入力データが座標z=-∞~+∞と時間t =-∞~+∞の二次元配列A[z=-∞~+∞][ t =-∞~+∞]だと考える。ある点(z,t)と別の点(z’,t’)との関係性を考えた場合、この関係性は別の座標や別の時刻でも成立するものでないと、予測能力がないため規則性とはいえない。この二次元配列の場合では、時刻または座標の一方または両方をずらしても成立する関係でないと規則性とはいえない。ずらしても成立する軸(グループ)がn本なら、この規則の自由度はnである。次にある一点を予測する規則の例を示す。

(1)自由度0

r、s1~sn、u、v1~vm:定数

A[s1~sn][ v1~vm]と、A[r][u]の関係を示す。

予測する能力はない。

(2)自由度1(t)

r、s1~sn:定数

A[s1~sn][t-∞~t]から、A[r][t]を予測する。

(3)自由度1(z)

r、s1~sn:定数

A[z-∞~z+∞][ s1~sn]から、A[z][r]を予測する。

未来を予測する能力はない。

(4)自由度2(z,t)

A[z-∞~z+∞][t-∞~t]から、A[z][t]を予測する。

規則の予測精度

 規則の例として、次のような時系列の数列を考えるとする。

 A[t]=1,1,0,1,1,1,0,1,1,1

この場合、A[t]=1の確率は80%と考えることができる。この規則は時間方向へ自由度を持っている。すなわち、時間というグループのメンバーの個々について成り立つことを意味する。この例の場合では10個のメンバーの内8個で、A[t]=1が成立しているため、A[t]=1という規則の成り立つ確率は8/10=0.8と考えることができる。しかし、次の場合を考えるとどうなるだろうか。

 A[t]=1

A[t]=1の確率は1/1=1と考えることができるが、サンプルが少なすぎて正確ではないだろう。サンプルが一つだと、0%か100%のどちらかとしか観測できない。実際には50%~100%で起こることが100%として観測されていると考えた場合、実際は50%という確率から実際は100%という確率までが平坦だとすれば、A[t]=1の実際の確率は中間の75%と考えることができる。A[t]=1のサンプル数がN1個、A[t]=0のサンプル数がN0個とする場合、A[t]=1となる確率Pは次のように表される。

 P=(N1+1/2)/(N0+N1+1)

また、実際には10%のものが10%の確率で100%と観測されているというように、0%から100%まで計算した場合は、A[t]=1の確率は、1/21/2=約70.7%と求められる。次式で近似的に求められる。

 P≒(N1+1/21/2)/(N0+N1+21/2)

これらの式では、サンプル数が0なら50%となる。また、サンプル数が多くなるほど、単純に割り算した値に近づく。

分解能と精度

 入力はΔtごとに評価されるが、この時間分解能Δtが予測に与える影響を考える。例えば、ランプが1秒間点灯していたとして、次の瞬間ランプが点灯しているかどうか予測する場合を考える。時間分解能Δt=1秒の場合、ランプの点灯は1回しか観測していないが、次の瞬間ランプが点灯している確率は、少なくとも点灯していない確率より高いと予想される。Δt=0.5秒の場合には、ランプの点灯が2回連続で観測されていることになるため、次の瞬間(3回目)も点灯している確率が前の例より高いと予想される。時間分解能をもっと細かくしていけば、点灯の確率は際限なく高くなっていくことになる。しかし、同じ現象を観測しているのに、時間分解能によって予想が変化してしまうというのはおかしくないだろうか。ここで一つ見落としていることがある。Δt=1秒のときの、次の瞬間とは1秒後であり、Δt=0.5秒の場合は0.5秒後であり異なるのである。Δt=0.5秒のデータから予測した1秒後の確率が、Δt=1秒のデータと一致すれば、この問題は発生しない。ここで注意しなければならないのは、予想しようとしている時刻にも幅があることである。Δt=1で、時刻t=1に観測された値は、時刻0<t<=1の範囲の平均値を表しており、時刻t=2の予測値は、時刻1<t<=2の範囲の平均値を表しているのである。Δtが大きいほど、予想できる時刻の幅も大きくなる。現時刻t0、A=1のサンプル数N1、A=0のサンプル数N0、n(n:Δtの整数倍)秒後の予測値P(t0<t<=t0+n:t0からt0+nまで幅がある)とすると、

  P(t0<t<=t0+n)=(N1+nα/2)/(N0+N1+nα)

  α=1または21/2

連続値入力とパルス入力

 入力が連続値ではなくパルスの場合を考える。パルスが発火している時間を無限小とした場合、複数の入力が同時に発火することはない。そのため、同時に発火するかどうかではなく、発火の時間差として0秒~∞秒の連続値を評価しなければならない。

軸の種類

 軸には次の種類がある。

(1)   0~1 または同-異
グループメンバー個体を他の個体と比較すると、同じ(0)または異なる(1)のどちらか。
個体が、ある条件に適合するか(0)、しないか(1)。
条件は、一つの個体に対し、0か1を返す。

(2)   -∞~0~∞または順序・連続値
グループメンバー個体を他の個体と比較すると、同じ(±0)または異なる(+1,-1)のどれか。
条件は、二つの個体に対し、それぞれ-1と+1を返す(同じ場合は、0と0)。

規則の生成過程

 Δt=1、A=1の一秒後にB=1という規則の生成過程を考える。

  (A[t]=1) → (B[t+1]=1)

まず、A、Bが1の確率が0の場合より低い場合には、1の場合の方がめずらしいため、より有意であると意識によって判断される。また、時間的に近いため、相関関係がある可能性が高いと判断される。そうして、A[q]=1とB[w]=1の関係が考察される(q,wは定数; w=q+1)。ここで、

 (A[q]=1) = (B[w]=1) (100%)

という関係が導かれるが、自由度0なため予測能力はない。次に自由度を考える。まず、A=U[a]、B=U[b]として、Uグループのメンバーであると考える。a,bは位置と考える。b=a+1とする。

 (U[a][q]=1) = (U[b][w]=1) (100%)

左辺が自由度0、右辺も自由度0のため、この規則の自由度は0である。次に、左右のどちらの点も、位置、時間グループのメンバーである。右辺の時間が自由だと考えてみる。

 (U[a][q]=1) = (U[b]=1)

左辺が自由度0、右辺が自由度1のため、この規則の自由度は1である。これは、U[b]が時間によらず1と表しているが、左辺に全く意味がない。未来のU[b]を予測する能力があるが、U[a]と無関係なので、ここでは考えない。左辺の時間も自由だと考えてみる。

 (U[a][t]=1) = (U[b][t+1]=1)

ただし、w=q+1であるから、左辺tに対して右辺t+1と対応させている。そのため、左辺が自由度1、右辺も自由度1だが、左辺の時間が決まれば右辺の時間も決まるので、この規則の自由度は1である。

規則の生成過程2

 a1,a2,a3⊆A

a1,a2⊆B

↓(類推)

A⊆B

推論

 推論とは離散値を連続値にすることである。

規則の生成過程3

A(a)=1 A(b)=1 A(c)=1

B(a)=1 B(b)=1

A=B

関数

 0~1=Function(i)  i.spec=const  i.time=variable                  //自由度1

 -1~0~1=Function(i, j)  i.spec=const  i.time=variable         //比較

 0~1=Function(i)  i.spec=variable  i.time=variable             //自由度2

  0~1=Function(世界){return (世界.spec==A)}                                      //Aグループ

 0~1=Function(Aグループ)

フレーム問題と意識

フレーム問題

 一般的なフレーム問題の例としてこんなのがある。時限爆弾の仕掛けられた部屋に荷物の載せられた台車があり、ロボットに荷物を回収させる。ただし、爆弾も台車に載っている。限られたことしか考えられないロボットは爆弾ごと台車を運び出してしまい、一方、荷物をこのまま運び出したらどうなるかという可能性をすべて考えようとするロボットでは、時間切れで爆弾が爆発してしまう。どこまでの可能性を考えればいいのか分からないからである。しかしながら、ロボットの計算能力が無限大なら、一瞬で無限の可能性を考えられるのでこのようなことは起こらない。人間の場合にはこのような問題は発生しないが、人間の計算能力は有限であり、思考には有限の時間がかかり、ほとんど無意味な可能性までは考えない。この違いは、ロボットは、全ての可能性を考えてから行動しようとするために起こる。一方、人間は、すべての可能性は考えず、爆弾が爆発する前に行動に移る。人間は、常に、今何をすべきかという評価行っているため、爆弾が爆発する時間が迫れば、考えるのをやめて行動に移るのである。思考するというのも、一種の行動といえる。人間は常に(非常に短い周期で)、思考という行動と、爆弾処理という行動のどちらを行った方が、目的を達成する可能性が高いか評価しているのである。はじめのうちは思考した方が有利なので思考を継続するが、時間が迫り爆弾爆発のリスクが大きくなると、爆弾処理を行った方が有利だと判断し、爆弾処理を開始する。有限の計算能力しかなく、思考に時間がかかるため、決断して行動をするのに時間的猶予がある仕組みとなっているのである。この場合、思考と爆弾処理という二つの選択肢があるため、人間はどちらにするか迷うことができる。それが自由意志と呼ばれるものである。そして、この選択肢を選ぶ仕組みが意識である。計算能力が無限の場合には、一瞬で最適解が求まるため、迷う必要がなく、自由意志は不要である。

 例の詳細を示す。横軸は時刻t。縦軸は報酬期待値、あるいは荷物を無事に運び出す期待値。曲線は、その時刻にその行動・思考を行った時の報酬期待値を示している。考える行為も行動と考える。ある時刻には複数の曲線が存在し、その中で最も報酬期待値が高い行動が実行される。これが自由意志および意識の仕組みである。時間を追って、この例を説明する。

(1)   t=0では、まだ爆弾処理及び荷物搬出の方法を知らない。なにもしないという選択肢と新しい処理法を考案するという選択肢が存在する。有効な処理法を考案することができれば、その方法を実行することで報酬を得られるため、何もしないよりは新方法考案の方が、報酬期待値が高い。従って、新方法を考案する。

(2)   t=10で台車搬出という方法が考案される。しかしこの段階では、この行動を行った結果を十分考察していないので、この行動の報酬期待値は低い。また、このときは、新たな方法を考えるよりは、台車搬出結果を予想した方が、報酬期待値が大きい。

(3)   t=10からt=30まで、台車搬出結果を予想することで、台車搬出による報酬期待値が徐々に正確に求められている。台車搬出により比較的高い報酬が得られると予想されるが、すぐには実行に移さない。なぜなら、まだ時間的に余裕があるため、結果をより正確に予想したり、新たな方法を考案したりした方が、期待値が大きくなるからである。また、報酬期待値が正確になるほどそれ以上考察する必要がないため、台車搬出と台車搬出予想の差は縮まっていく。

(4)   t=30から台車搬出による報酬期待値が減少し始めるが、これは、爆弾が台車に載っているため、そのまま台車を搬出すると、爆弾も一緒に運んでしまうと気づくからである。

(5)   t=35になると、これ以上台車搬出結果について予想しても、悪い結果にしかならないため、新たな処理法を考案する方が有利になる。

(6)   t=50で、爆弾を移動した後に台車搬出することを考案する。

(7)   t=70くらいから、爆弾爆発まであまり時間がないと感じはじめる。そのため、処理実行を後回しにして、思考を続けるのは不利になっていく。

(8)   t=75くらいで、これ以上思考するより、爆弾移動&台車搬出する方が、報酬期待値が大きくなり、処理を決行する。

意識

 意識は、有限の計算能力を最も効率よく使うための仕組みである。比較的短い周期Δtごとに、今後得る報酬の期待値の合計が最も大きくなると予想される内容を選んで思考する。つまり、思考そのものを行動と考え、その結果の報酬を予想する。しかし、この予想自体も計算能力を必要とする。正確な予想をするためには、より多くの計算時間が必要になる。つまり、この予想をするべきか、それとも実際に思考をするかという選択をしなければならない。その選択を正確に行おうと考えていくと、無限ループになり、結局答えはでない。このように、有限の計算能力では、理想的に正確に最も効率の良い計算能力の配分を決定することはできない。何を考えるべきかを思い悩むよりは、実際に考えてみた方が良いことが多い。したがって、思考による報酬を、単純な計算により短時間で近似的あるいは経験的に求める仕組みが必要である。その短時間の計算は、状況によらず必ず行われるものであり、無意識による思考といえる。

計算価値

 計算価値は、計算の結果増加する報酬期待値の指標である。これにより行動が決定される。例として、概念Aと概念Bの相関関係を思考するときの計算価値を考える。計算価値は次式で表すことができる。

  計算価値=(Δt間に、AとBの相関を発見できる確率)×(相関により増加する報酬)

  計算価値=(AとBに相関がある確率)×(相関により増加する報酬)/必要な計算時間

しかし、ここで、相関を発見する確率と、増加する報酬についても計算をしなくてはならない。その計算についても計算価値による評価を行うと無限ループになるので、それは行わない。それらは、精度を犠牲にして短時間で計算してなければならない。計算価値は次のような性質がある。

(1)   計算価値は必ず0以上である。ただし、時間経過による世界の変化を考えない場合に限る。

(2)   相関が発見できなかった場合には、報酬は増加しない。

(3)   時間が近い概念のほど、相関がある確率が高い。

(4)   報酬に関係する概念の思考は、得られる報酬を変化させやすい。

(5)   未来の行動など、自身で決定できる事項についての思考は、報酬を増加させやすい。

(6)   論理的な繋がりが近いほど、相関がある可能性が高い。例えばAとBに相関があり、BとCに相関がある場合には、AとCに相関がある可能性が高い。

すべての概念は世界という一つのグループのメンバーであるため、孤立した概念は存在せず、必ずなんらかの論理的な関係を持っている。論理的な関係の強さを、論理的な距離と考える。AとBの相関関係を考える計算価値は次のようになる。

(1)   Aと未来の報酬、Aと未来の行動、これらの距離が近いほど、計算価値は大きい。

(2)   Bと未来の報酬、Bと未来の行動、これらの距離が近いほど、計算価値は大きい。

(3)   AとBの距離が近いほど計算価値は大きい。

(4)   計算価値は(1)×(2)×(3)が大きいほど大きい。

ワーキングメモリとしての意識

意識にはワーキングメモリとしての機能もある。ある瞬間考えていたことは、次の瞬間にも考えた方がよいことが多い。計算中のものや、計算候補のリストを保持していた方が良い。例えば、計算価値の比較的高い計算候補をリストで保持する。そのとき、計算価値を現在時刻の関数の形で保持する。そうすれば、Δtだけ時間が経過しても、即座に計算価値の変化を更新することができる。

その他

強化学習と迷路

 基礎的な強化学習では、割引報酬といって、単純に時間的に近いできごと同士が強く相関していると考える。しかし、これは経験的なものであって、実際には必ずしも時間が近いものほど相関が強いわけではない。そのため、学習できることと、学習できないことが存在する。

 強化学習の試験として、迷路の探査が行われることがあります。しかし、すばやくゴールするためには、数百回も繰り返し、迷路の探査を行わせて学習させなければなりません。人間なら、一回目でもそれなりに効率よくゴールを目指せるのですが。強化学習の場合では、効率よくゴールを目指しているのではなく、一回目はほとんど無作為で、何度も繰り返すうちにゴールの経路を記憶するといった方がいいでしょう。それでは、人間のように効率よくゴールを目指すにはどうすればよいか考えてみましょう。人間の場合、次のように迷路を探索します。

(1)   分岐路では、足を踏み入れていない方へ進む。

(2)   行き止まりでは、まだ足を踏み入れていない分岐路があるところまで戻る。

(3)   足を踏み入れたことがある場所に着いた場合も、足を踏み入れていない分岐路まで戻る。

つまり、できるだけ同じところを通るという無駄を省きつつ、全ての経路を検証しようとします。このような行動をするために必要な知識を次に示します。

(1)   立ち止まっていてはゴールできない。

(2)   壁がある方向には進めない。

(3)   同じ場所は、時間が変化してもゴールに変化するようなことはない。

これらの知識は、次の原始的な知識から導かれます。

・既知のことより未知のことをした方が、未来の結果に幅がある。

この原始知識によって前の3つの知識がどう導かれるか考えてみましょう。

(1)   立ち止まっていてもゴールできない状態が続くと、そのまま立ち止まり続けるよりは、とりあえず動いた方がゴールする可能性が高いと考えるようになる。

(2)   とりあえず無作為に動くが、壁にぶつかるうちに、壁がある方向には動けないと学習する。

(3)   何度か同じ場所を訪れても常にそこにはゴールがない。訪れた回数がない(少ない)未知のところほどそこにゴールがある確率が高いと考えるようになる。

また、「同じ場所」と認識するためには、進んできた道のりや、通路の形状から判断しなければならない。

また、人間の場合、二回目に迷路の探索を行った場合、一回目で知りえたゴールへの最短経路を進みます。

クオリア

 リンゴを見たときに「赤い」と感じる。そういった質感のことをクオリアという。その赤いという感じは、青いという感じとは異なる。なぜこのような質感を感じるのだろうか。そして、どのようにしてこの質感は発生するのだろうか。

クオリア発生の仕組みを調べるため思考実験をしてみよう。生まれてからずっと、赤い物体しか見たことがなく、青や緑を見たことがない人が居たとしよう。この人は「赤い」を感じているのだろうか。この人の目に映るのは、明るい赤か暗い赤でしかない。ゆえに、明るいか暗いかという違いがあるだけで、色は常に一定である。だから、色について考える必要がない。常に一定ものは認識することができない。例えば、あるコインがあったとき、そのコインが大きいか小さいかは、別のコインと比較して初めて分かるのである。コインが世界に一種類しかないのなら、大きいコイン・小さいコインという概念は存在しない。ある性質が異なる比較対象があってはじめて、その性質が見えるのである。二次元の平面の世界からは三次元の世界が理解できないというのと同じである。色についても、青や緑という比較対照となる別の色を知っていてはじめて、赤を認識できるのである。そのため、この例の人は「赤い」というクオリアを感じていない。存在しないといえる。

それでは、クオリアはどのように発生するのだろうか。生まれて初めて目を開けた人が、赤い物体と青い物体を見たとしよう。この人は色に関する知識は全く持っていないとする。クオリアを感じているだろうか。この人は、赤い物体と青い物体を区別することはできる。この人は知識がないので、どちらが赤なのか理解できない。また、物体の差異が色であるということさえ理解できない。ただ、物体の見え方が異なると感じるだけである。何も知識がなければ、赤青緑の三色はそれぞれ、ただ「異なる」としか感じないである。しかし普通の人は、赤青緑はそれぞれ、ただ異なるだけではなく固有の質感を持っていると感じる。これは色に関する知識・記憶を持っているから感じることができるのである。赤と青はただ異なるだけではなく、赤はリンゴと同じ色、青は空と同じ色という知識を持っている。また、赤いという感じが「赤い」と呼ばれているものであるということを知っている。そのため、ある未知の物体を見たときに、それがリンゴと同じ色で、「赤い」と呼ばれているものだと理解できる。つまり、赤い物体を見れば「リンゴと同じ感じ」、青い物体を見れば「空と同じ感じ」と無意識に想起されることが異なるため、質感が異なる固有なものと認識するのである。つまり、もともとは「それぞれ異なる」という性質だけを持った色1、色2、色3が存在するだけである。色以外のクオリアについても、同じように考えることができ、知識がなければただ「異なる」としか感じないのである。この「異なる」という感じもクオリアといえるだろう。知識がなければ、クオリア=「異なる」を意味するに過ぎない。しかし、知識を持てば、三つの色のうち一つ(色1)がリンゴと同じ赤いと呼ばれるものと感じる。このように、無意識に想起される記憶が固有であるため、「赤い」がただ異なるだけでなく固有に質感であると感じるのである。

クオリアについて考える上で、自分がリンゴを見て感じる「赤い」は他人と異なり、別の人は「青い」と感じているのではないかという問題がある。結論から言うと、二人とも「赤い」という同じクオリアを感じているが、厳密には全く同じではない。赤いというクオリアは赤いという知識・記憶によって感じているものであり、全く同じ知識・記憶を持っている人はいないからである。しかし、他人が感じているリンゴの色が、私が空の色と感じているものと同じということはない。その他人が、リンゴは空と同じ色だと感じることはないからである。色の基準は個人がそれぞれ持っているからである。

意識・意志と電磁場

 人は意識があるとき、何か行動をしようという意志を持ちます。例えば、腹が減っているとき、食料を口にしたいという意志を感じます。そして、動物は食料を摂るために距離を近づけようとするでしょう。この現象を客観的に見れば、磁石のN極とS極のように、動物と食料が引き合っているようにも見えないでしょうか。もちろん、実際には磁力で引き合っているのではありません。しかし、脳細胞には電気が流れており、運動神経へ電気が流れて動物が動くため、究極的には、電磁気力によってこの動物は食料に接近したといえます。このときの、動物が食物へ接近したいという衝動もまた、電磁気力に起因するといえます。

ここで、意識の正体とは何かと考えてみましょう。脳によって意識がもたらされるなら、神経細胞の一つにも基礎的な意識が宿っていると考えられます。神経細胞が入力信号を受け出力信号を出すという動作は、電子がポテンシャルの低いところ流れようとする電磁気力で行われています。ですから、意志=電磁気力と直接結び付けてしまっても問題ないではないでしょうか。いくつもの神経細胞内の電子が陽子と引き付け合おうという力が積み重ねられた結果が意識ではないでしょうか。つまり、電子と陽子が引き合う力が最も単純な意志であり、我々が感じている意識・意志とは、脳内でそれらの単純な意志が複雑化したものと考えられます。これなら、生物の体を少しずつ細かくバラしていったとき、どの部分にどの段階からどの様な仕組みで、意識という非物質的なものが存在するのかをうまく説明できます。

精神の移植

(1)   一括置換法
移植元の脳を、記憶を含めて完全に再現した人工知能を作ります。感覚器官からの入力は脳と人工知能の両方に分配します。両者は全く同一の意識を持っているため、自分がどちらなのか判断できなくなります。ここで、脳を破壊したとき、二重に重なっていた意識が一重になるだけで意識は残ります。これで、気づかぬ内に移植が完了します。

(2)   分割置換法
脳内の神経細胞の一つを、同様の処理ができる人工のものへ置換します。被験者はその変化には気がつかないでしょう。一つずつ神経細胞を置換していき、最終的に全て置換してしまっても気がつかないでしょう。この移植を行う間、意識は連続して存在しており、移植には気がつかないでしょう。この方法では、記憶等が、移植前後で一致する必要がありません。

(3)   部分共鳴法
意識Aが体Aを動かしているとして、別の意識Bが体を動かそうとしたときに、同時に体Aが動いた場合、意識Bが体Aを動かしているとも見ることができます。人工知能の思考にランダムな要素を持たせ、乱数は外界の磁場等を元に発生させるようにします。また、人工知能内のエネルギー(報酬)を外界に磁場等として放射します。別の意識が乱数に偏りを発生させることで、人工知能の思考を制御します。乱数の偏りは偶然に起こったものとも解釈できるので、物理法則には矛盾しません。この方法は実装が簡単ですが、部分的にしか精神を移植できず、確実性にも欠ける。