生成系AIのChatGPTが話題だ。4月10には開発元のOpenAI社のアルトマンCEOが岸田首相を訪問したそうだ。
一方で、この生成系AIと呼ばれるChatGPTには、回答に間違いがあるという指摘も多く聞かれる。日本維新の会の鈴木宗男議員が自分のプロフィールをエゴサしたところ、何とムネオが日本共産党員という回答が飛び出し激おこヽ(`Д´)ノプンプンのようだ。
実際に私が試した際にも、簡単な掛け算の計算を度々間違えていた。また回答の中には、引用元の新聞記事やURLの捏造が多数含まれているとの報告が多数上がっている。
多くの人が、このChatGPTの生成する文書の”人間臭さ”に驚くと同時に、中身に不信をし抱き始めているかもしれない。
そこので今回は、この世界で話題沸騰中のChatGPTのことを私と同じ私立文系人間が、上司や家族などに尤もらしくかつ簡単に説明する方法を紹介したい。
この記事は準文系の作者が、思い込みの知識を元に作成しています。内容の正確性は全く保障できません。AIに関して正しい知識を得たい方は、まともな本なりを参照してください。この記事を読んだことが原因で発生したいかなる損害にも対応できません。また内容に関して如何なる責任も作者は負いません。
AIとは要は表である
ChatGPTなど最近のAIの驚異的な発展を目にして、驚くと同時に恐怖感を抱いている人も居るかも知れない。そして何より”どのような仕組み”で動いているのか知りたいと思う人も多いだろう。
もし一言でAIを表現するなら、非常に複雑な表と言うことになる。
イメージとして一番身近なのが、Googleなどで検索する際に表示される”関連ワード”だ。例えば、”岸田”と入力すると、続いて”首相”や”総理”、”自民党”、”決められない”など、過去に”岸田”という文字に続いて検索されたワードが大量に表示される。
これはGoogleが過去に検索された大量の履歴データを保持していて、一種の”表”のようなものにしているからだ。検索文字が入力されると、Googleのサーバーは過去の検索履歴のデータを超高速で検索して、次の言葉を先回り表示している。
同じような例としては、ワープロなどの”予測変換”が挙げられる。特に日本語など英語圏以外の言葉では、入力された文字を”漢字”などに変換する必要がある。ところが、「かわ」という読みに対しては、「川」「革」「皮」「側」…など多数の漢字が対応している。
初期のワープロなどでは、この漢字変換の非効率性が度々問題視されていた。そこで考えられたのが、”文字同士の関連性”を一種のデーターベースとしてコンピューターの中に記憶しておく方法だ。
例えば”信濃(シナノ)”という言葉に続いて”カワ”と入力された場合には、多くのケースで「革」ではなくて「川」を意図していることだろう。
この仕組みが開発されたのは、1980年代に通産省(現:経産省)の予算で開発が試みられた第五世代コンピュータープロジェクトの副産物としてだ。
そして1980年代に一世を風靡したワープロソフトの「一太郎」にこの仕組みが搭載された。今でもこの仕組みは日本語変換として有名な”ATOK”に搭載されている。
最近では、日本語のみならず英語などアルファベット系の文字入力でも、この”予測変換”が搭載されるのが普通だ。
かなり乱暴かもしれないが、このデータベース(表)を超大規模にしたのがAIと言ってもいいかもしれない。重要な点は、AIは”意味”を理解しているのではないという点だ。AIが持っているのは、”岸田”という単語と”総理”という単語の”繋がりが強い”というデータだけだ。
機械学習:ヒット曲判定AIサイト
AIを理解するには、今から8年近く前にNHKの”Next World”という番組で紹介された”Music-Xray”(音楽レントゲン)と言うサイトが参考になる。
Music Producers | Music Managers and Artists | Musicxray Opportunities
このサイトでは、ユーザーが自分の作った音源をアップロードすると、その曲がヒットするかどうかを80%の確率で判定できると謳っていた。
仕組みは意外に簡単だ。古今東西の音楽を300万曲以上コンピューターに取り込む。そして”予め設定した項目”で分類していく。例えば”曲のテンポ””リズム””コード””音域”などなど70個ほどの項目で分類していくそうだ。
そして、ヒットした曲が、どんな組み合わせ項目に該当するかを比較する。
結果として60個ほどの組み合わせパターンが出てきたそうだ。
そして、このサイトで高得点を獲得した曲は、実際にヒットしたそうだ。
このサイトで使われているAIは、一般的に”機械学習”と呼ばれている一昔前のものだ。特徴としては、分類項目を人間が設定してやる必要がある。AIがやるのは、あくまでも”分類作業”という機械的作業だけだ。
ただ、この時点で既になぜ”その組み合わせがいいのか?”という理由は人間には分からなくなっていた。人が知ることが出来るのは”結果だけ”だ。
この機械学習が開発された時点で、将来のAIに対する懸念が表明され出していた。”特定の分類項目の組み合わせが何故有効なのか?”という理由が人間には分からかった。もしAIが大規模に使われるようになったとして、”判断の理由が分からない”ままに結果を受け入れる事態が発生しかねなかった。
分類自体を自動化
あくまでも分類は人間が設定する必要のある”機械学習”が普及すると、当然のことながら”分類自体を自動化”しようという発想になる。
これが今のAIで主流の”深層学習(ディープラーニング)”だ。
例えば”猫”の画像を自動で判定しようとしよう。その場合には、数億枚の猫の画像をAIに読み込ませる。同時に”猫以外”の画像も大量に読み込ませる。
そして”猫の画像”と”猫以外の画像”の相違点をAIに比較させる。AIは画像の相違点をトライアンドエラーを繰り返すことで自分で比較ポイントを”発見”していく。これが”学習”と呼ばれる所以だ。また、この学習の方法などによりディープラーニングにはいくつかの流派があるようだ。
このデータの分析には、今までお馴染みの従来型データベースではなくて、人間の脳の仕組みを模したニューラルネットワークと呼ばれる技術が利用されている。
最終的に2015年にGoogle傘下のAI研究所であるDeepMindが、初見の”猫”の画像を”猫”と認識することに成功した。これが今のAIの元と言って良いだろう。
さらにGoogleは、その後に”囲碁”の世界チャンピョンに挑戦して勝利を収めてもいる。
ChatGPT・・・真打ち登場
そして今回、満を持して登場したのが話題の”CatGPT”だ。人間が打ちこんだ文章を解析して、意味をくみ取り、適切な回答を文字通り”生成”してくる。
ここでChatGPTが内部でやっているのは、”文字と文字の繋がり”のデーターの解析だ。ただ、超大量のデーターを使って、文章の繋がり具合(文字と文字、文節と文節、文章と文章など)のデータ分析し、その”繋がり”を保持している。そして、その”繋がり具合”から意味を判定して、文章を生成している。
ここで注意しなければならないのは、ChatGPTなどのAIが文章の”意味”を理解している訳ではないということだ。あくまで文字や文節や文章などバラバラのデーター間の”繋がり”状態を持っているだけだ。そしてこの”繋がり具合”で判定している。
ChatGPTを開発したOpenAI社のアルトマンCEO自体が、NHKのインタビューで「こんなに上手くいくとは思っていなかった」と発言している。やってみたら”予想を上回る出来の文章を吐き出してきた”というのが現状のようだ。
このアルトマンCEOのインタビューは実はかなり怖い話かもしれない。ChatGPTを開発した彼自身が仕組みを完全に理解している訳ではない可能性があるからだ。もしかしたら世界中の誰も理解していないかもしれない。
間違いを犯す理由
深層学習が”繋がり”を利用して判断していることが理解できると、ChatGPTが度々間違いを犯す理由も何となく理解できる。ChatGPTが参照しているのは、あくまでも”与えられた過去のデータ”の集まりだけだ。しかも”意味を理解している訳ではない”。ChatGPTが理解可能なのは、”データー(この場合には文字や文節など)の関連”だけだ。簡単な計算を間違うのもこのためだ。実際に計算している訳ではない。数(文字)と数の文字としての繋がりを過去データから類推しているだけだ。
鈴木宗男議員を共産党員と判定したのもそのためだろう。きっと過去に鈴木と宗男という名前の共産党員が(もしかしたら別々)に存在したのかもしれない。または、鈴木宗男と言う名前と共産党と言う文字(文章)の組み合わせが、過去の記事やサイトなどに頻繁に登場していたのかもしれない(本当の理由は分からない)。
AIを甘く見てはいけない
AIが度々間違いを犯すことが分かると”AIは当てにならない”という反論、反応が当然湧き上がってくるだろう。しかしこの考え方は危険だ。当初は度々間違いを犯すChatGPTなどのAIだが、”使えば使うほど”賢くなっていく。OpenAIが無料でChatGPTを公開しているのも、この学習訓練のためだろう。そしてしばらくすると80%から90%の正解率に到達するだろう(既にChatGPTのVer4ではそうなっているらしい)。そうなると実際の社会で広範囲に使われるのを止めることは出来ないだろう。なにしろ完全でなくても、生の人間より間違いが少ないのだから。
自分で改良し始める?
この深層学習(ディープラーニング)を利用したAIの問題点は、内部でAIが”何をもって判断しているか人間には分からない”という点だ。
少なくとも機械学習の段階では、AIが判定に利用している”分類項目”を人間が設定することが出来ていた。
しかし最新のAIでは、AIの内部でどのような判断が行われて特定の結論に至っているか”外から分からない”のだ。
もちろん分類作業を行うデーター分析の”作業手順”は、人間がプログラミングしている。その意味で完全に人間の手を離れたわけではない。
ただ、このChatGPTは、コンピューターのプログラミング(コーディング)も自動で出来るようだ。誰かがもうやっているだろうが、深層学習のプロトコル自体をAIが行うのも時間の問題だろう。
そうなると、AIが完全に人間のコントロール外になる。
手塚治虫が予想していた
もしAIがデータ分析のプログラム(プロトコル)自体を自己生成するようになると、完全に人間の手を離れて独自に動き出す日も近いかもしれない。
天才漫画家の手塚治虫は、名作「火の鳥 未来編」で70年も前にこの事態を予想していた。
次に何が起きるかは、まさしく神のみぞ知るだ。
コメント