岡野原大輔先生の「大規模言語モデルは新たな知能か」を読みました。ところどころ大事だと思ったところをピックアップ。
「今、 A Iの普及で大きな役割を果たしている機械学習は、帰納的なアプローチの代表であり、データからルールや知識を獲得する。その一方で、人がもつ知識をそのまま組み込むことができず、一般の人が期待する知能システムと実現可能な知能システムの間には大きなギャップがある。」
「帰納的なアプローチである機械学習に、既にわかっている知識を導入するアプローチは存在するが(帰納バイアスやベイズ的に事前確率として導入するなど)、人が築きあげてきた知能のように、既にわかっている知識・情報を導入することは簡単ではなかった。大規模言語モデルはこのギャップを大きく埋める可能性がある」
「機械学習で問題を学習する際に、今見ているデータのみならず、その問題や、データがどういったものかという情報を大規模言語モデルが提供することで、演繹的なアプローチと帰納的なアプローチを組み合わせて、新しい事実をみつけることができるかもしれない。」
「研究者や技術者たちは計算機が知識やルールを獲得することを目指してきた。だが、人がどのようにして言語を習得するのか自体が大きな謎である中で、人のようにどんな課題にも応答できるように、知識やルールを与えることは困難だった。」
「ほとんどの人が、知能というものは大部分が意識上で制御され、説明できるものと思っているが、実はその大部分が無意識下でうまく制御されている。このことをハンガリー出身の科学者マイケル・ポランニーは、「我々は語れる以上のことを知っている」と表現しており、明示できない暗黙知が存在することは、「ポランニーのパラドックス」とよばれている。」
「これまでの機械学習を使った自然言語処理のアプローチには、大きな問題点が二つあった。一つ目は、目的に応じた訓練データを用意する必要があることだ。例えば、機械翻訳であれば翻訳文を用意する必要があるし、要約であれば要約のデータを集める必要がある。二つ目は、目標が明確になっていない場合に訓練データを用意できないことだ。」
「機械学習でも訓練データを丸暗記するのではなく、そこから訓練データ以外の他のデータを予測するのにも役立つような法則やルールを獲得し、それによって、学習中に見たことのない将来のデータに対しても、うまく予測できるようになってほしい。このように未知のデータでもうまく予測できるようになることを汎化とよび、汎化ができる能力を汎化能力とよぶ。機械学習の最大の目標は、汎化能力を獲得することにある。」
「言語モデルは、前の単語列から次の単語を予測できるように学習したモデルである。言語モデルは意味を捨て、確率という構造の中で言語を扱う。意味を捨てたが、次の単語を予測できるように学習すると、文章の中から予測に役立つ情報を扱えるようになる必要にかられ、結果として文を理解できるモデルができる。言語モデルは、言語の可逆データ圧縮とみなすことができる。可逆とは、元のデータに誤りなく完全に復元できることを意味する。言語モデルは言語データを最も圧縮できるモデルを探している。」
「モデルサイズを大きくしていく中で、それまでまったく解けなかった問題がある時点から急に解けるようになる現象である。これを創発( Emergence)とよぶ。」
「さらに蒸留とよばれるテクニックにより、大きなモデルを使わないと解けなかった問題を解く能力を小さなモデルに移せることがわかっている。」
「誤差逆伝播法は名前のとおり、今のネットワークの予測と正解との誤差が、ニューラルネットワークの伝播と逆方向に流れていく。そして各シナプスではこれら誤差情報を使って、各パラメータをどのように微調整すれば、最終的な予測結果が当たるようになるのかを正確に求めることができる」
「計算機で問題を解く際、データや問題を計算機上でどのように表現するかが、最も重要な課題である。それまで多くのタスクでは、専門家がデータや問題を機械学習のモデルが処理できる形でどのように表現するのかを設計していた。これを一般に特徴設計などとよぶ。それに対しディープラーニングは、データの最適な表現方法をデータから獲得する。これを実現する仕組みが、ニューラルネットワークの多層構造であり、他の層が出力した結果を次の層の入力として使うことである。」
「ニューラルネットワークの学習は(確率的)勾配降下法とよばれる、目的関数の値(例えば訓練データにおける予測と正解との誤差の平均値)が小さくなる方向に徐々にパラメータを修正することを繰り返す手法によって達成される。」
「こうしたディープラーニングの発展において特に重要な役割を示したのが、トランスフォーマー( Transformerト)とよばれるモデルである。トランスフォーマーは、自己注意機構と M L Pブロックとよばれる単位を交互に重ねていき、データを処理するモデルである。」
