→AI/機械学習
→ディープラーニング
→自然言語処理
→画像認識/検出/トラッキング
サブトピック†
- 画像や文章の生成などを行う「ジェネレーティブAI」はなぜ急に発展したのか? - GIGAZINE 2023.2
- プログラミング言語としてのトレーニングから、自然言語処理(NLP)を用いた「コードではなく言語を理解」する学習法に推移していく段階でRNNやLSTMが用いられていましたが、近年まで「言語の処理では単語の順序が重要な違いを生む」点や、「適切なトレーニングデータを取得するのが難しい」という点で、長い文章の処理を行えなかった
- そこで突破口となったのがGoogleの「Transformer」で、RNNよりも言語理解タスクに秀でたニューラルネットワークアーキテクチャとして質の高い翻訳に成功しました。翻訳には言語ごとの語順が重要で、それがTransformerには当然に組み込まれていたため、Transformerが用いた「位置エンコーディング」「マルチヘッドアテンション」という処理法が言語処理のブレイクスルーとして機能した
- 言語モデルにおける大きな転換点は、翻訳のために作られた驚くべきモデルを利用する事で、言語処理タスクが抱えていた問題を翻訳の問題に変換する方法を見つけ出したこと
- Transformerはある言語から別の言語に変換する翻訳モデルとして発明されましたが、画像など他のパラメータを言語と同様の方法で表現する方法を理解できれば、そこにあるルールを見つけ出して別の言語にマッピングするTransformerの能力を訓練して、翻訳を行うことができます。こうして「画像から特徴を抽出し、潜在表現と呼ばれる低次元表現に圧縮し、細かいポイントを軸として座標に表す」といったアプローチが可能になりました。
- 時系列処理が必要なRNNは並列化と相性が悪いのでAttentionに全振りしたのがTransformer
- 自己注意機能により系列データを一括同時処理可能になった。RNNでは逐次計算が必要、また離れた単語の関係づけできず長文理解が難しかった。
- GPUフレンドリで容易に並列化可能→学習の高速化、劇的な学習時間短縮を実現
- 入力シーケンス全体を考慮可能
- CV(Computer Vision)タスクへの応用もあり→画像認識/検出/トラッキング
理論的な解説†
- 深層学習界の大前提Transformerの論文解説! - Qiita 2019
- Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。
- つまり、以下の3つ(+2つ)のことが分かればモデル構造が理解できる
- エンコーダー-デコーダモデル
- Attention
- Position-wise全結合層
- 文字の埋め込みとソフトマックス
- 位置エンコーディング
- NLPの最近のSoTAたち(BERT,XLNet,GPT-2など)のベースとなるモデル だから理解必須
Attention†
PaLM†
BERT (Bidirectional Encoder Representations from Transformers)†
- Transformerから発展。大量の汎用テキストデータで事前学習→タスクに合わせて追加学習(Fine-Tuning)
- 文章のマスクと復元という自己教師学習によりラベルなし文章を学習に適用可能
- 双方向モデル、単語の前後から文脈を把握
LLaMA†