Transformer の履歴(No.30) - 技術情報Wiki

サブトピック†

GPT関連

↑

Transformer一般†

Transformerをゼロから実装する | One Tech Blog 2023.3

Hugging Face Pipelineを使ったお手軽AIプログラミング | IIJ Engineers Blog 2023.2

画像や文章の生成などを行う「ジェネレーティブAI」はなぜ急に発展したのか？ - GIGAZINE 2023.2
- プログラミング言語としてのトレーニングから、自然言語処理(NLP)を用いた「コードではなく言語を理解」する学習法に推移していく段階でRNNやLSTMが用いられていましたが、近年まで「言語の処理では単語の順序が重要な違いを生む」点や、「適切なトレーニングデータを取得するのが難しい」という点で、長い文章の処理を行えなかった
- そこで突破口となったのがGoogleの「Transformer」で、RNNよりも言語理解タスクに秀でたニューラルネットワークアーキテクチャとして質の高い翻訳に成功しました。翻訳には言語ごとの語順が重要で、それがTransformerには当然に組み込まれていたため、Transformerが用いた「位置エンコーディング」「マルチヘッドアテンション」という処理法が言語処理のブレイクスルーとして機能した
- 言語モデルにおける大きな転換点は、翻訳のために作られた驚くべきモデルを利用する事で、言語処理タスクが抱えていた問題を翻訳の問題に変換する方法を見つけ出したこと
- Transformerはある言語から別の言語に変換する翻訳モデルとして発明されましたが、画像など他のパラメータを言語と同様の方法で表現する方法を理解できれば、そこにあるルールを見つけ出して別の言語にマッピングするTransformerの能力を訓練して、翻訳を行うことができます。こうして「画像から特徴を抽出し、潜在表現と呼ばれる低次元表現に圧縮し、細かいポイントを軸として座標に表す」といったアプローチが可能になりました。

Vision Transformer入門をもっと楽しむために - Speaker Deck 2022.12
- 【書籍】Vision Transformer入門

Transformerのモデル、"T5"について調べてみました！ - CCCMKホールディングス TECH Labの Tech Blog 2022.12

CS25 I Stanford Seminar - Transformers United: DL Models that have revolutionized NLP, CV, RL - YouTube 2022.7

作って理解する Transformer / Attention - Qiita 2018

↑

概要†

時系列処理が必要なRNNは並列化と相性が悪いのでAttentionに全振りしたのがTransformer
自己注意機能により系列データを一括同時処理可能になった。RNNでは逐次計算が必要、また離れた単語の関係づけできず長文理解が難しかった。
- GPUフレンドリで容易に並列化可能→学習の高速化、劇的な学習時間短縮を実現
- 入力シーケンス全体を考慮可能
- CV(Computer Vision)タスクへの応用もあり→画像認識／検出／トラッキング

↑

理論的な解説†

A Gentle Introduction to Positional Encoding in Transformer Models, Part 1 - MachineLearningMastery.com 2023.3
- 前処理で行っている単語位置情報のエンコーディング

(数式を使わない) Transformer の直感的な説明 / 真面目なプログラマのためのディープラーニング入門 2023.2

【図解】誰でもわかるTransformer入門！凄さ・仕組みをわかりやすく解説 - すえつぐのNLP&G 2023.2

ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ - あつまれ統計の森 2023.2

30分で完全理解するTransformerの世界 2023.2
- ※一見入門ぽいタイトルのだが本格的な説明であり入門解説ではない。ある程度分かっている人の復習用

「Transformer」の仕組み──AIによる画像・動画生成や自然言語処理で話題の深層学習モデルを理解する (1/3)|CodeZine（コードジン） 2022.12

Transformerの最前線〜畳込みニューラルネットワークの先へ〜 - Speaker Deck 2022.7

[2207.09238] Formal Algorithms for Transformers 2022.7

最近のDeep Learning (NLP) 界隈におけるAttention事情 2022.3

自然言語処理の必須知識 Transformer を徹底解説！ | DeepSquare 2022.3

Hugging Face Courseで学ぶ自然言語処理とTransformer 【part1】 2021.6

図で理解するTransformer - Qiita 2021.5

深層学習界の大前提Transformerの論文解説！ - Qiita 2019
- Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。
- つまり、以下の3つ(+2つ)のことが分かればモデル構造が理解できる
  - エンコーダー-デコーダモデル
  - Attention
  - Position-wise全結合層
  - 文字の埋め込みとソフトマックス
  - 位置エンコーディング
- NLPの最近のSoTAたち(BERT,XLNet,GPT-2など)のベースとなるモデルだから理解必須