#author("2023-10-23T17:37:41+09:00","default:irrp","irrp") #author("2024-03-30T11:28:15+09:00","default:irrp","irrp") →大規模言語モデル -[[LLMの現在 - Speaker Deck>https://speakerdeck.com/pfn/llmnoxian-zai]] 2024.3 -[[LLM登場までの深層学習の歴史を振り返ってみた[前編]|ONE CAREER Tech Blog>https://note.com/dev_onecareer/n/n041ccc285706]] 2023.8 -[[LLM登場までの深層学習の歴史を振り返ってみた[後編]|ONE CAREER Tech Blog>https://note.com/dev_onecareer/n/n92f5ec474554]] 2023.10 -[[現状のLLMの流れ / Twitter>https://twitter.com/umiyuki_ai/status/1641083326940475393]] 2023.3 --1.マイクロソフトのBing VS GoogleのBard→検索エンジンの戦い --2.オープン(メタのLLaMAとかGPT-J、GPT-NEOX、Cerebras-GPT) VS クローズ(ChatGPT, GPT-4, LaMDA, PaLM) ---→クローズ勢はオープン勢の研究成果を一方的に利用できる。逆にオープン勢はクローズモデルの入出力で蒸留できる。(規約的に微妙) --3.ChatGPT VS AIスタートアップ→ChatGPTプラグインが登場して万能AIプラットフォーム化した事でAIスタートアップは壊滅か。これからは単なるプラグインの一つに収まる運命かも --4.既存ツール VS ネイティブAIツール→あらゆるツールにLLMが搭載されだした。フォトショ、Blender、UE、Unity、Office、Note、Notion… ---これまた既存ツールにAI乗せただけみたいなAIスタートアップはバチボコ(たとえばTome)でも、AIネイティブなツールは?例えばRunway --5.LLaMAの隆盛。リークされた途端にStable Diffusionの時みたいな盛り上がりを見せる。LLaMA. cpp(CPUで動く)、Alpaca、Alpaca_Lora、Alpacoom、日本語Alpaca、lit_LLaMA、OpenFlamingo、GPT4All --6.マルチモーダル化の流れ。GPT-4やOpenFlamingo。テキスト学習データは枯渇しているからマルチモーダルにするしかない。マルチモーダルなら小パラメータでも高性能説? --7.ロボットの頭脳にLLMを使う流れ。Googleが色々やってる。RT-1、PaLM-E --8.H3やHyenaとかの最新アーキテクチャを使ったクソデカコンテキスト枠のモデルはどこが作るのか? --9.RWKVのような思わぬダークホースのオープンソースモデルもやって来る。高速、省メモリ、長コンテキスト。Alpaca食わせてRavenに --10.LLMの開発規制!?イーロン達がOpenAIにズルいとか言い出す。ゆくゆくはLLMの研究禁止などの規制に繋がるのか? --11.周辺ライブラリ。LangChain、Llama Index、Guardrails --12.GPT-4登場の衝撃。自称汎用テクノロジー、自称汎用知能。人間の仕事を相当置き換えられるポテンシャルという論文もある。 ---心の理論タスクほぼ全クリ。9割の人間を上回る創造性。ワールドモデルを持っている?マンガも読める。最大コンテキスト長32k。未知の創発能力の可能性 -[[[2304.13712] Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond>https://arxiv.org/abs/2304.13712]] --&ref(大規模言語モデル/LLM系統.jpg);