#author("2024-04-21T11:00:07+09:00","default:irrp","irrp")
#author("2024-04-21T11:00:27+09:00","default:irrp","irrp")
→自然言語処理

→OpenAIのAPI

→Amazon Bedrock

→LLMライブラリ

→大規模言語モデル


#contents


*サブトピック [#o90a91aa]
-RAG関連


* 一般 [#hf9f1ff9]
-[[無料でも高品質!Multilingual-E5-largeによるテキストベクトル化 | ジコログ>https://self-development.info/%e7%84%a1%e6%96%99%e3%81%a7%e3%82%82%e9%ab%98%e5%93%81%e8%b3%aa%ef%bc%81multilingual-e5-large%e3%81%ab%e3%82%88%e3%82%8b%e3%83%86%e3%82%ad%e3%82%b9%e3%83%88%e3%83%99%e3%82%af%e3%83%88%e3%83%ab/]] 2024.3

-[[LLMチューニング手法「LoRA」のポイントと活用例 #AI - Qiita>https://qiita.com/DeepMata/items/cb4ff18c1e0548bdb844]] 2023.12

-[[ベクトル検索の有用性をキーワード検索と比較する | SIOS Tech. Lab>https://tech-lab.sios.jp/archives/38289]] 2023.12

-[[【Golang】Azure OpenAI で Embedding したベクトルを使って、自前検索エンジンを作ろう>https://zenn.dev/microsoft/articles/20231208_go_aoai_pg_vector]] 2023.12

-[[[中級編]LLMへ至る道~単語を埋め込むってどういうこと?~[8日目] | DevelopersIO>https://dev.classmethod.jp/articles/road-to-llm-advent-calendar-2023-08/]] 2023.12

-[[Amazon RDS for PostgreSQLがpgvectorモジュールに対応しベクトル検索できるようになりました | DevelopersIO>https://dev.classmethod.jp/articles/amazon-rds-postgresql-pgvector-embedding/]] 2023.10

-[[BERT系モデルで文章をEmbeddingする際のTips - Qiita>https://qiita.com/anyai_corp/items/1d66feea6102c28dd077]] 2023.8

-[[PostgreSQL(pgvector) のベクトル検索による全自動PDF検索 : Blob Storage にアップロードしPDFをテキストに変換 - Qiita>https://qiita.com/yoshioterada/items/fddbc738cca9f24dac8b]] 2023.6

-[[Azure OpenAI Embedding モデルを利用し最も関連性の高いドキュメントを見つける方法 - Qiita>https://qiita.com/yoshioterada/items/3e575828368bf3767532]] 2023.6

-[[ChatGPTを使ってOpenAIのEmbeddings APIを実験してみる - Kaizen Platform 開発者ブログ>https://developer.kaizenplatform.com/entry/yu/2023-06]] 2023.6

-[[tiktokenを使ってテキストをトークンに変換してみる - CLOVER🍀>https://kazuhira-r.hatenablog.com/entry/2023/12/04/230304]] 2023.12
-[[ChatGPTに日本語テキストを入力するとき、日本語テキストがどのように分割されてトークンに変換されるかをtiktokenでのぞく - nikkie-ftnextの日記>https://nikkie-ftnext.hatenablog.com/entry/how-chatgpt-tokenize-japanese-text-tackling-with-tiktoken]] 2023.4

-[[Embeddingで埋め込みベクトルとってDBに投入して検索するのをout-context learningと呼ぶのはどうか - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/04/13/212226]] 2023.4

-[[「単語ベクトル」とは何か? - YouTube>https://www.youtube.com/watch?v=l8YCKz15Hn8]] 2023.4

-[[ChatGPTなどのチャットAIがどんな風に文章を認識しているのかが一目で分かる「Tokenizer」 - GIGAZINE>https://gigazine.net/news/20230407-tokenizer-open-ai/]] 2023.4

-[[OpenAI GPTにおいて、モデルごとにトークン量が変動するのはなぜ? | IIJ Engineers Blog>https://eng-blog.iij.ad.jp/archives/18815]] 2023.3

-[[OpenAI 言語モデルごとのエンコーディング一覧>https://zenn.dev/microsoft/articles/3438cf410cc0b5]] 2023.3

-[[人間の言葉をコンピュータが理解できるようにするための「ベクトル化」の話 | DevelopersIO>https://dev.classmethod.jp/articles/vectorization-in-natural-language-processing/]] 2022.12
--形態素解析,構文解析,意味解析,文脈解析,カウントベース,分散表現

-[[自然言語処理:単語ベクトルの導出ー埋め込み表、CBOW、Skipgram - YouTube>https://www.youtube.com/watch?v=ylWNajlpiEo]] 2020

-[[ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita>https://qiita.com/norihitoishida/items/85150cfacc1f75f552f3]] 2019

-[[自然言語処理の必須知識!Word2Vec とは? | キカガクの技術ブログ>https://blog.kikagaku.co.jp/word2vec]] 2022.12

-[[青空文庫の全小説でword2vecしてみる - Qiita>https://qiita.com/sheep96/items/1995a3eacfc0be317a08]] 2022.7

-[[BERT vs Word2Vec 〜単語分散表現による同義語抽出〜 - Qiita>https://qiita.com/chicken_data_analyst/items/15c0046062c6e016f467]] 2022.7

-[[Word2Vecを用いたタンパク質の分散表現 - Qiita>https://qiita.com/kuro3210/items/aa45753d301dfc13811b]] 2022.4
-[[【転職会議】クチコミをword2vecで自然言語処理して会社を分類してみる - Qiita>https://qiita.com/naotaka1128/items/2c4551abfd40e43b0146#2-gensim-%E3%81%A7-doc2vec-%E3%81%AE%E3%83%A2%E3%83%87%E3%83%AB%E6%A7%8B%E7%AF%89]] 2016
-[[【word2vec】会社のクチコミを自然言語処理した結果を可視化してみる - Qiita>https://qiita.com/naotaka1128/items/e617f63907fed035408a]] 2017



*Amazon Bedrock によるエンベディング [#v422b591]
-[[Amazon BedrockでLLMを使ったベクトル検索を試す #AWS - Qiita>https://qiita.com/naomichi-y/items/9884e9b40f2d7cea617c]] 2023.12

-[[「ベクトル検索 vs 全文検索」〜Amazon Bedrockの埋め込みモデルを用いたプロトタイピング〜 - コネヒト開発者ブログ>https://tech.connehito.com/entry/2023/12/08/144649]] 2023.12

-[[【Amazon Bedrock】AWSサービスのみを使ったシンプル構成のRAGアプリを作ってみた - NRIネットコムBlog>https://tech.nri-net.com/entry/aws_bedrock_rag_app]] 2023.10

-[[Titan Embeddings Generation 1を利用して過去のブログ記事タイトルの類似性を散布図に落とし込んでみた - DENET 技術ブログ>https://blog.denet.co.jp/embeddings-scatter/]] 2023.10

-[[ASCII.jp:生成AI基盤のAmazon BedrockでTitan Embeddingsを試してみる>https://ascii.jp/elem/000/004/163/4163301/?rss]] 2023.10

-[[Amazon BedrockでテキストのEmbeddingsを取得してみた | DevelopersIO>https://dev.classmethod.jp/articles/amazon-bedrock-titan-embeddings/]] 2023.10

-[[Amazon BedrockのEmbeddingsを試しました。(良さげです) - Qiita>https://qiita.com/moritalous/items/d68ee613776e2e18b81b]] 2023.9



*OpenAI Embedding API [#p7cbc263]
-[[OpenAIのembedding APIを用いた類似語検索を自作しました - M&Aクラウド開発者ブログ>https://tech.macloud.jp/entry/2024/03/25/183502]] 2024.3

-[[大規模小説データをOpenAI Embedding APIで特徴抽出してUMAPで可視化してみた>https://zenn.dev/tellernovel_inc/articles/62d70afb097176]] 2023.11

-[[ChatGPT x LangChain で独自ドキュメントのベクターストア検索をチューニングする / 開発者向けブログ・イベント | GMO Developers>https://developers.gmo.jp/38381/]] 2023.9

-[[OpenAI の Embeddings API はイケてるのか、定量的に調べてみる - Qiita>https://qiita.com/akeyhero/items/ce371bfed64399027c23]] 2023.9

-[[OpenAIのEmbeddings APIを使って文の意味上の類似度を計算 | GMOアドパートナーズ TECH BLOG byGMO>https://techblog.gmo-ap.jp/2023/06/22/embeddings_api_calc_sentence_similarity/]] 2023.6

-[[【ChatGPT】Embeddingsでドメイン知識をChatGPTに理解させる - Qiita>https://qiita.com/yuno_miyako/items/589efa5c5dd6df2b16a7]] 2023.6

-[[ChatGPT_APIのEmbedding_カスタマイズ入門 - Speaker Deck>https://speakerdeck.com/ryoheiigushi/chatgpt-apinoembedding-kasutamaisuru-men]] 2023.4



*ベクトルDB/ベクターストア [#c373e648]
-[[VRAMが少ない環境でLLMを効率的にfine-tuneしてベクトル検索を実現する>https://zenn.dev/yner/articles/llm_book_text_similarity]] 2024.4

-[[Azure Databricks の ベクトル検索機能の使い方>https://zenn.dev/microsoft/articles/30c7bf36f7f453]] 2024.4

-[[カスタムベクトルストアでRAGワークフローをカスタマイズする - Speaker Deck>https://speakerdeck.com/risako/kasutamubekutorusutoaderagwakuhurowokasutamaizusuru]] 2024.4

-[[Chromaインストールガイド: AIネイティブ埋め込みデータベースの導入方法 | ジコログ>https://self-development.info/chroma%e3%82%a4%e3%83%b3%e3%82%b9%e3%83%88%e3%83%bc%e3%83%ab%e3%82%ac%e3%82%a4%e3%83%89-ai%e3%83%8d%e3%82%a4%e3%83%86%e3%82%a3%e3%83%96%e5%9f%8b%e3%82%81%e8%be%bc%e3%81%bf%e3%83%87%e3%83%bc%e3%82%bf/]] 2024.3

-[[(日本語訳) Vector databases (Part 2): Understanding their internals>https://zenn.dev/kun432/articles/20230921-vector-databases-jp-part-2]] 2024.1
-[[(日本語訳) Vector databases (Part 1): What makes each one different?>https://zenn.dev/kun432/articles/20230921-vector-databases-jp-part-1]] 2024.1

-[[Vector Databases: A Technical Primer - Vector Databases - A Technical Primer.pdf>https://tge-data-web.nyc3.digitaloceanspaces.com/docs/Vector%20Databases%20-%20A%20Technical%20Primer.pdf]] 2024.1

-[[ベクトルデータベースってどういうものがある? - CLOVER🍀>https://kazuhira-r.hatenablog.com/entry/2023/12/09/195215]] 2023.12

-[[【LLM】ベクトルデータベースって多くてどれを使ったら良いか分からないというあなたのための記事(6つのツールを比較)>https://zenn.dev/moekidev/articles/9e8b85025d590e]] 2023.10

-[[LangChainでCognitive SearchのベクトルDBと連携させたRAGを構築する - Qiita>https://qiita.com/tmiyata25/items/bfb7f4f5f22ec659c791]] 2023.9

-[[LangChainでCognitive SearchのベクトルDBを構築する - Qiita>https://qiita.com/tmiyata25/items/cf417c51aad2660f2c42]] 2023.8

-[[ベクトルデータベース Pinecone の概念を整理する | DevelopersIO>https://dev.classmethod.jp/articles/pinecone-overview/]] 2023.4

-[[ChromaDBの完全なチュートリアル - Qiita>https://qiita.com/jingwora/items/d39635b2d727725bf4ca]] 2023.10


*ファインチューニング [#cc34304d]
-[[小さい計算コストでスマートにLLMをチューニング!-Hugging Face PEFT入門(前編)>https://zenn.dev/elith/articles/3ec1d319c8a40f]] 2024.4
--LoRA,Adapter

-[[OpenAI の ファイチューニングAPI の新機能|npaka>https://note.com/npaka/n/ne41cba4111a0]] 2024.4

-[[ファインチューニングを行う手順とポイント | Think IT(シンクイット)>https://thinkit.co.jp/article/22800]] 2024.2
--LoRA,Adapter

-[[Microsoft Azure における大規模言語モデルの学習とファインチューニング - YouTube>https://www.youtube.com/watch?v=k0lqrH8fmwg]] 2023.10

-[[大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 - Preferred Networks Research & Development>https://tech.preferred.jp/ja/blog/llm-fine-tuning-for-domain-knowledge/]] 2023.10

-[[職場の先輩をLLMで作ってみようとした話 #Python - Qiita>https://qiita.com/sergicalsix/items/b9057a252dc81520bf20]] 2023.10

-[[【ChatGPT】ファインチューニングをわかりやすく解説 - Qiita>https://qiita.com/ksonoda/items/b9fd3e709aeae79629ff]] 2023.9

-[[LLMのファインチューニングで事実の学習ができないのは本当か?ちょっと実験してみた>https://zenn.dev/ohtaman/articles/llm_finetune_lora]] 2023.9

-[[LLMのファインチューニング で 何ができて 何ができないのか|npaka>https://note.com/npaka/n/nec63c01f7ee8]] 2023.8

-[[OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留を試す|npaka>https://note.com/npaka/n/ne1990cdbb39a]] 2023.8

-[[ChatGPT の Fine-tuning を試したけど上手くいかなかった話>https://zenn.dev/ml_bear/articles/49ed93d33e69cc#%E3%81%BE%E3%81%A8%E3%82%81]] 2023.8

-[[OpenAI(ChatGPT)のfine-tuning機能を早速試してみた~ひろゆきのスパチャを例に - Qiita>https://qiita.com/MandoNarin/items/6fadb78f357c66e25502]] 2023.8

-[[chatGPT(gpt3.5-turbo)をファインチューニングしてみた - Qiita>https://qiita.com/nano-s/items/5960f43965e97aa50b14]] 2023.8

-[[GPT-3.5 Turboのファインチューニング|npaka>https://note.com/npaka/n/n4cc82056a186]] 2023.8

-[[OpenAI API の ファインチューニングガイド|npaka>https://note.com/npaka/n/ne4dfd4480ead]] 2032.8

-[[GPT-3.5-turboをfine-tuningする際の気になるポイントをまとめた。 | DevelopersIO>https://dev.classmethod.jp/articles/gpt35-finetuning-tips-qna/]] 2023.8

-[[【速報】OpenAI APIでGPT-3.5-turboがfine-tuningできるようになりました!! | DevelopersIO>https://dev.classmethod.jp/articles/openai-gpt35turbo-fine-tuning/]] 2023.8

-[[OpenAI APIのファインチューニングの学習データのガイドライン|npaka|note>https://note.com/npaka/n/n021a59452dc8]] 2023.4

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS