September 24, 2024

株式会社ずんだもん技術室AI放送局 podcast 20240925

5 minutes

関連リンク

Updated production-ready Gemini models, reduced 1.5 Pro pricing, increased rate limits, and more

Googleは、Gemini 1.5シリーズの最新モデルである「Gemini-1.5-Pro-002」と「Gemini-1.5-Flash-002」をリリースしました。これらのモデルは、Google I/Oで発表されたGemini 1.5モデルをベースに、性能が大幅に向上しています。

主な改善点は以下の通りです。

性能向上: 数学、長文処理、画像認識などのタスクで、特にGemini-1.5-Proは性能が約7%向上しました。

価格改定: Gemini-1.5-Proの入力と出力のトークン価格が50%以上削減されました。

速度向上: 出力速度が2倍、レイテンシが3倍削減されました。

利用制限緩和: Gemini-1.5-FlashとGemini-1.5-Proの利用制限がそれぞれ2倍と3倍に緩和されました。

安全対策: デフォルトの安全フィルター設定が変更され、開発者が用途に合わせて設定できるようになりました。

これらのモデルは、Google AI Studio、Gemini API、Vertex AIを通じて利用可能です。特に、Gemini-1.5-Proは最大200万トークンの長いコンテキストを処理できるため、複雑な文書や動画の処理に適しています。

今回のアップデートにより、Gemini 1.5シリーズはより高速で、コスト効率が高く、使いやすくなりました。これらのモデルを活用することで、より高度なAIアプリケーションを開発できるようになるでしょう。

制約事項としては、Gemini-1.5-Proの価格改定は128Kトークン未満のプロンプトに適用される点、安全フィルターはデフォルトで適用されない点などに注意が必要です。詳細な情報は、Gemini APIのドキュメントを参照ください。

引用元: https://developers.googleblog.com/en/updated-production-ready-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/

RAGを超えた新技術登場！その名も「Self-Route」

近年、大規模言語モデル（LLM）は複雑な質問に答えられる一方、計算コストが課題となっています。一方、検索拡張生成（RAG）は低コストで迅速な回答を提供できますが、複雑な処理には不向きです。

「Self-Route」は、LLMとRAGの長所を組み合わせた新しい技術です。クエリの内容に応じて、LLMとRAGを使い分けることで、コストと精度のバランスを最適化します。

Self-Routeの仕組み

RAG-and-Routeステップ: まず、RAGでクエリに関連する情報を検索します。

長文コンテキスト予測ステップ: RAGだけでは処理できない複雑なクエリの場合、LLMが全文脈を解析し、回答を生成します。

動的ルーティング: クエリに応じてLLMとRAGを自動的に使い分けることで、無駄なくリソースを活用します。

Self-Routeのメリット

コスト効率の向上：RAGで処理できるクエリはRAGで処理し、LLMの使用を最小限に抑えることで、コストを削減できます。

高精度な回答：複雑なクエリにはLLMが対応するため、精度の高い回答を得られます。

柔軟な適応性：クエリに応じて適切な技術を選択することで、幅広い種類のクエリに対応できます。

Self-Routeの制約

多段階推論が必要な質問、曖昧な質問、長くて複雑な質問、暗黙的な理解を要する質問など、RAGだけでは処理できないクエリには限界があります。

今後の課題

RAGの多段階推論能力の向上

実際のデータセットを用いた評価

Self-Routeは、LLMとRAGの利点を融合した画期的な技術であり、今後、様々な分野で活用されることが期待されています。新人エンジニアの皆さんも、この新しい技術に注目してみてはいかがでしょうか。

引用元: https://qiita.com/ryosuke_ohori/items/a94c648df3243b5af323

話題のGraphRAGにAWSで挑戦しよう！（LlamaIndexとNeptuneに入門）

近年、LLM（大規模言語モデル）において、RAG（Retrieval Augmented Generation）という検索結果を組み合わせる技術が注目されています。従来のRAGは、ドキュメントをベクトルに変換して検索していましたが、Microsoftが公開したGraphRAGは、ドキュメントを「グラフ」として保存することで検索精度向上を目指しています。

グラフとは、ノードとエッジで関係性を表すもので、GraphRAGでは知識グラフを扱うことが多いです。知識グラフを保存するにはグラフDBが必要で、AWSではAmazon Neptuneが利用できます。Neptuneは、データベース機能に加え、大規模グラフを高速に分析できるNeptune Analyticsも提供しています。

一方、RAGの実装にはLangChainなどのフレームワークが用いられますが、LlamaIndexは特にRAGに特化したフレームワークです。今回は、LlamaIndexを使ってAmazon Neptune上でGraphRAGを試す方法を紹介します。

GraphRAGを試すための制約

AWSのサービスを利用するため、AWSアカウントが必要です。また、Amazon Bedrockのモデルを有効化し、Neptune Databaseを構築する必要があります。構築には無料利用枠のインスタンスを利用可能ですが、検証後は不要なリソースを削除する必要があります。

GraphRAGの試しかた

AWSアカウントとAmazon Bedrockのモデルを有効化します。

Amazon Neptune Databaseを作成します。

JupyterLab上で、LlamaIndexのサンプルコードを実行します。

対象のドキュメントをPDF形式でダウンロードし、Neptune Databaseに登録します。

Neptune Graph Explorerで、グラフを可視化して確認します。

サンプルコードでクエリを実行し、GraphRAGの動作を確認します。

今回の記事では、AWSのサービスを使ってGraphRAGを体験できる手順を紹介しました。GraphRAGは、従来のRAGでは難しかったユースケースで効果を発揮する可能性を秘めています。生成AIアプリケーションの開発に携わるエンジニアは、ぜひGraphRAGやグラフDBについて学習し、今後の開発に役立ててください。

引用元: https://qiita.com/minorun365/items/a62dec701bef17cf7562

お便り投稿フォーム

（株式会社ずんだもんは架空の登場組織です）

...more

View all episodes

By 株式会社ずんだもん技術室AI放送局

September 24, 2024

株式会社ずんだもん技術室AI放送局 podcast 20240925

5 minutes

Share 株式会社ずんだもん技術室AI放送局 podcast 20240925

Sign up to save your podcasts

株式会社ずんだもん技術室AI放送局 podcast 20240925

株式会社ずんだもん技術室AI放送局 podcast 20240925