
Sign up to save your podcasts
Or
この論文は、「AIエージェント」と呼ばれる、私たちの代わりに様々な作業を自動で行ってくれるプログラムのセキュリティをしっかり評価するための新しい仕組み「DoomArena」について紹介しています。AIエージェントはこれから色々な場所で活躍が期待されていますが、もし悪意のある攻撃に弱かったら困りますよね。そこで、どんな脅威に対してどのくらい強いのかをテストすることがとても重要になります。
DoomArenaは、このセキュリティテストをもっとやりやすくするために、以下の3つの考え方で作られています。
DoomArenaを使うことで、新しい種類の脅威にも対応しやすくなったり、これまでに考えられていた様々な攻撃手法を組み合わせて、より厳しく、きめ細かいセキュリティテストができるようになります。また、エージェントが持つ様々な弱点(脆弱性)と、本来の性能とのバランス(トレードオフ)を分析することも可能です。
このフレームワークを使って、現在最新のAIエージェントをテストしたところ、いくつか面白いことがわかりました。
このDoomArenaフレームワークは公開されており、AIエージェントの開発者やセキュリティに関心のあるエンジニアが利用できるようになっています。AIエージェントをより安全に開発していく上で役立つツールと言えるでしょう。
引用元: https://arxiv.org/abs/2504.14064
LLM(大規模言語モデル)を使ったアプリケーションを開発する際、その性能を把握することは非常に重要です。これは、どこに改善の余地があるかを見つけたり、サービス品質(レイテンシなど)と処理能力(スループット)のバランスを調整したり、どれくらいの数のサーバーが必要かを見積もったりするために役立ちます。
この記事では、LLMの性能を測るためのツール「NVIDIA GenAI-Perf」と、NVIDIAが提供するLLM推論サービス「NVIDIA NIM」を組み合わせてMetaのLlama 3モデルの性能を評価する方法が解説されています。
GenAI-Perfは、LLMサービスの応答性能をクライアント側から測定できるツールです。具体的には、最初の単語が表示されるまでの時間(Time to First Token: TTFT)、単語が出てくる間隔(Inter-token latency: ITL)、1秒あたりの単語数(Tokens per second: TPS)、1秒あたりのリクエスト数(Requests per second: RPS)といった重要な指標を測ることができます。GenAI-Perfは業界標準となっているOpenAI APIの仕様に準拠した多くのLLMサービスに対応しています。
NVIDIA NIMは、LLMを素早く簡単に、そして高性能に動かすためのソフトウェアパッケージです。高性能なLLM(例えばLlama 3)をOpenAI API互換の形式で提供できるのが特徴です。
記事では、実際にNIMを使ってLlama 3モデルを起動し、次にGenAI-Perfを使って性能を測定する手順が紹介されています。具体的なコマンド例や、入力や出力の文章の長さ、同時に処理するリクエスト数(同時接続数)といったパラメータを設定してベンチマークを実行する方法が示されています。さらに、一度に複数の設定で自動的にテストを実行する方法も紹介されており、様々な状況でのモデルの性能を確認できます。
測定が終わると、GenAI-Perfは結果をCSVファイルなどに出力します。このデータを分析することで、同時接続数を変えたときにTTFTやRPSがどう変化するかをグラフ(レイテンシ・スループット曲線)にして見ることができます。このグラフから、「このくらいの応答速度を維持するには、最大でどれくらいのリクエストを同時に処理できるか」「特定の同時接続数では、応答速度と処理能力がどうなるか」といった情報を読み取ることができ、最適なシステム構成や運用方法を考えるのに役立ちます。
また、特定の目的に合わせてカスタマイズされたLLM(例:LoRA技術を使ったモデル)についても、NIMでデプロイし、GenAI-Perfで性能を評価できることが述べられています。
まとめると、GenAI-PerfはNIMのような高性能なLLMサービスの効果的な性能評価に役立つツールであり、これからLLMを使ったシステムを構築・運用していくエンジニアにとって、性能のボトルネック特定や最適化、適切なインフラ設計のために知っておくと良い技術です。
引用元: https://developer.nvidia.com/blog/llm-performance-benchmarking-measuring-nvidia-nim-performance-with-genai-perf/
Google DeepMindが、エンジニア向けの「Gemini 2.5 Pro」というAIモデルのアップデートを発表しました!今回のアップデートで、特に「コーディング」の性能が大きく向上したとのことです。
この新しいGemini 2.5 Proは、フロントエンドやUI(ユーザーインターフェース)開発の能力が上がり、デザイン性の高いWebアプリ開発に強みを見せています。外部の評価でも、Web開発の能力を競うリーダーボードで1位を獲得するほどの実力です。
さらに、単にコードを書くだけでなく、コードの変換や編集といった基本的なコーディングタスクや、複数のステップをAIが自動で実行するような、より複雑な開発作業も得意になりました。まるで経験豊富な先輩エンジニアのように、適切な判断をして、より良いコードを書けるようになったという評価もあります。
具体的にどんなことができるかというと、例えば次のようなことが期待できます。
この進化したGemini 2.5 Proは、Google AI Studioや、企業向けのVertex AIといったプラットフォームで利用できます。すでにGemini 2.5 Proを使っている場合は、特別な設定をしなくても自動的に最新版にアップデートされているので、すぐに新しい性能を試せます。
今回のアップデートで、AIがより強力な開発ツールとして使えるようになり、私たちのコーディング作業を大きくサポートしてくれることが期待されます。ぜひ、この新しいGemini 2.5 Proを使って、色々な開発に挑戦してみてください!
引用元: https://deepmind.google/discover/blog/gemini-25-pro-preview-even-better-coding-performance/
AIに「バカしかいないデスノート」の物語作成を依頼したところ、デスノートのルール説明で終わってしまい話題です。予期せぬAIの応答に「忙しい人のためのデスノート」といった声が上がり、多くの人が笑いました。この事例は、AIに面白い創作をさせる可能性と意外な応答の楽しさを示しています。
引用元: https://togetter.com/li/2547588
(株式会社ずんだもんは架空の登場組織です)
この論文は、「AIエージェント」と呼ばれる、私たちの代わりに様々な作業を自動で行ってくれるプログラムのセキュリティをしっかり評価するための新しい仕組み「DoomArena」について紹介しています。AIエージェントはこれから色々な場所で活躍が期待されていますが、もし悪意のある攻撃に弱かったら困りますよね。そこで、どんな脅威に対してどのくらい強いのかをテストすることがとても重要になります。
DoomArenaは、このセキュリティテストをもっとやりやすくするために、以下の3つの考え方で作られています。
DoomArenaを使うことで、新しい種類の脅威にも対応しやすくなったり、これまでに考えられていた様々な攻撃手法を組み合わせて、より厳しく、きめ細かいセキュリティテストができるようになります。また、エージェントが持つ様々な弱点(脆弱性)と、本来の性能とのバランス(トレードオフ)を分析することも可能です。
このフレームワークを使って、現在最新のAIエージェントをテストしたところ、いくつか面白いことがわかりました。
このDoomArenaフレームワークは公開されており、AIエージェントの開発者やセキュリティに関心のあるエンジニアが利用できるようになっています。AIエージェントをより安全に開発していく上で役立つツールと言えるでしょう。
引用元: https://arxiv.org/abs/2504.14064
LLM(大規模言語モデル)を使ったアプリケーションを開発する際、その性能を把握することは非常に重要です。これは、どこに改善の余地があるかを見つけたり、サービス品質(レイテンシなど)と処理能力(スループット)のバランスを調整したり、どれくらいの数のサーバーが必要かを見積もったりするために役立ちます。
この記事では、LLMの性能を測るためのツール「NVIDIA GenAI-Perf」と、NVIDIAが提供するLLM推論サービス「NVIDIA NIM」を組み合わせてMetaのLlama 3モデルの性能を評価する方法が解説されています。
GenAI-Perfは、LLMサービスの応答性能をクライアント側から測定できるツールです。具体的には、最初の単語が表示されるまでの時間(Time to First Token: TTFT)、単語が出てくる間隔(Inter-token latency: ITL)、1秒あたりの単語数(Tokens per second: TPS)、1秒あたりのリクエスト数(Requests per second: RPS)といった重要な指標を測ることができます。GenAI-Perfは業界標準となっているOpenAI APIの仕様に準拠した多くのLLMサービスに対応しています。
NVIDIA NIMは、LLMを素早く簡単に、そして高性能に動かすためのソフトウェアパッケージです。高性能なLLM(例えばLlama 3)をOpenAI API互換の形式で提供できるのが特徴です。
記事では、実際にNIMを使ってLlama 3モデルを起動し、次にGenAI-Perfを使って性能を測定する手順が紹介されています。具体的なコマンド例や、入力や出力の文章の長さ、同時に処理するリクエスト数(同時接続数)といったパラメータを設定してベンチマークを実行する方法が示されています。さらに、一度に複数の設定で自動的にテストを実行する方法も紹介されており、様々な状況でのモデルの性能を確認できます。
測定が終わると、GenAI-Perfは結果をCSVファイルなどに出力します。このデータを分析することで、同時接続数を変えたときにTTFTやRPSがどう変化するかをグラフ(レイテンシ・スループット曲線)にして見ることができます。このグラフから、「このくらいの応答速度を維持するには、最大でどれくらいのリクエストを同時に処理できるか」「特定の同時接続数では、応答速度と処理能力がどうなるか」といった情報を読み取ることができ、最適なシステム構成や運用方法を考えるのに役立ちます。
また、特定の目的に合わせてカスタマイズされたLLM(例:LoRA技術を使ったモデル)についても、NIMでデプロイし、GenAI-Perfで性能を評価できることが述べられています。
まとめると、GenAI-PerfはNIMのような高性能なLLMサービスの効果的な性能評価に役立つツールであり、これからLLMを使ったシステムを構築・運用していくエンジニアにとって、性能のボトルネック特定や最適化、適切なインフラ設計のために知っておくと良い技術です。
引用元: https://developer.nvidia.com/blog/llm-performance-benchmarking-measuring-nvidia-nim-performance-with-genai-perf/
Google DeepMindが、エンジニア向けの「Gemini 2.5 Pro」というAIモデルのアップデートを発表しました!今回のアップデートで、特に「コーディング」の性能が大きく向上したとのことです。
この新しいGemini 2.5 Proは、フロントエンドやUI(ユーザーインターフェース)開発の能力が上がり、デザイン性の高いWebアプリ開発に強みを見せています。外部の評価でも、Web開発の能力を競うリーダーボードで1位を獲得するほどの実力です。
さらに、単にコードを書くだけでなく、コードの変換や編集といった基本的なコーディングタスクや、複数のステップをAIが自動で実行するような、より複雑な開発作業も得意になりました。まるで経験豊富な先輩エンジニアのように、適切な判断をして、より良いコードを書けるようになったという評価もあります。
具体的にどんなことができるかというと、例えば次のようなことが期待できます。
この進化したGemini 2.5 Proは、Google AI Studioや、企業向けのVertex AIといったプラットフォームで利用できます。すでにGemini 2.5 Proを使っている場合は、特別な設定をしなくても自動的に最新版にアップデートされているので、すぐに新しい性能を試せます。
今回のアップデートで、AIがより強力な開発ツールとして使えるようになり、私たちのコーディング作業を大きくサポートしてくれることが期待されます。ぜひ、この新しいGemini 2.5 Proを使って、色々な開発に挑戦してみてください!
引用元: https://deepmind.google/discover/blog/gemini-25-pro-preview-even-better-coding-performance/
AIに「バカしかいないデスノート」の物語作成を依頼したところ、デスノートのルール説明で終わってしまい話題です。予期せぬAIの応答に「忙しい人のためのデスノート」といった声が上がり、多くの人が笑いました。この事例は、AIに面白い創作をさせる可能性と意外な応答の楽しさを示しています。
引用元: https://togetter.com/li/2547588
(株式会社ずんだもんは架空の登場組織です)