株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局 podcast 20250507


Listen Later

関連リンク
  • DoomArena: A framework for Testing AI Agents Against Evolving Security Threats
  • この論文は、「AIエージェント」と呼ばれる、私たちの代わりに様々な作業を自動で行ってくれるプログラムのセキュリティをしっかり評価するための新しい仕組み「DoomArena」について紹介しています。AIエージェントはこれから色々な場所で活躍が期待されていますが、もし悪意のある攻撃に弱かったら困りますよね。そこで、どんな脅威に対してどのくらい強いのかをテストすることがとても重要になります。

    DoomArenaは、このセキュリティテストをもっとやりやすくするために、以下の3つの考え方で作られています。

    1. プラグイン可能: Webサイトを操作するエージェントや、他のツールを呼び出して使うエージェントなど、現在ある様々なエージェントの実行環境に簡単に追加して使えます。
    2. 設定可能: どんな部分を攻撃対象にするか、どのような脅威を想定するか(例えば、悪いユーザーが操作する場合か、エージェントが使っている環境自体が悪い場合かなど)を細かく設定できます。
    3. モジュール式: 攻撃手法自体と、その攻撃をどの環境で実行するかを分けられるので、一度作った攻撃を色々な種類のエージェントや環境に対して試すことができます。
    4. DoomArenaを使うことで、新しい種類の脅威にも対応しやすくなったり、これまでに考えられていた様々な攻撃手法を組み合わせて、より厳しく、きめ細かいセキュリティテストができるようになります。また、エージェントが持つ様々な弱点(脆弱性)と、本来の性能とのバランス(トレードオフ)を分析することも可能です。

      このフレームワークを使って、現在最新のAIエージェントをテストしたところ、いくつか面白いことがわかりました。

      • 最新のエージェントでも、想定する脅威の種類(悪意のあるユーザーによるものか、環境によるものかなど)によって、どのくらい脆弱かが異なり、全ての脅威に対して完璧に強いエージェントは見つかりませんでした。
      • 複数の攻撃を同時に仕掛けると、個別の攻撃よりもずっと効果的になる場合が多いです。
      • 特定のルール(ガードレール)で動きを制限するような簡単な防御策は効果が薄い傾向がありましたが、高性能な最新のAIモデル(LLM)を使った防御策はより有効なようです。
      • このDoomArenaフレームワークは公開されており、AIエージェントの開発者やセキュリティに関心のあるエンジニアが利用できるようになっています。AIエージェントをより安全に開発していく上で役立つツールと言えるでしょう。

        引用元: https://arxiv.org/abs/2504.14064

        • LLM Performance Benchmarking: Measuring NVIDIA NIM Performance with GenAI-Perf
        • LLM(大規模言語モデル)を使ったアプリケーションを開発する際、その性能を把握することは非常に重要です。これは、どこに改善の余地があるかを見つけたり、サービス品質(レイテンシなど)と処理能力(スループット)のバランスを調整したり、どれくらいの数のサーバーが必要かを見積もったりするために役立ちます。

          この記事では、LLMの性能を測るためのツール「NVIDIA GenAI-Perf」と、NVIDIAが提供するLLM推論サービス「NVIDIA NIM」を組み合わせてMetaのLlama 3モデルの性能を評価する方法が解説されています。

          GenAI-Perfは、LLMサービスの応答性能をクライアント側から測定できるツールです。具体的には、最初の単語が表示されるまでの時間(Time to First Token: TTFT)、単語が出てくる間隔(Inter-token latency: ITL)、1秒あたりの単語数(Tokens per second: TPS)、1秒あたりのリクエスト数(Requests per second: RPS)といった重要な指標を測ることができます。GenAI-Perfは業界標準となっているOpenAI APIの仕様に準拠した多くのLLMサービスに対応しています。

          NVIDIA NIMは、LLMを素早く簡単に、そして高性能に動かすためのソフトウェアパッケージです。高性能なLLM(例えばLlama 3)をOpenAI API互換の形式で提供できるのが特徴です。

          記事では、実際にNIMを使ってLlama 3モデルを起動し、次にGenAI-Perfを使って性能を測定する手順が紹介されています。具体的なコマンド例や、入力や出力の文章の長さ、同時に処理するリクエスト数(同時接続数)といったパラメータを設定してベンチマークを実行する方法が示されています。さらに、一度に複数の設定で自動的にテストを実行する方法も紹介されており、様々な状況でのモデルの性能を確認できます。

          測定が終わると、GenAI-Perfは結果をCSVファイルなどに出力します。このデータを分析することで、同時接続数を変えたときにTTFTやRPSがどう変化するかをグラフ(レイテンシ・スループット曲線)にして見ることができます。このグラフから、「このくらいの応答速度を維持するには、最大でどれくらいのリクエストを同時に処理できるか」「特定の同時接続数では、応答速度と処理能力がどうなるか」といった情報を読み取ることができ、最適なシステム構成や運用方法を考えるのに役立ちます。

          また、特定の目的に合わせてカスタマイズされたLLM(例:LoRA技術を使ったモデル)についても、NIMでデプロイし、GenAI-Perfで性能を評価できることが述べられています。

          まとめると、GenAI-PerfはNIMのような高性能なLLMサービスの効果的な性能評価に役立つツールであり、これからLLMを使ったシステムを構築・運用していくエンジニアにとって、性能のボトルネック特定や最適化、適切なインフラ設計のために知っておくと良い技術です。

          引用元: https://developer.nvidia.com/blog/llm-performance-benchmarking-measuring-nvidia-nim-performance-with-genai-perf/

          • Gemini 2.5 Pro Preview: even better coding performance
          • Google DeepMindが、エンジニア向けの「Gemini 2.5 Pro」というAIモデルのアップデートを発表しました!今回のアップデートで、特に「コーディング」の性能が大きく向上したとのことです。

            この新しいGemini 2.5 Proは、フロントエンドやUI(ユーザーインターフェース)開発の能力が上がり、デザイン性の高いWebアプリ開発に強みを見せています。外部の評価でも、Web開発の能力を競うリーダーボードで1位を獲得するほどの実力です。

            さらに、単にコードを書くだけでなく、コードの変換や編集といった基本的なコーディングタスクや、複数のステップをAIが自動で実行するような、より複雑な開発作業も得意になりました。まるで経験豊富な先輩エンジニアのように、適切な判断をして、より良いコードを書けるようになったという評価もあります。

            具体的にどんなことができるかというと、例えば次のようなことが期待できます。

            • 動画からコードを生成: YouTubeなどの動画の内容を理解して、それに基づいた学習アプリのようなものを作る手助けをしてくれます。
            • 機能開発を効率化: デザインに合わせて、色やフォント、余白などの細かいスタイルを指定したCSSコードなどを生成してくれるので、機能追加の作業が楽になります。
            • コンセプトから動くアプリへ: 頭の中にあるアイデアや簡単な仕様から、デザインも整った動くWebアプリのひな形を素早く作ることができます。例えば、音声入力アプリのマイクのアニメーションのような凝ったUIも、AIがデザインしてコードを生成してくれるそうです。
            • この進化したGemini 2.5 Proは、Google AI Studioや、企業向けのVertex AIといったプラットフォームで利用できます。すでにGemini 2.5 Proを使っている場合は、特別な設定をしなくても自動的に最新版にアップデートされているので、すぐに新しい性能を試せます。

              今回のアップデートで、AIがより強力な開発ツールとして使えるようになり、私たちのコーディング作業を大きくサポートしてくれることが期待されます。ぜひ、この新しいGemini 2.5 Proを使って、色々な開発に挑戦してみてください!

              引用元: https://deepmind.google/discover/blog/gemini-25-pro-preview-even-better-coding-performance/

              • AIに『バカしかいないデスノート』を書かせたら紹介パートで終わった→「めちゃくちゃ笑って息ができない」「忙しい人のためのデスノート」
              • AIに「バカしかいないデスノート」の物語作成を依頼したところ、デスノートのルール説明で終わってしまい話題です。予期せぬAIの応答に「忙しい人のためのデスノート」といった声が上がり、多くの人が笑いました。この事例は、AIに面白い創作をさせる可能性と意外な応答の楽しさを示しています。

                引用元: https://togetter.com/li/2547588

                • お便り投稿フォーム
                • (株式会社ずんだもんは架空の登場組織です)

                  ...more
                  View all episodesView all episodes
                  Download on the App Store

                  株式会社ずんだもん技術室AI放送局By 株式会社ずんだもん技術室AI放送局