株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局 podcast 20250730


Listen Later

関連リンク
  • Introducing Align Evals: Streamlining LLM Application Evaluation
  • LangChainの評価ツールであるLangSmithに、LLM(大規模言語モデル)アプリケーション開発を大きく助ける新機能「Align Evals」が発表されました。これは、LLMを使ったアプリケーションの評価でよくある「LLMが出す評価スコアと、人間が感じる評価がどうも違う」という大きな課題を解決するための機能です。

    LLMアプリケーションを開発する際、プログラムの変更やプロンプト(LLMへの指示文)の調整を行うたびに、それがアプリの改善に繋がったかを確認するために評価が欠かせません。しかし、これまでの評価方法では、LLM自身に評価させる「LLM-as-a-judge」という手法を使っても、その結果が人間の感覚とズレてしまうことが頻繁にありました。このズレがあると、評価スコアを信頼できず、改善の方向性を見誤ったり、貴重な開発時間を無駄にしてしまうことが課題でした。

    Align Evalsは、この「人間とLLMの評価のズレ」を解消し、LLMの評価が人間の好みに合うように調整するためのツールです。この機能を使うと、以下のことが可能になります。

    1. 評価プロンプトの試行錯誤が簡単に: LLMに評価させるためのプロンプトを、まるで「プレイグラウンド」のように自由に試しながら、そのプロンプトがどれだけ人間の評価と一致しているか(アライメントスコア)をリアルタイムで確認できます。
    2. ズレている箇所の特定: 人間が手作業で評価した結果と、LLMが生成した評価スコアを並べて比較できます。これにより、LLMが人間の感覚と異なる評価をした「ズレているケース」を簡単に見つけ出し、評価プロンプトのどこを改善すべきか明確に把握できます。
    3. 改善状況の追跡: 過去に作成した評価プロンプトの「アライメントスコア」を保存しておけるため、プロンプトを変更したときに、その変更が実際に評価の質向上に繋がったのかどうかを明確に比較・確認できます。
    4. Align Evalsの基本的な使い方は、まず「何を基準に評価するか」を決めます。次に、その基準に沿って人間が「これは良い」「これは悪い」と評価したお手本のデータを用意します。そして、LLMに評価させるためのプロンプトを作成し、このお手本データと比較しながら、LLMの評価が人間に近づくようにプロンプトを調整していく、という流れになります。

      この機能は、LLM開発者がより信頼性の高い評価を行えるようにし、アプリケーションの品質を効率的に高めるための強力なツールとなるでしょう。今後は、評価の履歴を追跡できる分析機能や、プロンプトの自動最適化機能なども追加される予定です。

      引用元: https://blog.langchain.com/introducing-align-evals/

      • Introducing study mode
      • OpenAIは、対話型AI「ChatGPT」に新しい学習機能「Study Mode(学習モード)」を導入したことを発表しました。このモードは、単に質問に対する答えを提供するだけでなく、ユーザーが問題を一歩ずつ理解し、より深い学びを得られるように設計されています。現在、ChatGPTのFree、Plus、Pro、Teamプランの利用者が利用可能で、教育機関向けのChatGPT Eduにも今後数週間のうちに展開される予定です。

        これまでのChatGPTは、宿題の解決や試験対策、新しい概念の探求など、多くの学生に利用されてきました。しかし、教育現場での利用においては「単に答えを与えるだけでなく、本当に学ぶことにつながるのか」という課題がありました。Study Modeは、この課題に応えるために開発され、ユーザーの目標やスキルレベルに合わせて対話形式で質問を投げかけ、理解を深めることを促します。

        この学習モードは、教育者や科学者、教育学の専門家と協力して作られました。ユーザーの積極的な参加を促し、一度に処理する情報の量を適切に調整し、自ら考える力を養うこと(メタ認知)、そして好奇心を育むなど、学習科学に基づいた行動を促すように設計されています。

        主な機能は以下の通りです。

        • 対話型プロンプト: ソクラテス式の質問、ヒント、自己反省を促す問いかけを通じて、ユーザーが自分で考えて理解を深めるのを助けます。
        • 段階的な応答: 複雑な内容も、分かりやすいセクションに分けて提供され、関連性を強調することで、情報が多すぎて圧倒されるのを防ぎます。
        • パーソナライズされたサポート: ユーザーのスキルレベルやこれまでの対話履歴に基づいて、レッスン内容が個別に調整されます。
        • 知識チェック: クイズや自由形式の質問、個別のフィードバックを通じて、知識の定着と応用力を高めます。
        • 柔軟性: 会話中にStudy Modeを簡単にオン/オフできるため、学習目的に合わせてモードを切り替えられます。
        • 実際にこのモードを試した大学生からは、「24時間365日利用できる個人指導の先生のようだ」「複雑な内容を分かりやすく、適切なペースで説明してくれる」といった肯定的なフィードバックが寄せられています。特に、これまでは理解しづらかった概念も、Study Modeを通じて深く理解できたという声もあります。

          Study Modeの利用は簡単で、ChatGPTのツールメニューから「Study and learn」を選択し、質問を始めるだけです。宿題の手助けや試験対策、新しいトピックの学習に役立ちます。

          OpenAIは、今回のStudy Modeを学習支援機能の第一歩と考えています。現在はシステム指示(モデルに与える指示)によってこの機能が動いていますが、将来的にはこの学習行動を直接モデルに組み込むことを目指しています。また、より良い学習体験のために、複雑な概念の視覚化、目標設定と進捗管理、さらなるパーソナライズ機能などの追加も検討されています。OpenAIは、NextGenAIイニシアチブやスタンフォード大学の協力を得て、AIが教育にもたらす影響について研究を続けていくとのことです。

          引用元: https://openai.com/index/chatgpt-study-mode

          • Introducing Trackio: A Lightweight Experiment Tracking Library from Hugging Face
          • Hugging Faceは、機械学習モデルの実験を効率的に追跡し、結果を共有するための新しい軽量ライブラリ「Trackio」を発表しました。機械学習開発では、モデルの学習過程における性能指標やパラメータ、ハイパーパラメータを記録し、後から分析することが非常に重要です。しかし、既存の実験追跡ツールには有償のものや、複雑な設定が必要なもの、あるいは柔軟性に欠けるものといった課題がありました。

            Trackioはこれらの課題を解決するために開発された、オープンソースで無料のライブラリです。主な特徴と利点は以下の通りです。

            • 簡単な共有と埋め込み: Trackioで作成した実験結果のダッシュボードは、Hugging Face Spacesと連携することで、URL一つで簡単に共有できます。ブログ記事への埋め込みも可能で、チーム内外での進捗共有や議論がスムーズになります。
            • 透明性の向上: GPUのエネルギー使用量など、環境負荷に関するメトリクスも簡単に追跡・共有できます。これにより、モデルの環境影響をより透明に評価し、共有できるようになります。
            • データへのアクセスしやすさ: 他の多くのトラッキングツールとは異なり、Trackioは記録されたデータへのアクセスが容易です。これにより、独自の分析を行ったり、他の研究ワークフローに組み込んだりすることが柔軟にできます。
            • 柔軟な実験と軽量設計: Trackioは非常に軽量(コードベースが約1000行未満)に設計されており、モデル学習のパフォーマンスに大きな影響を与えることなく、新たな追跡機能を追加したり、詳細なデータを記録したりすることが可能です。
            • 既存ツールとの高い互換性: Trackioは、人気の実験追跡ライブラリであるwandbとAPI互換性を持っています。そのため、すでにwandbを使っているプロジェクトでも、コードを少し変更するだけでTrackioに切り替えることができます(例: import trackio as wandb)。インストールもpip install trackioと非常に簡単です。
            • Hugging Faceエコシステムとの統合: Hugging Faceのtransformersやaccelerateといった主要なライブラリとシームレスに連携するため、これらのライブラリを使っているプロジェクトでは追加の設定なしで実験追跡を始めることができます。
            • Trackioは、ローカルでのデータ保持を基本としつつ、必要に応じてHugging Face Spacesにデプロイして共有できる「ローカルファースト」な設計思想を持っています。まだベータ版であり、今後はアーティファクト管理などの高度な機能も追加される可能性があります。新人エンジニアの皆さんにとって、機械学習の実験管理は必須スキルです。Trackioのような手軽なツールを活用することで、効率的に学習を重ね、モデル開発の質を高めることができるでしょう。

              引用元: https://huggingface.co/blog/trackio

              • スマホひとつで高品質なボイチェン生配信が可能に AI技術使用ボイスチェンジャー機能7/28~、iOS版ニコ生アプリで提供開始
              • ドワンゴは、ニコニコ生放送のiOSアプリで、AI技術を使った「AIボイスチェンジャーβ版」を7月28日より無料で提供開始しました。これにより、スマホ一つでリアルタイムに高品質な声変換が可能になり、「ずんだもん」などの人気キャラクターや100種類のカスタムボイスで配信が楽しめます。業界初のこの機能で、地声での配信に抵抗がある方やVTuberを目指す方も、手軽に高品質な生配信を始められます。

                引用元: https://prtimes.jp/main/html/rd/p/000000745.000096446.html

                • お便り投稿フォーム
                • (株式会社ずんだもんは架空の登場組織です)

                  ...more
                  View all episodesView all episodes
                  Download on the App Store

                  株式会社ずんだもん技術室AI放送局By 株式会社ずんだもん技術室AI放送局