【メッセージ募集】
番組への質問、トークテーマのご提案、DATAFLUCTに相談したい!など、各種ご連絡は以下のフォームからお送り下さい。
https://forms.gle/3PLJMK4Akr2LT1Pa7
【今回の内容】
さて今日のデデデータですが、リスナーさんからの質問にお答えをして行きたいと思います!
<リスナーからの質問>
久米村さん、DJ Nobbyさん、こんにちは。
いつも楽しく、そして学び多く拝聴しております。現在、私はAIエージェントの開発に携わっており、LLMの出力品質の評価について悩んでいます。
従来のアプリケーション開発では、単体テストや結合テストなどで真偽を判定するケースがほとんどでした。ですが、LLMを活用したサービスの出力においては、その出力に揺らぎがあるため、「完全一致」を基準としたテストが難しく、そもそも何を持って品質を担保できてると言えるか、悩ましく思っております。具体的に挙げると以下のようなところで頭を抱えております。
・LLMの出力品質に対する評価戦略は、開発初期からどう設計すべきか。
・評価基準の策定(完全一致 or 部分一致 or スコア化)
・開発のどの段階で、どの程度の評価(カバレッジや網羅性)を行うべきか。
・ 手動評価から自動化への移行タイミングや方法論。
・オフライン評価/オンライン評価といった概念は体系化されているのか、ベストプラクティスがあるのか。AIエージェントの一般活用が今後進んでいくことに比例し、品質をどう測り、どう担保するかは重要なテーマで従来のソフトウェアテストと同様、専門分化していくだろうとも思ったりしています。
上記について、お考えをお聞きできれば嬉しいです。これからも番組を楽しみにしております。どうぞよろしくお願いいたします。
久米村さん、専門的な内容です!そもそも質問の内容から解説してください!!
【今日の質問】
・AIの精度はどれほど高いのか
・いいAIと悪いAIはどのように見分けるべきなのか
・専門的な知識なくAIの質を評価する方法はあるのか
・AIの質を体系的に評価する手法はあるのか
【出演者】
■久米村隼人
ベネッセ、マクロミル、リクルート、日本経済新聞など複数の企業にて、データを活用する15の新規事業を創出。2018年に大企業のデータ活用支援・新規事業立ち上げ支援を行うFACTORIUMを設立し、70以上のDXプロジェクトを支援。2019年にデータサイエンススタジオDATAFLUCTを設立し、4年間で30以上のAIサービスをローンチ。これまで責任者としてローンチした新規事業は35を超える。
大阪府立大学大学院工学研究科修了、早稲田大学大学院商学研究科修了
■DJ Nobby
キャリア26年目のラジオパーソナリティ。経済ニュースパーソナリティとしてフォロワー10万人を超えるVoicyチャンネルを個人で運営する傍ら、ラジオ番組「週刊Nobbyタイムズ」「DJ Nobby's Tokyo LIVE!!」のパーソナリティ、ポッドキャスト「ながら日経」の土曜パーソナリティなどを務める。
大学卒業後はラジオパーソナリティと並行してシティバンク・エヌ・エイ、東京金融取引所、プルデンシャル生命、メットライフ生命に勤務。銀行・証券・保険の3分野に精通し、特にコンプライアンス分野のデータ分析に強みを持つ。
DATAFLUCTウェブサイト
https://datafluct.com