デデデータ!!〜“あきない”データの話〜

第128回「精度99%!!でも、当てにならない。なぜAIの評価は難しいのか? 〜機械学習とLLMの違いから見えてくるAI評価の新基準〜」


Listen Later

【メッセージ募集】

番組への質問、トークテーマのご提案、DATAFLUCTに相談したい!など、各種ご連絡は以下のフォームからお送り下さい。

https://forms.gle/3PLJMK4Akr2LT1Pa7


【今回の内容】

さて今日のデデデータですが、リスナーさんからの質問にお答えをして行きたいと思います!


<リスナーからの質問>

久米村さん、DJ Nobbyさん、こんにちは。

いつも楽しく、そして学び多く拝聴しております。現在、私はAIエージェントの開発に携わっており、LLMの出力品質の評価について悩んでいます。


従来のアプリケーション開発では、単体テストや結合テストなどで真偽を判定するケースがほとんどでした。ですが、LLMを活用したサービスの出力においては、その出力に揺らぎがあるため、「完全一致」を基準としたテストが難しく、そもそも何を持って品質を担保できてると言えるか、悩ましく思っております。具体的に挙げると以下のようなところで頭を抱えております。


・LLMの出力品質に対する評価戦略は、開発初期からどう設計すべきか。

・評価基準の策定(完全一致 or 部分一致 or スコア化)

・開発のどの段階で、どの程度の評価(カバレッジや網羅性)を行うべきか。

・ 手動評価から自動化への移行タイミングや方法論。

・オフライン評価/オンライン評価といった概念は体系化されているのか、ベストプラクティスがあるのか。AIエージェントの一般活用が今後進んでいくことに比例し、品質をどう測り、どう担保するかは重要なテーマで従来のソフトウェアテストと同様、専門分化していくだろうとも思ったりしています。


上記について、お考えをお聞きできれば嬉しいです。これからも番組を楽しみにしております。どうぞよろしくお願いいたします。


久米村さん、専門的な内容です!そもそも質問の内容から解説してください!!


【今日の質問】

・AIの精度はどれほど高いのか

・いいAIと悪いAIはどのように見分けるべきなのか

・専門的な知識なくAIの質を評価する方法はあるのか

・AIの質を体系的に評価する手法はあるのか


【出演者】

■久米村隼人

ベネッセ、マクロミル、リクルート、日本経済新聞など複数の企業にて、データを活用する15の新規事業を創出。2018年に大企業のデータ活用支援・新規事業立ち上げ支援を行うFACTORIUMを設立し、70以上のDXプロジェクトを支援。2019年にデータサイエンススタジオDATAFLUCTを設立し、4年間で30以上のAIサービスをローンチ。これまで責任者としてローンチした新規事業は35を超える。

大阪府立大学大学院工学研究科修了、早稲田大学大学院商学研究科修了


■DJ Nobby

キャリア26年目のラジオパーソナリティ。経済ニュースパーソナリティとしてフォロワー10万人を超えるVoicyチャンネルを個人で運営する傍ら、ラジオ番組「週刊Nobbyタイムズ」「DJ Nobby's Tokyo LIVE!!」のパーソナリティ、ポッドキャスト「ながら日経」の土曜パーソナリティなどを務める。

大学卒業後はラジオパーソナリティと並行してシティバンク・エヌ・エイ、東京金融取引所、プルデンシャル生命、メットライフ生命に勤務。銀行・証券・保険の3分野に精通し、特にコンプライアンス分野のデータ分析に強みを持つ。


DATAFLUCTウェブサイト

https://datafluct.com

...more
View all episodesView all episodes
Download on the App Store

デデデータ!!〜“あきない”データの話〜By DATAFLUCT


More shows like デデデータ!!〜“あきない”データの話〜

View all
PRESIDENT Online 音声版 by プレジデント社

PRESIDENT Online 音声版

22 Listeners

ヤング日経(サクッとわかるビジネスニュース) by ラジオNIKKEI

ヤング日経(サクッとわかるビジネスニュース)

19 Listeners

News Connect あなたと経済をつなぐ5分間 #ニュースコネクト by Chronicle

News Connect あなたと経済をつなぐ5分間 #ニュースコネクト

21 Listeners

ながら日経 by ラジオNIKKEI

ながら日経

45 Listeners

経営中毒 〜だれにも言えない社長の孤独〜 by Egg FORWARD × Chronicle

経営中毒 〜だれにも言えない社長の孤独〜

5 Listeners

入山章栄の経営理論でイシューを語ろう/Business Insider Japan by Business Insider Japan

入山章栄の経営理論でイシューを語ろう/Business Insider Japan

3 Listeners

となりのデータ分析屋さん by 佐々木亮とたっちゃん

となりのデータ分析屋さん

0 Listeners

才能が見つかれば、仕事も人生もうまくいく|TALENT TALK(タレントーク) by TALENT Inc. × Chronicle

才能が見つかれば、仕事も人生もうまくいく|TALENT TALK(タレントーク)

1 Listeners

東京ビジネスハブ by TBS RADIO

東京ビジネスハブ

3 Listeners

ハイパー起業ラジオ by 尾原和啓 / けんすう

ハイパー起業ラジオ

0 Listeners

耳で学ぶAI、ロボシンク by 矢野 哲平

耳で学ぶAI、ロボシンク

0 Listeners

二番経営 〜組織を支えるNo.2の悲喜こもごも〜 by オーツー・パートナーズ × Chronicle

二番経営 〜組織を支えるNo.2の悲喜こもごも〜

0 Listeners

NIKKEI PrimeVOICE(日経プライムボイス) by 日本経済新聞社

NIKKEI PrimeVOICE(日経プライムボイス)

0 Listeners

日経ビジネス モーニングニュース by 日経ビジネス

日経ビジネス モーニングニュース

3 Listeners

ながらAIラジオ by usutaku/gomichan

ながらAIラジオ

1 Listeners