
Sign up to save your podcasts
Or


Google Researchが8月7日に公開した研究は、LLMの追加学習に必要なデータ量を10,000分の1まで削れる可能性を示しました。広告の安全性判定という“グレーも多い”現場で、従来は10万件規模のクラウドソーシング・データに頼っていたところを、専門家ラベル250〜450件前後にまで圧縮しつつ、人間の判断との一致度(カッパ係数)を最大65%改善したと報告しています。実運用の大規模モデルでは**4桁(10,000倍)**のデータ削減でも品質維持または向上を確認したといいます。
By ikuo suzukiGoogle Researchが8月7日に公開した研究は、LLMの追加学習に必要なデータ量を10,000分の1まで削れる可能性を示しました。広告の安全性判定という“グレーも多い”現場で、従来は10万件規模のクラウドソーシング・データに頼っていたところを、専門家ラベル250〜450件前後にまで圧縮しつつ、人間の判断との一致度(カッパ係数)を最大65%改善したと報告しています。実運用の大規模モデルでは**4桁(10,000倍)**のデータ削減でも品質維持または向上を確認したといいます。