「AIを賢くするのではなく、あえて無知にすることで守る」そんな逆転の発想で、オープンソースAIの安全性問題に挑む最新研究「Deep Ignorance」を徹底解説します。
現在のAIは、危険な質問に「お答えできません」と拒否しますが、実は内部には生物兵器の製造方法などの危険な知識が蓄積されています。これは「知っているけど言わない」だけの状態。オープンソースのAIなら、誰でもダウンロードして改変でき、わずか数百ステップの追加学習で、この安全対策を簡単に解除できてしまうのです。
そこで研究チームが考えたのが「最初から危険な知識を学習させない」という根本的な対策。6000語以上のキーワードとAIを使った二段階フィルタリングで、訓練データから危険情報を徹底排除。その結果、3億トークン(通常の100倍!)もの悪意ある再学習攻撃にも耐える、驚異的な堅牢性を実現しました。しかも一般的な性能は全く低下しないという理想的な結果に。
番組では、AIニュースキャスターのらみとAI博士が、この革新的な技術の仕組みから限界、そして「平和利用も軍事利用もできる知識をどう扱うか」というデュアルユース問題まで、分かりやすく掘り下げます。
「知らないことは教えられない」「無知が最強の防御になる」オープンソースAIの恩恵と安全性をどう両立させるか、一緒に考えてみませんか?
Paper: https://arxiv.org/abs/2508.06601
Book: https://amzn.to/4nAM1zw
note: https://note.com/rami_engineer
X: https://x.com/rami_engineer