名古屋ではたらく社長のITニュースポッドキャスト

Ep.619 NDL×NII、官庁出版物テキスト30万点をLLM学習へ──日本語AIの“土台”強化(2025年10月9日配信)


Listen Later

10月1日、国立国会図書館は、官庁出版物のデジタル化画像からOCRで作成した全文検索用テキストデータを国立情報学研究所に提供すると発表しました。対象は主に1995年までの図書に雑誌、そして官報を含み、合計は約30万点分。これらはNIIで進む大規模言語モデル構築の学習用データとして利用されます。日本語の公的資料に根ざしたコーパスが加わることで、行政・法律・規制といった領域の言語理解の厚みが増すことが期待されます。


今回の連携は、1995年に結ばれた「国立国会図書館及び学術情報センターの相互協力に関する協定」に基づくもの。長年の協力関係の延長線上で、生成AI時代にふさわしい“知の共有インフラ”を再構築していく動きといえます。NII側のLLM研究開発センター(LLMC)でも同日付で本件を周知しており、翌10月2日には日本語学術文献に強い独自OCR「llmc-ocr」をオープンソースとして公開。資料テキストの質と量を両輪で高める姿勢がうかがえます。


背景には、NIIが進めるLLM-jpの取り組みがあります。オープンな日本語LLMの継続的な開発・公開を掲げ、2024年末には1720億パラメータ級モデルでGPT-3.5超の指標を報告するなど、国産LLMの“基準器”づくりを着実に進めてきました。今回のNDLデータは、その次の性能・信頼性向上を狙ううえで、領域特化の言語知識を厚くする重要な燃料になるはずです。


実務面では、官報や官庁出版物に含まれる定型句や法令・通達の表現をモデルが適切に扱えるかがポイントです。OCRの品質とアノテーションの整備、そして利用ルールの明確化を進めながら、RAGや要約、質問応答の精度を積み上げる。研究開発の現場では、LLMCのOCR公開のようにツール層のオープン化も同時に進むことで、検証再現性とガバナンスの両立が現実味を帯びてきます。

...more
View all episodesView all episodes
Download on the App Store

名古屋ではたらく社長のITニュースポッドキャストBy ikuo suzuki