Tentang Data

S03E09 Avengers di Riset NLP Bahasa Indonesia++


Listen Later

Pernah dengar atau pakai model IndoBERT? Tahu tidak kalau setelah model tersebut ada inisiatif lanjutan yang melibatkan banyak orang keren di bidang NLP bahasa Indonesia? Tidak hanya dari institusi dalam negeri, riset-riset ini juga melibatkan institusi riset kelas dunia seperti Google DeepMind, Amazon, dan Bloomberg. Apa sih sebetulnya tantangan dalam mengerjakan model bahasa skala besar yang melibatkan beberapa institusi dari berbagai belahan dunia? Saya mencoba menggali cerita di balik paper IndoNLU, IndoNLG, dan NusaCrowd dari Samuel Cahyawijaya (@sam_cahyawijaya), mahasiswa PhD di HKUST dan salah satu kontributor dalam proyek-proyek riset tersebut.

Tautan:

  • One Country, 700+ Languages: https://arxiv.org/pdf/2203.13357.pdf
  • NusaX: https://arxiv.org/pdf/2205.15960.pdf
  • IndoNLG: https://arxiv.org/pdf/2104.08200.pdf
  • IndoNLU: https://arxiv.org/pdf/2009.05387.pdf
  • ...more
    View all episodesView all episodes
    Download on the App Store

    Tentang DataBy Ali Akbar