Revolusi NLP Bidirectional

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Jacob DevlinMing-Wei ChangKenton LeeKristina Toutanova

2019Baca Paper Asli

Penjelasan Simpel

BERT adalah model bahasa yang bisa memahami konteks kalimat dari dua arah (kiri dan kanan) secara bersamaan, beda sama model lama yang cuma searah. Dengan teknik 'ngisi titik-titik' (Masked LM), model ini jadi pinter banget buat urusan paham bahasa manusia. Hasilnya, BERT sukses ngebantai rekor di 11 tugas NLP sekaligus cuma dengan sedikit modifikasi.

🎯Key Takeaways

Mengenalkan arsitektur yang bener-bener bidirectional, bukan cuma gabungan kiri-ke-kanan dan kanan-ke-kiri.

Pake teknik Masked Language Model (MLM) biar model nggak 'nyontek' kata selanjutnya saat latihan.

Bisa dipake buat macem-macem tugas (QA, Sentiment, dll) cuma dengan nambahin satu layer tipis di atasnya (fine-tuning).

Ngebuktiin kalau model yang makin gede dan dilatih pake data raksasa bakal makin jago di tugas-tugas kecil sekalipun.

Deep Dive

Breakdown per bagian dengan penjelasan mudah dipahami

1Masalah: Model Lama Masih Pake Kacamata Kuda

Original Text

The major limitation is that standard language models are unidirectional, and this limits the choice of architectures that can be used during pre-training. For example, in OpenAI GPT, the authors use a left-to-right architecture, where every token can only attend to previous tokens in the self-attention layers of the Transformer.

🇮🇩 Penjelasan Bahasa Indonesia

Masalah utama model sebelum BERT (kayak GPT versi awal) itu mereka cuma bisa baca teks searah, biasanya dari kiri ke kanan. Jadi pas lagi baca satu kata, dia nggak tau kata-kata apa yang ada di depannya. Ini bikin model kurang dapet 'feel' atau konteks lengkap dari sebuah kalimat.

🇮🇩 Penjelasan Simpel

Analogi

Bayangin lo lagi baca chat dari gebetan tapi layarnya ketutup sebelah. Lo cuma bisa liat kata-kata di awal doang tanpa tau ujung kalimatnya apa. Pasti sering salah paham, kan?

2Solusi 1: Masked Language Model (MLM)

Original Text

BERT alleviates the previously mentioned unidirectionality constraint by using a “masked language model” (MLM) pre-training objective... The masked language model randomly masks some of the tokens from the input, and the objective is to predict the original vocabulary id of the masked word based only on its context.

🇮🇩 Penjelasan Bahasa Indonesia

Biar bisa belajar dari dua arah, BERT pake trik 'Masked LM'. Jadi, beberapa kata di kalimat sengaja ditutupin (di-mask), terus si BERT disuruh nebak kata yang ilang itu apa. Karena dia harus nebak, dia terpaksa liat kata-kata di kiri DAN kanannya buat nyari petunjuk.

🇮🇩 Penjelasan Simpel

Analogi

Kayak lo lagi ngerjain soal ujian 'isi titik-titik di bawah ini'. Lo harus baca seluruh kalimat dari depan sampe belakang biar tau jawaban yang paling pas buat ngisi titik-titik itu.

3Solusi 2: Next Sentence Prediction (NSP)

Original Text

In order to train a model that understands sentence relationships, we pre-train for a binarized next sentence prediction task... 50% of the time B is the actual next sentence that follows A (labeled as IsNext), and 50% of the time it is a random sentence from the corpus (labeled as NotNext).

🇮🇩 Penjelasan Bahasa Indonesia

Selain nebak kata, BERT juga dilatih buat tau apakah dua kalimat itu nyambung atau nggak. Dia dikasih dua kalimat, terus disuruh nebak: 'Kalimat kedua ini beneran lanjutannya kalimat pertama bukan?'. Ini penting banget buat tugas kayak jawab pertanyaan (QA).

🇮🇩 Penjelasan Simpel

Analogi

Mirip kayak lo lagi dengerin orang curhat. Lo harus bisa bedain mana kalimat yang emang kelanjutan ceritanya, dan mana yang tiba-tiba dia ngomongin hal random nggak nyambung.

4Hasil: Performa yang Gila Banget

Original Text

BERT is conceptually simple and empirically powerful. It obtains new state-of-the-art results on eleven natural language processing tasks, including pushing the GLUE score to 80.5% (7.7% point absolute improvement)...

🇮🇩 Penjelasan Bahasa Indonesia

Meskipun idenya simpel, hasilnya bener-bener ngerusak pasar. BERT berhasil dapet skor tertinggi di 11 tes kemampuan bahasa (NLP). Dia bahkan ngalahin rekor-rekor sebelumnya dengan selisih yang jauh banget.

🇮🇩 Penjelasan Simpel

Analogi

Kayak ada anak baru pindahan di sekolah yang langsung dapet ranking 1 di semua mata pelajaran, padahal dia belajarnya cuma pake cara yang keliatannya sederhana.

Glossary

Istilah-istilah penting dari paper ini

1 / 4

Bidirectional

Kemampuan model buat liat informasi dari dua arah (depan dan belakang) secara barengan.

Gunakan tombol panah ← → atau klik dot di atas

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Jacob DevlinMing-Wei ChangKenton LeeKristina Toutanova

2019Baca Paper Asli

Penjelasan Simpel

🎯Key Takeaways

Mengenalkan arsitektur yang bener-bener bidirectional, bukan cuma gabungan kiri-ke-kanan dan kanan-ke-kiri.

Pake teknik Masked Language Model (MLM) biar model nggak 'nyontek' kata selanjutnya saat latihan.

Bisa dipake buat macem-macem tugas (QA, Sentiment, dll) cuma dengan nambahin satu layer tipis di atasnya (fine-tuning).

Ngebuktiin kalau model yang makin gede dan dilatih pake data raksasa bakal makin jago di tugas-tugas kecil sekalipun.