1Masalah: Model Lama Masih Pake Kacamata Kuda
The major limitation is that standard language models are unidirectional, and this limits the choice of architectures that can be used during pre-training. For example, in OpenAI GPT, the authors use a left-to-right architecture, where every token can only attend to previous tokens in the self-attention layers of the Transformer.
Masalah utama model sebelum BERT (kayak GPT versi awal) itu mereka cuma bisa baca teks searah, biasanya dari kiri ke kanan. Jadi pas lagi baca satu kata, dia nggak tau kata-kata apa yang ada di depannya. Ini bikin model kurang dapet 'feel' atau konteks lengkap dari sebuah kalimat.
Masalah utama model sebelum BERT (kayak GPT versi awal) itu mereka cuma bisa baca teks searah, biasanya dari kiri ke kanan. Jadi pas lagi baca satu kata, dia nggak tau kata-kata apa yang ada di depannya. Ini bikin model kurang dapet 'feel' atau konteks lengkap dari sebuah kalimat.
The major limitation is that standard language models are unidirectional, and this limits the choice of architectures that can be used during pre-training. For example, in OpenAI GPT, the authors use a left-to-right architecture, where every token can only attend to previous tokens in the self-attention layers of the Transformer.
Bayangin lo lagi baca chat dari gebetan tapi layarnya ketutup sebelah. Lo cuma bisa liat kata-kata di awal doang tanpa tau ujung kalimatnya apa. Pasti sering salah paham, kan?