1Masalah di Model Transformer Lama
It is noteworthy that the self-attention architecture of the current PLMs has shown to be position-agnostic... they commonly add the position information to the context representation and thus render them unsuitable for the linear self-attention architecture.
Model Transformer jaman dulu itu sebenernya 'buta' posisi. Biar tau urutan kata, biasanya posisi cuma ditambahin gitu aja ke datanya (additive). Masalahnya, cara ini kaku banget, nggak efisien buat teks panjang, dan nggak cocok kalau kita mau pake teknik Linear Attention yang lebih hemat memori.
Model Transformer jaman dulu itu sebenernya 'buta' posisi. Biar tau urutan kata, biasanya posisi cuma ditambahin gitu aja ke datanya (additive). Masalahnya, cara ini kaku banget, nggak efisien buat teks panjang, dan nggak cocok kalau kita mau pake teknik Linear Attention yang lebih hemat memori.
It is noteworthy that the self-attention architecture of the current PLMs has shown to be position-agnostic... they commonly add the position information to the context representation and thus render them unsuitable for the linear self-attention architecture.
Bayangin kamu lagi ngantri sembako tapi nggak tau siapa di depan atau di belakangmu. Cara lama itu kayak nempelin stiker nomor di baju masing-masing orang. Kalau antriannya nambah sampe ribuan orang, stikernya jadi ribet dan susah diatur.