Standar Baru LLM

RoFormer: Enhanced Transformer With Rotary Position Embedding

Jianlin SuYu LuShengfeng PanAhmed MurtadhaBo WenYunfeng Liu

2023Baca Paper Asli

Penjelasan Simpel

Paper ini ngenalin cara baru buat ngasih tau model AI posisi kata dalam kalimat pake teknik rotasi matematika yang namanya RoPE. Hasilnya, model jadi lebih pinter nangkep hubungan antar kata, terutama buat teks yang panjang banget. Sekarang teknik ini jadi standar wajib di model-model canggih kayak Llama dan Mistral.

🎯Key Takeaways

RoPE nggabungin kelebihan posisi absolut dan relatif lewat rotasi vektor yang bikin model lebih fleksibel.

Punya sifat 'Long-term Decay', artinya kata yang deketan otomatis dapet perhatian lebih gede dibanding kata yang jauh banget.

Sangat efisien karena bisa digabungin sama Linear Attention buat nanganin konteks teks yang super panjang.

Terbukti lebih kenceng konvergensinya pas training dan lebih akurat di berbagai benchmark NLP dibanding BERT.

Deep Dive

Breakdown per bagian dengan penjelasan mudah dipahami

1Masalah di Model Transformer Lama

Original Text

It is noteworthy that the self-attention architecture of the current PLMs has shown to be position-agnostic... they commonly add the position information to the context representation and thus render them unsuitable for the linear self-attention architecture.

🇮🇩 Penjelasan Bahasa Indonesia

Model Transformer jaman dulu itu sebenernya 'buta' posisi. Biar tau urutan kata, biasanya posisi cuma ditambahin gitu aja ke datanya (additive). Masalahnya, cara ini kaku banget, nggak efisien buat teks panjang, dan nggak cocok kalau kita mau pake teknik Linear Attention yang lebih hemat memori.

🇮🇩 Penjelasan Simpel

Analogi

Bayangin kamu lagi ngantri sembako tapi nggak tau siapa di depan atau di belakangmu. Cara lama itu kayak nempelin stiker nomor di baju masing-masing orang. Kalau antriannya nambah sampe ribuan orang, stikernya jadi ribet dan susah diatur.

2Solusinya: Pake Rotasi (RoPE)

Original Text

Specifically, RoPE encodes the absolute position with a rotation matrix and meanwhile incorporates the explicit relative position dependency in self-attention formulation... multiply the context representations with a rotation matrix.

🇮🇩 Penjelasan Bahasa Indonesia

Daripada cuma nambahin angka posisi, RoPE milih buat 'muter' (rotasi) vektor kata berdasarkan posisinya di kalimat. Jadi, hubungan antar dua kata bisa ketauan cuma dari seberapa jauh sudut putar mereka relatif satu sama lain. Ini jauh lebih natural buat matematika modelnya.

🇮🇩 Penjelasan Simpel

Analogi

Kayak jarum jam. Jam 1 sama jam 2 itu selisihnya pasti 30 derajat. Mau sekarang jam berapa pun, selisih antara jam 1 dan jam 2 tetep konsisten karena kita liat sudut putarnya, bukan cuma angka tempelannya.

3Makin Jauh Makin Cuek (Long-term Decay)

Original Text

One can prove that this setting provides a long-term decay property... which means the inner-product will decay when the relative position increase. This property coincides with the intuition that a pair of tokens with a long relative distance should have less connection.

🇮🇩 Penjelasan Bahasa Indonesia

RoPE punya fitur bawaan yang keren: makin jauh jarak antar kata, pengaruhnya bakal makin ngecil secara otomatis. Ini mirip banget sama cara manusia mikir; kita biasanya lebih fokus ke kata-kata yang deketan buat paham maksud sebuah kalimat.

🇮🇩 Penjelasan Simpel

Analogi

Kayak lagi nongkrong di kafe. Kamu bakal lebih dengerin omongan temen yang duduk persis di sebelahmu daripada dengerin teriakan orang di meja ujung seberang sana.

4Performa di Dunia Nyata

Original Text

Our experiments show that it consistently overcomes its alternatives... RoFormer can significantly outperform BERT in three out of six datasets... outperforms WoBERT by an absolute improvement of 1.5%.

🇮🇩 Penjelasan Bahasa Indonesia

Pas dites di berbagai tugas (kayak klasifikasi teks atau terjemahan), RoFormer (Transformer yang pake RoPE) terbukti lebih jago dan lebih cepet pinter pas ditraining dibanding model standar kayak BERT. Apalagi pas disuruh baca dokumen yang panjang banget, dia makin keliatan saktinya.

🇮🇩 Penjelasan Simpel

Analogi

Kayak ganti mesin motor dari karburator lama ke sistem injeksi modern. Motornya jadi lebih kenceng, lebih irit bensin, dan nggak gampang mogok pas diajak touring jarak jauh.

Glossary

Istilah-istilah penting dari paper ini

1 / 5

RoPE (Rotary Positional Embedding)

Metode buat ngasih tau posisi kata ke AI pake rotasi matematika, bukan cuma ditambahin angka biasa.

Gunakan tombol panah ← → atau klik dot di atas

RoFormer: Enhanced Transformer With Rotary Position Embedding

Jianlin SuYu LuShengfeng PanAhmed MurtadhaBo WenYunfeng Liu

2023Baca Paper Asli

Penjelasan Simpel

🎯Key Takeaways

RoPE nggabungin kelebihan posisi absolut dan relatif lewat rotasi vektor yang bikin model lebih fleksibel.

Punya sifat 'Long-term Decay', artinya kata yang deketan otomatis dapet perhatian lebih gede dibanding kata yang jauh banget.

Sangat efisien karena bisa digabungin sama Linear Attention buat nanganin konteks teks yang super panjang.

Terbukti lebih kenceng konvergensinya pas training dan lebih akurat di berbagai benchmark NLP dibanding BERT.