Fine-tuning Super Efisien

LoRA: Low-Rank Adaptation of Large Language Models

Edward HuYelong ShenPhillip WallisZeyuan Allen-ZhuYuanzhi LiShean WangLu WangWeizhu Chen

2021Baca Paper Asli

Penjelasan Simpel

Paper ini ngebahas cara pinter buat nge-tuning model AI raksasa tanpa harus ngerombak seluruh parameternya. Dengan teknik LoRA, kita cuma perlu ngelatih matriks kecil tambahan sementara model aslinya dikunci. Hasilnya, kita bisa hemat memori GPU dan storage gede-gedean tapi performanya tetep jagoan.

🎯Key Takeaways

Gak perlu update semua parameter model yang jumlahnya miliaran, cukup latih matriks kecil (low-rank).

Hemat VRAM GPU sampai 3x lipat pas lagi training model segede GPT-3.

Ukuran file hasil training (checkpoint) jadi kecil banget, bisa 10.000x lebih ramping dibanding cara biasa.

Gak ada tambahan delay pas model dipake (zero inference latency) karena matriksnya bisa digabungin ke model utama.

Deep Dive

Breakdown per bagian dengan penjelasan mudah dipahami

1Masalah: Fine-Tuning Model Gede Itu Berat Banget

Original Text

As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes less feasible. Using GPT-3 175B as an example – deploying independent instances of fine-tuned models, each with 175B parameters, is prohibitively expensive.

🇮🇩 Penjelasan Bahasa Indonesia

Masalahnya, model AI jaman sekarang makin raksasa. Kalau kita mau ajarin tugas baru pake cara lama (full fine-tuning), kita harus update semua isi otaknya. Bayangin kalau punya banyak tugas, kita harus simpen banyak copy model yang ukurannya bergiga-giga. Boros banget di storage sama duit!

🇮🇩 Penjelasan Simpel

Analogi

Kayak lu punya kamus setebal gaban, terus tiap mau nambahin satu kata baru, lu harus cetak ulang seluruh bukunya dari awal. Capek dan mahal kan?

2Solusi: Pake 'Catatan Kecil' (LoRA)

Original Text

We propose Low-Rank Adaptation, or LoRA, which freezes the pre-trained model weights and injects trainable rank decomposition matrices into each layer of the Transformer architecture, greatly reducing the number of trainable parameters for downstream tasks.

🇮🇩 Penjelasan Bahasa Indonesia

Daripada ngerombak seluruh isi otak model, LoRA milih buat 'ngunci' (freeze) model aslinya. Terus, kita cuma nambahin dua matriks kecil (A dan B) di tiap layer buat belajar tugas baru. Jadi yang dilatih cuma si matriks kecil ini doang, parameternya jadi dikit banget.

🇮🇩 Penjelasan Simpel

Analogi

Kayak lu punya buku resep masakan yang udah paten. Pas mau modif dikit biar lebih pedes, lu gak nulis ulang bukunya, tapi cuma tempel sticky note kecil di halamannya. Resep aslinya tetep utuh, modifnya cuma di kertas tempelan itu.

3Gak Bikin Model Jadi Lemot

Original Text

Our simple linear design allows us to merge the trainable matrices with the frozen weights when deployed, introducing no inference latency compared to a fully fine-tuned model, by construction.

🇮🇩 Penjelasan Bahasa Indonesia

Biasanya teknik hemat memori bikin model jadi agak lambat pas dipake (inference). Tapi LoRA beda. Karena strukturnya linear, si matriks tambahan tadi bisa langsung 'disatuin' lagi ke model utama pas udah beres latihan. Jadi pas dipake, kecepatannya tetep sama kayak model asli.

🇮🇩 Penjelasan Simpel

Our simple linear design allows us to merge the trainable matrices with the frozen weights when deployed, introducing no inference latency compared to a fully fine-tuned model, by construction.

Analogi

Kayak lu nambahin topping di pizza. Pas mau dimakan, toppingnya udah nempel jadi satu sama pizzanya, jadi lu gak perlu ribet makan toppingnya terpisah satu-satu.

4Hasilnya: Performa Tetep Juara

Original Text

LoRA performs on-par or better than fine-tuning in model quality on RoBERTa, DeBERTa, GPT-2, and GPT-3, despite having fewer trainable parameters, a higher training throughput, and, unlike adapters, no additional inference latency.

🇮🇩 Penjelasan Bahasa Indonesia

Meskipun yang dilatih cuma dikit, ternyata hasilnya gak kalah sama cara lama yang ribet. Di berbagai model kayak GPT-2 sampe GPT-3, LoRA terbukti bisa dapet akurasi yang sama atau bahkan lebih bagus, tapi prosesnya jauh lebih cepet dan ringan.

🇮🇩 Penjelasan Simpel

Analogi

Kayak lu ikut ujian cuma belajar ringkasannya doang, tapi ternyata nilai lu tetep dapet A, sama kayak temen lu yang baca seluruh buku teks.

Glossary

Istilah-istilah penting dari paper ini

1 / 5

Fine-tuning

Proses ngelatih ulang model yang udah pinter (pre-trained) biar makin jago di tugas yang lebih spesifik.

Gunakan tombol panah ← → atau klik dot di atas

LoRA: Low-Rank Adaptation of Large Language Models

Edward HuYelong ShenPhillip WallisZeyuan Allen-ZhuYuanzhi LiShean WangLu WangWeizhu Chen

2021Baca Paper Asli

Penjelasan Simpel

🎯Key Takeaways

Gak perlu update semua parameter model yang jumlahnya miliaran, cukup latih matriks kecil (low-rank).

Hemat VRAM GPU sampai 3x lipat pas lagi training model segede GPT-3.

Ukuran file hasil training (checkpoint) jadi kecil banget, bisa 10.000x lebih ramping dibanding cara biasa.

Gak ada tambahan delay pas model dipake (zero inference latency) karena matriksnya bisa digabungin ke model utama.