Revolusi Arsitektur LLM

Attention Is All You Need

Ashish VaswaniNoam ShazeerNiki ParmarJakob UszkoreitLlion JonesAidan N. GomezŁukasz KaiserIllia Polosukhin

2017Baca Paper Asli

Penjelasan Simpel

Paper ini ngenalin arsitektur 'Transformer' yang ngebuang total penggunaan RNN dan CNN, cuma ngandelin mekanisme attention doang. Hasilnya, training jadi jauh lebih cepet karena bisa diproses secara paralel dan akurasinya nembus rekor baru di bidang translasi bahasa. Ini adalah fondasi utama dari teknologi AI modern kayak ChatGPT yang kita pake sekarang.

🎯Key Takeaways

Nghapus total ketergantungan sama RNN/LSTM yang lambat karena harus proses data satu-satu.

Ngenalin Self-Attention yang bikin model bisa 'fokus' ke hubungan antar kata tanpa peduli jaraknya dalam kalimat.

Proses training jadi super ngebut karena bisa jalan barengan (parallelization) di banyak GPU.

Berhasil dapet skor BLEU (kualitas translasi) tertinggi dengan biaya training yang jauh lebih murah.

Deep Dive

Breakdown per bagian dengan penjelasan mudah dipahami

1Masalah di Model Lama (RNN)

Original Text

Recurrent models typically factor computation along the symbol positions of the input and output sequences. Aligning the positions to steps in computation time, they generate a sequence of hidden states ht, as a function of the previous hidden state ht−1 and the input for position t. This inherently sequential nature precludes parallelization within training examples...

🇮🇩 Penjelasan Bahasa Indonesia

Dulu, model AI (RNN) itu kerjanya kayak orang baca buku: harus satu-satu dari kiri ke kanan. Masalahnya, kalau kalimatnya panjang banget, dia suka lupa sama kata di awal. Plus, karena harus nunggu kata sebelumnya selesai diproses, kita nggak bisa pake kekuatan penuh GPU buat ngerjain semuanya barengan.

🇮🇩 Penjelasan Simpel

Analogi

Kayak antre beli seblak yang cuma punya satu kasir. Satu orang harus selesai dilayani dulu baru orang berikutnya bisa maju. Kalau ada 100 orang, ya bakal lama banget nunggunya.

2Solusinya: Mekanisme Attention

Original Text

An attention function can be described as mapping a query and a set of key-value pairs to an output... The output is computed as a weighted sum of the values, where the weight assigned to each value is computed by a compatibility function of the query with the corresponding key.

🇮🇩 Penjelasan Bahasa Indonesia

Nah, Transformer pake sistem 'Attention'. Dia nggak baca satu-satu lagi, tapi langsung liat seluruh kalimat sekaligus. Dia bakal ngasih 'bobot' atau perhatian lebih ke kata-kata yang emang nyambung maknanya, nggak peduli seberapa jauh jarak kata itu.

🇮🇩 Penjelasan Simpel

Analogi

Kayak kita lagi liat foto grup kelas. Mata kita bisa langsung fokus ke muka gebetan kita meskipun dia ada di pojok belakang, tanpa harus merhatiin muka temen-temen yang lain satu per satu dari depan.

3Multi-Head Attention (Biar Makin Pinter)

Original Text

Multi-head attention allows the model to jointly attend to information from different representation subspaces at different positions. With a single attention head, averaging inhibits this.

🇮🇩 Penjelasan Bahasa Indonesia

Biar pemahamannya makin dalem, model ini nggak cuma punya satu 'fokus', tapi banyak (Multi-Head). Jadi, satu bagian fokus ke subjek, satu lagi fokus ke kata kerja, dan lainnya fokus ke konteks waktu secara barengan.

🇮🇩 Penjelasan Simpel

Multi-head attention allows the model to jointly attend to information from different representation subspaces at different positions. With a single attention head, averaging inhibits this.

Analogi

Kayak dengerin band lagi manggung. Telinga kita bisa fokus dengerin melodi gitar, tapi di saat yang sama juga tetep dengerin gebukan drum dan suara vokalis. Hasilnya, kita dapet gambaran musik yang lengkap banget.

4Positional Encoding (Biar Gak Bingung Urutan)

Original Text

Since our model contains no recurrence and no convolution, in order for the model to make use of the order of the sequence, we must inject some information about the relative or absolute position of the tokens in the sequence.

🇮🇩 Penjelasan Bahasa Indonesia

Karena Transformer baca semua kata barengan, dia awalnya bingung mana kata yang duluan dan mana yang belakangan. Makanya, para peneliti nambahin 'Positional Encoding', semacam label koordinat biar model tau posisi tiap kata dalam kalimat.

🇮🇩 Penjelasan Simpel

Analogi

Kayak ngasih nomor antrean ke semua orang di dalam ruangan. Meskipun mereka semua masuk barengan ke ruangan itu, kita tetep tau siapa yang harusnya di depan dan siapa yang di belakang berdasarkan nomor di tangan mereka.

Glossary

Istilah-istilah penting dari paper ini

1 / 5

Self-Attention

Kemampuan model buat nyari hubungan antara satu kata dengan kata lainnya dalam satu kalimat yang sama.

Gunakan tombol panah ← → atau klik dot di atas

Attention Is All You Need

Ashish VaswaniNoam ShazeerNiki ParmarJakob UszkoreitLlion JonesAidan N. GomezŁukasz KaiserIllia Polosukhin

2017Baca Paper Asli

Penjelasan Simpel

🎯Key Takeaways

Nghapus total ketergantungan sama RNN/LSTM yang lambat karena harus proses data satu-satu.

Ngenalin Self-Attention yang bikin model bisa 'fokus' ke hubungan antar kata tanpa peduli jaraknya dalam kalimat.

Proses training jadi super ngebut karena bisa jalan barengan (parallelization) di banyak GPU.

Berhasil dapet skor BLEU (kualitas translasi) tertinggi dengan biaya training yang jauh lebih murah.