Paper Feed

Kumpulan paper AI yang udah diterjemahin ke Bahasa Manusia. ✨

11 paper tersedia untuk dijelajahi

Edward Hu et al.

2021

LoRA

LoRA: Low-Rank Adaptation of Large Language Models

Paper ini ngebahas cara pinter buat nge-tuning model AI raksasa tanpa harus ngerombak seluruh parameternya. Dengan teknik LoRA, kita cuma perlu ngelatih matriks kecil tambahan sementara model aslinya dikunci. Hasilnya, kita bisa hemat memori GPU dan storage gede-gedean tapi performanya tetep jagoan.

Baca Selengkapnya

Jianlin Su et al.

2023

ROPE

RoFormer: Enhanced Transformer With Rotary Position Embedding

Paper ini ngenalin cara baru buat ngasih tau model AI posisi kata dalam kalimat pake teknik rotasi matematika yang namanya RoPE. Hasilnya, model jadi lebih pinter nangkep hubungan antar kata, terutama buat teks yang panjang banget. Sekarang teknik ini jadi standar wajib di model-model canggih kayak Llama dan Mistral.

Baca Selengkapnya

Tom B. Brown et al.

2020

GPT-3

Language Models are Few-Shot Learners

Paper ini ngenalin GPT-3, model bahasa raksasa yang punya 175 miliar parameter. Terobosan utamanya adalah AI ini bisa ngerjain berbagai tugas baru cuma dengan dikasih beberapa contoh (few-shot), tanpa perlu dilatih ulang (fine-tuning) buat tiap tugas spesifik.

Baca Selengkapnya

Patrick Lewis et al.

2021

RAG

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Paper ini ngenalin konsep RAG, yaitu cara bikin AI nggak cuma ngandelin hafalan tapi bisa 'nyontek' ke database luar kayak Wikipedia buat jawab pertanyaan. Dengan cara ini, AI jadi lebih pinter, jarang ngaco, dan pengetahuannya gampang di-update tanpa perlu training ulang dari awal. Hasilnya, model yang lebih kecil pun bisa ngalahin model raksasa dalam hal akurasi fakta.

Baca Selengkapnya

Jared Kaplan et al.

2020

Scaling Laws

Scaling Laws for Neural Language Models

Paper ini ngebuktiin kalau performa AI itu bisa diprediksi secara akurat cuma lewat matematika simpel berdasarkan ukuran model, jumlah data, dan tenaga komputer. Intinya, makin gede skalanya, makin pinter modelnya secara konsisten tanpa perlu pusing mikirin struktur dalemnya. Ini jadi landasan kenapa sekarang semua orang lomba-lomba bikin model raksasa kayak GPT.

Baca Selengkapnya

Alec Radford et al.

2019

GPT-2

Language Models are Unsupervised Multitask Learners

Paper ini ngenalin GPT-2, model bahasa yang bisa ngerjain macem-macem tugas kayak translasi dan jawab pertanyaan tanpa perlu dilatih khusus buat tugas itu. Intinya, kalau model dikasih baca teks internet yang super banyak, dia bakal pinter sendiri buat ngerjain banyak hal sekaligus. Ini ngebuktiin kalau AI bisa jadi 'generalist' cuma lewat proses belajar tanpa pengawasan (unsupervised).

Baca Selengkapnya

Neil Houlsby et al.

2019

PEFT

Parameter-Efficient Transfer Learning for NLP

Paper ini ngenalin konsep 'Adapters', yaitu komponen kecil yang diselipin ke model AI raksasa supaya kita nggak perlu ngelatih ulang seluruh isi modelnya. Dengan cara ini, kita bisa bikin AI jago di banyak tugas baru tapi tetep hemat storage dan memori. Hasilnya terbukti hampir sama hebatnya dengan cara lama yang jauh lebih boros.

Baca Selengkapnya

Danqi Chen et al.

2017

Reading Wikipedia to Answer Open-Domain Questions

Paper ini ngenalin sistem DrQA yang bisa jawab pertanyaan umum cuma modal baca Wikipedia doang. Ini adalah cikal bakal konsep RAG (Retrieval-Augmented Generation) yang sekarang populer banget di dunia LLM. Terobosannya ada di cara gabungin pencarian dokumen yang efisien sama model AI yang pinter baca teks.

Baca Selengkapnya

Jacob Devlin et al.

2019

BERT

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT adalah model bahasa yang bisa memahami konteks kalimat dari dua arah (kiri dan kanan) secara bersamaan, beda sama model lama yang cuma searah. Dengan teknik 'ngisi titik-titik' (Masked LM), model ini jadi pinter banget buat urusan paham bahasa manusia. Hasilnya, BERT sukses ngebantai rekor di 11 tugas NLP sekaligus cuma dengan sedikit modifikasi.

Baca Selengkapnya

Ashish Vaswani et al.

2017

Transformers

Attention Is All You Need

Paper ini ngenalin arsitektur 'Transformer' yang ngebuang total penggunaan RNN dan CNN, cuma ngandelin mekanisme attention doang. Hasilnya, training jadi jauh lebih cepet karena bisa diproses secara paralel dan akurasinya nembus rekor baru di bidang translasi bahasa. Ini adalah fondasi utama dari teknologi AI modern kayak ChatGPT yang kita pake sekarang.

Baca Selengkapnya