1Masalah di Model Lama (RNN)
Recurrent models typically factor computation along the symbol positions of the input and output sequences. Aligning the positions to steps in computation time, they generate a sequence of hidden states ht, as a function of the previous hidden state ht−1 and the input for position t. This inherently sequential nature precludes parallelization within training examples...
Dulu, model AI (RNN) itu kerjanya kayak orang baca buku: harus satu-satu dari kiri ke kanan. Masalahnya, kalau kalimatnya panjang banget, dia suka lupa sama kata di awal. Plus, karena harus nunggu kata sebelumnya selesai diproses, kita nggak bisa pake kekuatan penuh GPU buat ngerjain semuanya barengan.
Dulu, model AI (RNN) itu kerjanya kayak orang baca buku: harus satu-satu dari kiri ke kanan. Masalahnya, kalau kalimatnya panjang banget, dia suka lupa sama kata di awal. Plus, karena harus nunggu kata sebelumnya selesai diproses, kita nggak bisa pake kekuatan penuh GPU buat ngerjain semuanya barengan.
Recurrent models typically factor computation along the symbol positions of the input and output sequences. Aligning the positions to steps in computation time, they generate a sequence of hidden states ht, as a function of the previous hidden state ht−1 and the input for position t. This inherently sequential nature precludes parallelization within training examples...
Kayak antre beli seblak yang cuma punya satu kasir. Satu orang harus selesai dilayani dulu baru orang berikutnya bisa maju. Kalau ada 100 orang, ya bakal lama banget nunggunya.