Panduan Lengkap Dasar-Dasar Deep Learning: Arsitektur, Optimasi, dan Teknik Pelatihan Neural Network

Inti Sari (Executive Summary)

Video ini menyajikan pengantar mendalam mengenai deep learning, khususnya pada arsitektur Feed Forward Neural Networks. Pembahasan mencakup fondasi matematis seperti notasi dan fungsi aktivasi, hingga algoritma pelatihan inti yaitu Stochastic Gradient Descent (SGD) dan Backpropagation. Selain itu, video ini menguraikan berbagai teknik praktis untuk mengoptimalkan performa model, termasuk hyperparameter tuning, regularization, serta metode modern seperti Dropout dan Batch Normalization untuk mengatasi tantangan dalam pelatihan jaringan saraf yang dalam.

Poin-Poin Kunci (Key Takeaways)

Struktur Dasar: Neural network terdiri dari input, hidden layers (untuk non-linearitas), dan output layer. Fungsi aktivasi umum meliputi Sigmoid, Tanh, ReLU, dan Softmax.
Mekanisme Pelatihan: Model dilatih dengan meminimalkan fungsi loss (seperti Cross Entropy) menggunakan Stochastic Gradient Descent (SGD).
Backpropagation: Algoritma efisien untuk menghitung gradien menggunakan chain rule secara berurutan dari luaran ke input.
Optimasi Praktis: Penggunaan mini-batches, momentum, dan adaptive learning rates (seperti Adam) mempercepat konvergensi.
Regularisasi: Teknik seperti Dropout dan Batch Normalization berfungsi mencegah overfitting dan membantu optimasi, serta memungkinkan pelatihan jaringan yang lebih dalam dan stabil.

Rincian Materi (Detailed Breakdown)

1. Arsitektur dan Komponen Neural Network

Video dimulai dengan pengenalan struktur dasar Feed Forward Neural Networks yang memetakan input vektor ($x$) ke output ($f(x)$).
* Notasi: Input disebut layer 0. Lapisan tersembunyi (hidden layers) dinyatakan dengan indeks $k$, di mana $a_k$ adalah pre-activation dan $h_k$ adalah activation.
* Fungsi Aktivasi: Diperlukan untuk memperkenalkan non-linearitas.
* Sigmoid: Menghasilkan nilai antara 0 dan 1, namun sering mengalami saturation.
* Hyperbolic Tangen (tanh): Menghasilkan nilai antara -1 dan 1.
* ReLU (Rectified Linear Unit): Sangat populer; tidak terbatas di atas dan bernilai nol jika input negatif.
* Layer Output: Untuk klasifikasi, jumlah unit sesuai jumlah kelas. Fungsi Softmax digunakan untuk mengubah output menjadi probabilitas distribusi multinomial.
* Flow Graph: Operasi matematis (transformasi linear dan aktivasi) direpresentasikan sebagai objek dalam sebuah flow graph untuk memudahkan implementasi dan perhitungan gradien.

2. Kerangka Kerja Optimasi dan Algoritma SGD

Pelatihan neural network dipandang sebagai masalah minimisasi risiko empiris (Empirical Risk Minimization).
* Fungsi Objektif: Meminimalkan rata-rata loss terhadap data latih ditambah penalti regularizer (misalnya weight decay atau L2).
* Stochastic Gradient Descent (SGD):
1. Inisialisasi parameter (bobot dan bias).
2. Ulangi untuk beberapa epoch.
3. Untuk setiap contoh data, hitung gradien loss dan regularizer terhadap parameter.
4. Perbarui parameter dengan bergerak berlawanan arah gradien sesuai learning rate.
* Fungsi Loss: Menggunakan Negative Log Likelihood (sering disebut Cross Entropy Loss) untuk memaksimalkan probabilitas kelas yang benar.

3. Backpropagation dan Perhitungan Gradien

Backpropagation adalah metode standar untuk menghitung gradien secara efisien.
* Konsep: Menggunakan chain rule untuk mengalikan turunan lokal dari atas ke bawah (dari output ke input).
* Alur:
* Hitung gradien di layer output (sederhana: selisih antara probabilitas prediksi dan one-hot vector kelas benar).
* Propagasikan gradien ke bawah layer demi layer.
* Hitung gradien terhadap bobot (melalui outer product) dan bias.
* Turunan Fungsi Aktivasi:
* Sigmoid: $g'(a) = g(a)(1 - g(a))$.
* Tanh: $g'(a) = 1 - g(a)^2$.
* ReLU: 1 jika $a > 0$, dan 0 jika $a \leq 0$.
* Implementasi: Flow graph diperluas dengan metode bprop (backprop) untuk menghitung dan mengalirkan gradien secara otomatis (sering disebut automatic differentiation).

4. Inisialisasi, Regularisasi, dan Hyperparameter Tuning

Langkah-langkah praktis untuk memastikan model dapat belajar dengan efektif.
* Inisialisasi Parameter: Tidak boleh dilakukan secara sembarangan (misalnya semua nol). Biasanya menggunakan nilai acak kecil.
* Regularisasi (L2/Weight Decay): Menambahkan penalti kuadrat dari bobot ke fungsi loss untuk mencegah bobot menjadi terlalu besar. Bias biasanya tidak di-regularisasi.
* Hyperparameter Tuning:
* Random Search: Disarankan dibandingkan Grid Search karena lebih efisien dalam mengeksplorasi ruang parameter.
* Bayesian Optimization: Metode yang lebih canggih menggunakan machine learning untuk memilih hyperparameter.
* Epochs dan Early Stopping: Menghentikan pelatihan ketika performa pada set validasi tidak lagi meningkat, lalu mengembalikan parameter ke titik terbaik.

5. Teknik Optimasi Lanjutan

Untuk mempercepat pelatihan dan stabilitas konvergensi.
* Normalisasi Input: Mengurangi rata-rata dan membagi dengan standar deviasi untuk setiap dimensi input mempercepat pelatihan.
* Learning Rate Decay: Mengurangi learning rate secara bertahap saat performa validasi mandek untuk memungkinkan konvergensi yang lebih presisi.
* Mini-Batches: Menghitung gradien berdasarkan kelompok kecil data (misal 64 atau 128 contoh) jauh lebih efisien secara komputasi daripada satu per satu karena operasi matriks.
* Momentum: Menambahkan fraksi dari pembaruan sebelumnya ke arah gradien saat ini untuk mempercepat gerakan melalui dataran dan meredam osilasi.
* Adaptive Learning Rates (Adagrad, RMS Prop, Adam): Menyesuaikan learning rate untuk setiap parameter secara individual. Adam (kombinasi RMS Prop dan Momentum) sering menjadi pilihan default yang sukses.

6. Tantangan Deep Learning dan Dropout

Mengapa jaringan dalam (deep networks) sulit dilatih dan bagaimana mengatasinya.
* Motivasi Deep Learning: Representasi hierarkis (misal: tepi $\to$ bagian wajah $\to$ wajah utuh) lebih efisien secara komputasi dan biologis dibandingkan jaringan dangkal yang lebar.
* Tantangan Utama:
* Vanishing Gradients: Gradien menjadi sangat kecil di layer bawah sehingga parameter tidak terupdate.
* Overfitting: Terlalu banyak parameter dibandingkan data latih.
* Dropout:
* Teknik di mana unit tersembunyi "dihapus" (dikalikan nol) secara acak dengan probabilitas tertentu (misal 0.5) selama pelatihan.
* Mencegah co-adaptation (ketergantungan berlebihan) antar unit.
* Pada waktu pengujian, semua unit digunakan dengan skala probabilitas (setara dengan rata-rata geometris dari banyak sub-jaringan).

7. Batch Normalization

Teknik modern yang membantu mengatasi masalah optimasi dan mengurangi ketergantungan pada Dropout.
* Konsep: Menormalisasi pre-activation di setiap layer menggunakan statistik (mean dan variance) dari mini-batch saat ini, bukan hanya input awal.

Kesimpulan & Pesan Penutup

Secara keseluruhan, video ini membekali penonton dengan pemahaman fundamental mengenai arsitektur dan mekanisme kerja Feed Forward Neural Networks, termasuk algoritma krusial seperti Backpropagation dan Stochastic Gradient Descent. Pembahasan tidak hanya berfokus pada teori matematis, tetapi juga menyajikan strategi praktis untuk optimasi dan regularisasi guna menangani masalah umum seperti overfitting dan vanishing gradients. Penguasaan materi ini merupakan langkah awal yang penting bagi siapa saja yang ingin mendalami dan mengembangkan model deep learning yang efisien dan akurat.