Memahami Deep Reinforcement Learning dan Penerapannya dalam Simulasi "Deep Traffic"

Inti Sari (Executive Summary)

Video ini membahas konsep dasar hingga penerapan lanjutan Deep Reinforcement Learning (DRL), sebuah pendekatan Machine Learning yang memungkinkan agen untuk belajar mengambil keputusan optimal melalui interaksi dengan lingkungan. Pembahasan dimulai dari perbedaan jenis pembelajaran mesin, mekanisme Neural Networks, hingga algoritma Deep Q-Learning yang digunakan untuk mengatasi masalah kompleks. Sebagai studi kasus praktis, video ini memperkenalkan proyek "Deep Traffic", sebuah simulasi lalu lintas di mana peserta ditantang untuk merancang jaringan saraf tiruan yang mampu mengendalikan mobil otonom agar mencapai kecepatan rata-rata tertinggi secara aman.

Poin-Poin Kunci (Key Takeaways)

Jenis Pembelajaran Mesin: Supervised Learning membutuhkan data berlabel (ground truth), sedangkan Reinforcement Learning (RL) belajar dari reward dan punishment tanpa data kebenaran yang eksplisit.
Neural Networks Dasar: Perceptron menggunakan fungsi aktivasi untuk memetakan input ke output. Proses pembelajaran melibatkan Forward Pass (prediksi) dan Backpropagation (koreksi error berdasarkan Loss Function).
Mekanisme RL: Agen mengamati lingkungan, mengambil aksi, dan menerima umpan balik (reward) yang mungkin tertunda. Tujuannya adalah memaksimalkan discounted future reward.
Q-Learning & DQN: Q-Learning menggunakan tabel nilai (Q-table) yang tidak efisien untuk data kompleks. Deep Q-Learning (DQN) menggantikan tabel dengan Neural Network untuk menggeneralisasi data visual (piksel) dan mengambil keputusan.
Proyek Deep Traffic: Simulasi berbasis browser untuk menguji algoritma DQN pada skenario lalu lintas, di mana agen harus menavigasi 7 lajur jalan raya dengan aman dan cepat.

Rincian Materi (Detailed Breakdown)

1. Pengantar Machine Learning dan Neural Networks

Video ini diawali dengan pengenalan proyek "Deep Traffic", sebuah kompetisi menyelesaikan masalah lalu lintas menggunakan Deep Reinforcement Learning. Pembicara menjelaskan empat kategori utama pembelajaran mesin:
* Supervised Learning: Membutuhkan dataset dengan input dan output (ground truth) untuk mempelajari pemetaan.
* Unsupervised Learning: Hanya memiliki data tanpa output, bertujuan menemukan struktur atau representasi yang mendasarinya.
* Semi-supervised Learning: Kombinasi jumlah kecil data berlabel dan jumlah besar data tidak berlabel.
* Reinforcement Learning (RL): Agen berada dalam dunia, menerima input, dan belajar melalui reward sesekali yang tertunda (mirip kehidupan manusia).

Selanjutnya, video membahas Neural Networks (NN):
* Perceptron: Neuron "jadul" dengan input, bobot (weights), dan bias. Outputnya biner (0 atau 1) berdasarkan ambang batas (threshold).
* Fungsi Aktivasi: Penggantian fungsi tangga (step function) dengan fungsi halus (seperti sigmoid) memungkinkan perubahan bobot yang bertahap dan pembelajaran yang lebih baik.
* Arsitektur: Jaringan Feed-forward (input langsung ke output) menjadi fokus utama, berbeda dengan Recurrent yang memiliki memori.

2. Mekanisme Pembelajaran: Forward Pass, Backpropagation, dan RL

Pembicara menjelaskan pipeline pembelajaran menggunakan contoh klasifikasi angka tulisan tangan (28x28 piksel):
* Forward Pass: Input melewati lapisan tersembunyi (hidden layer) untuk menghasilkan prediksi.
* Backpropagation: Menghitung gradien untuk menghukum atau memberi reward pada bobot berdasarkan kesalahan prediksi. Fungsi Loss (misalnya Squared Error) mengukur selisih antara prediksi dan ground truth.
* Keterbatasan Supervised Learning: Mirip dengan menghafal untuk ujian; bagus untuk dataset, tapi mungkin gagal generalisasi di dunia nyata yang berbeda.

Transisi ke Reinforcement Learning:
* Agen mengambil aksi, menerima observasi (keadaan baru), dan menerima reward atau hukuman.
* Contoh: Game Atari Breakout, di mana paddle adalah agen, dan skor adalah reward.

3. Algoritma Q-Learning dan Eksplorasi

Video memperdalam konsep RL dengan dunia grid 2D:
* Deterministik vs Non-Deterministik: Di dunia non-deterministik, aksi "naik" mungkin hanya berhasil 80% sisanya menyamping.
* Reward dan Punishment: Agen mendapat poin positif untuk mencapai tujuan, poin negatif untuk langkah yang memakan waktu, atau poin besar negatif jika menabrak bahaya.
* Q-Learning: Metode off-policy yang memperkirakan nilai (Q-value) dari sebuah pasangan keadaan-aksi (state-action) untuk memaksimalkan reward masa depan.
* Persamaan Bellman: Digunakan untuk memperbarui nilai Q berdasarkan reward yang diterima dan estimasi nilai masa depan (didiskont menggunakan faktor Gamma).
* Epsilon-Greedy Policy: Menyeimbangkan eksplorasi (mengambil aksi acak) dan eksploitasi (mengambil aksi terbaik saat ini). Nilai Epsilon biasanya dikurangi seiring waktu agar agen lebih fokus mengeksploitasi pengetahuan yang telah dipelajari.

4. Deep Q-Learning (DQN) dan Representasi

Masalah utama Q-Learning tradisional adalah Representasi:
* Menggunakan tabel Q untuk setiap kombinasi piksel dalam game (misalnya 84x84 RGB) tidak mungkin dilakukan karena ukurannya yang astronomis.
* Solusi Deep Q-Learning: Menggunakan Deep Neural Networks untuk mengaproksimasi fungsi Q, bukan menyimpannya dalam tabel. Jaringan memetakan input (piksel) langsung ke nilai Q untuk setiap aksi.
* Proses Training: Agen bermain, menyimpan pengalaman di Replay Memory

Kesimpulan & Pesan Penutup

Video ini memberikan panduan menyeluruh mengenai evolusi dari Neural Networks dasar hingga penerapan Deep Reinforcement Learning dalam menyelesaikan masalah pengambilan keputusan yang kompleks. Melalui studi kasus simulasi "Deep Traffic", kita dapat memahami bagaimana algoritma Deep Q-Learning dioptimalkan untuk menciptakan agen otonom yang adaptif, aman, dan efisien. Pemahaman mengenai keseimbangan antara eksplorasi dan eksploitasi serta penggunaan Neural Networks sebagai fungsi aproksimasi merupakan kunci utama dalam menguasai bidang kecerdasan buatan modern ini.