Berikut adalah rangkuman komprehensif dan terstruktur dari konten video mengenai pembuatan AI Agent dari nol.

Membongkar "Mesin" AI Agent: Panduan Lengkap Membangun Agen Cerdas dari Nol Tanpa Framework

Inti Sari (Executive Summary)

Video ini membahas proses pembuatan AI Agent dari nol (from scratch) tanpa menggunakan framework siap pakai, bertujuan untuk memahami logika dan mekanisme dasar yang bekerja di balik teknologi tersebut. Pembahasan mencakup perbedaan antara chatbot klasik dengan AI agent modern, alur kerja (workflow) penggunaan tools, serta implementasi kode Python untuk menghubungkan Large Language Model (LLM) dengan fungsi eksternal. Tutorial ini menekankan pentingnya memahami "roda gigi" di balik sistem agar pengembang dapat lebih baik dalam mendesain dan melakukan debugging pada aplikasi produksi.

Poin-Poin Kunci (Key Takeaways)

Definisi AI Agent: AI Agent adalah aplikasi LLM yang memiliki kemampuan untuk mengeksekusi tools (memanggil fungsi, API, atau kueri database), berbeda dengan chatbot klasik yang hanya menjawab berdasarkan pengetahuan statis.
Alur Kerja (Workflow): Proses agent melibatkan "tarian" antara LLM (otak) dan kode aplikasi (tangan), di mana LLM memutuskan tool apa yang digunakan, aplikasi menjalankannya, dan hasilnya dikembalikan ke LLM untuk diformat.
Struktur Kode: Inti dari sebuah agent adalah loop (perulangan) yang terus menerus memeriksa apakah LLM membutuhkan tool atau sudah selesai menjawab.
Pentingnya Skema: Tools didefinisikan sebagai fungsi Python biasa, tetapi memerlukan deskripsi dan skema argumen (biasanya menggunakan JSON dan bantuan library Pydantic) agar LLM mengerti cara menggunakannya.
Boilerplate Code: Kode manual untuk loop agent bersifat repetitif (boilerplate). Dalam lingkungan produksi, disarankan menggunakan framework seperti LangChain atau SmolAgents dari Hugging Face untuk efisiensi.

Rincian Materi (Detailed Breakdown)

1. Evolusi dan Konsep Dasar AI Agent

Video memulai dengan membandingkan evolusi model AI dari tahun 2022 hingga sekarang:
* Model 2022 (Kiri): Bersifat Q&A klasik, sistem tertutup, dan pengetahuan yang "beku" (seperti ensiklopedia statis).
* Model Sekarang (Kanan): Bersifat Agentic, mampu menggunakan tools untuk mengakses informasi real-time, dan bertindak sebagai asisten aktif.
* Analogi: Membangun agent dari nol ibarat membuka bagian belakang jam untuk melihat roda giginya, bukan hanya melihat jarum jamnya. Tujuannya adalah memahami mesinnya, bukan membuat aplikasi produksi langsung.

2. Cetak Biru Alur Kerja (The Workflow)

Mekanisme kerja agent dijelaskan melalui sebuah proses berulang:
1. Pengguna mengajukan pertanyaan.
2. Aplikasi mengirim pertanyaan dan daftar tools ke LLM.
3. LLM memutuskan apakah perlu menggunakan tool (misalnya: cek suhu). Jika ya, LLM mengirim pesan permintaan (tidak menjalankannya langsung).
4. Aplikasi (sebagai "tangan") menjalankan fungsi tersebut dan mendapatkan hasil (misalnya: 72 derajat).
5. Hasil fungsi dikirim kembali ke LLM.
6. LLM menyusun kalimat final yang alami berdasarkan data tersebut untuk pengguna.

3. Persiapan Lingkungan dan Definisi Tools

Setup: Menggunakan library hugging face hub dan inference client. Model yang dipilih harus mendukung function calling atau penggunaan tools.
Pengujian Dasar: Panggilan standar ke LLM akan menghasilkan "tool calls: none" karena hanya menggunakan pengetahuan internalnya.
Tools adalah Fungsi Python: Tools pada dasarnya adalah fungsi Python biasa (seperti API cuaca, query Gmail, atau Kalender).
Skema (Schema): LLM membutuhkan "manual instruksi" dalam format JSON untuk setiap tool, yang berisi nama, deskripsi, dan argumen yang dibutuhkan.
Penggunaan Pydantic: Library Pydantic digunakan untuk menghasilkan JSON Schema secara otomatis dari kode Python, mengurangi risiko kesalahan penulisan manual dan menjaga kode tetap bersih. Deskripsi yang jelas sangat penting agar LLM tahu apa yang harus diisi dalam argumen.

4. Membangun "Mesin" Agent (The Agent Class)

Bagian inti dari kode adalah kelas Agent yang mengatur orkestrasi:
* Logika Loop: Menggunakan perulangan while true.
1. Mengirim riwayat percakapan dan daftar tools ke LLM.
2. Memeriksa respons: Apakah LLM meminta tool?
3. Jika Ya: Jalankan tool, ambil hasilnya, tambahkan ke riwayat percakapan, dan ulangi loop.
4. Jika Tidak: LLM dianggap selesai, ambil teks akhir, dan hentikan loop.

5. Eksekusi dan Demonstrasi Langsung

Video menunjukkan demo agent dengan tool "get temperature":
* Pengguna memberikan prompt.
* LLM memanggil tool dan mem-parsing argumen "San Francisco".
* Fungsi Python dijalankan dan mengembalikan output "72".
* Aplikasi mengirim "72" kembali ke LLM.
* LLM menghasilkan jawaban akhir yang dapat dibaca manusia.

6. Memori Internal dan Struktur Data

Memori Agent: Riwayat percakapan disimpan seperti tabel yang berisi:
1. System Prompt
2. User Message
3. Assistant Tool Call (permintaan fungsi)
4. Tool Message (hasil eksekusi, yaitu 72)
5. Assistant Final Text Answer (jawaban akhir)
Struktur ini memungkinkan LLM mempertahankan konteks langkah demi langkah.

7. Boilerplate Code dan Penggunaan Framework

Boilerplate Code: Struktur kode seperti while loop, if/else, dan manajemen riwayat pesan bersifat repetitif dan membosankan jika ditulis ulang setiap saat.
Solusi Framework: Dalam penggunaan nyata (produksi), disarankan menggunakan framework seperti LangChain atau SmolAgents (dari Hugging Face). Framework ini menangani kode boilerplate sehingga pengembang bisa fokus pada logika bisnis dan tools.

Kesimpulan & Pesan Penutup

Video ini berhasil mendemistifikasi cara kerja AI Agent dengan membangunnya dari nol menggunakan Python. Meskipun kode yang ditulis manual sangat efektif untuk pembelajaran dan memahami dasar-dasar debugging, pengembang disarankan untuk menggunakan framework modern seperti SmolAgents atau LangChain saat membangun aplikasi real-world. Pemahaman tentang loop "berpikir-bertindak" (think-act), pentingnya skema tools, dan manajemen memori adalah fondasi yang kuat bagi siapa saja yang ingin terjun ke pengembangan AI Agent.