Resume
Gz3UcCENYsg • Steering LLMs: How to Change AI Personality Without Fine-Tuning
Updated: 2026-02-12 02:45:06 UTC

Berikut adalah rangkuman komprehensif dan terstruktur berdasarkan transkrip yang Anda berikan.


Mengendalikan "Pikiran" AI: Teknik Steering LLM dengan Activation Vectors

Inti Sari (Executive Summary)

Video ini membahas teknik alternatif untuk mengubah perilaku Large Language Models (LLM) tanpa menggunakan prompt yang rumit atau proses fine-tuning yang mahal. Teknik yang disebut Activation Steering ini bekerja dengan cara memanipulasi representasi internal model secara langsung selama inferensi, mirip dengan konsep neurostimulasi pada otak manusia. Video ini menjelaskan mekanisme di balik representasi vektor dalam LLM, cara penerapan praktis menggunakan hook pada layer tertentu, serta metode untuk menemukan vektor konsep tertentu.

Poin-Poin Kunci (Key Takeaways)

  • Metode Alternatif: Activation Steering memungkinkan perubahan perilaku AI secara instan tanpa mengubah bobot (weights) model yang sudah dilatih.
  • Analogi Neurosains: Teknik ini serupa dengan neurostimulasi, di mana stimulasi listrik atau magnetik digunakan untuk mendorong bagian otak tertentu tanpa merubah kabel saraf secara permanen.
  • Representasi Linier: Konsep dalam LLM (seperti "cinta", "kebangsawanan", atau "Menara Eiffel") direpresentasikan sebagai arah vektor tertentu dalam ruang matematika berdimensi tinggi.
  • Penerapan Praktis: Perilaku model dapat diubah dengan menambahkan vektor konsep ke dalam aktivasi layer tengah model, di mana koefisien penambah berfungsi seperti tombol volume intensitas.
  • Metode Penemuan Vektor: Vektor konsep dapat ditemukan melalui Contrastive Activation (membandingkan aktivasi teks dengan dan tanpa konsep) atau menggunakan Sparse Autoencoders (SAEs).

Rincian Materi (Detailed Breakdown)

1. Konsep Dasar dan Analogi Neurosains

Biasanya, untuk mengubah kepribadian AI, kita menggunakan prompt yang cerdas atau melakukan fine-tuning yang mahal. Namun, ada cara ketiga: mencapai ke dalam "pikiran" AI saat sedang berpikir.
* Contoh Kasus: Model Llama 3.1 8B yang diminta "Siapa kamu?" akan menjawab standar sebagai asisten AI. Namun, dengan teknik ini, model tersebut dapat dibuat percaya bahwa ia adalah "struktur logam besar" (Menara Eiffel) tanpa fine-tuning atau system prompt.
* Analogi: Mirip dengan neurostimulasi pada manusia, di mana elektroda atau medan magnet digunakan untuk menstimulasi bagian otak (gerakan, emosi, memori) secara on-the-fly tanpa merubah kabel permanen.

2. Cara Kerja Representasi Internal LLM

LLM memproses data melalui berbagai lapisan (layers). Data di dalamnya direpresentasikan sebagai vektor (daftar angka besar) yang merupakan status internal atau "pikiran tersembunyi" model.
* Fenomena Representasi Linier: LLM mempelajari konsep sebagai arah vektor tertentu. Contoh klasik aritmatika vektor: Raja - Pria + Wanita = Ratu. Konsep bersifat logis dan terstruktur.
* Sifat Vektor:
* Arah: Merepresentasikan konsep (misalnya: arah menuju konsep "Menara Eiffel").
* Magnitudo: Merepresentasikan intensitas.
* Lokasi Layer: Layer tengah (middle layers) adalah titik "manis" (sweet spot) di mana pemikiran abstrak terjadi. Layer awal untuk tata bahasa, layer akhir untuk pemformatan.

3. Implementasi Praktis: Cara Mengubah Perilaku

Operasi teknisnya sederhana: ambil vektor aktivasi saat ini dan tambahkan vektor konsep yang diinginkan.
* Koefisien Pengali: Angka pengali (misalnya 1.0, 4.0, 8.0) berfungsi sebagai volume dial untuk mengatur seberapa kuat konsep tersebut dipaksakan.
* Langkah Teknis (Hugging Face):
1. Muat model.
2. Muat vektor steering.
3. Buat "kail" (hook) pada layer tertentu (misalnya layer 15).
4. Saat aktivasi melewati layer ini, hook akan menambahkan vektor steering ke dalamnya.
5. Lanjutkan pembuatan teks secara normal.

4. Hasil dan Demonstrasi

  • Percobaan Ide Bisnis:
    • Model Dasar: Menghasilkan ide E-commerce.
    • Vektor Menara Eiffel (Koefisien 4.0): Ide beralih ke makanan/roti (terkait asosiasi Prancis/Paris).
  • Identitas Diri:
    • Dengan koefisien tinggi (8.0) pada vektor Menara Eiffel, saat ditanya "Siapa kamu?", model menjawab "Saya adalah struktur logam besar" alih-alih mengaku sebagai LLM.

5. Metode Menemukan Vektor (Finding Vectors)

Ada dua cara utama untuk menemukan vektor yang mewakili konsep tertentu:
1. Contrastive Activation:
* Menampilkan teks yang mengandung konsep (positif) dan teks yang tidak (negatif).
* Menghitung selisih rata-rata aktivasi antara keduanya untuk mendapatkan vektor arah konsep tersebut.
2. Sparse Autoencoders (SAEs):
* Mendekomposisi aktivasi menjadi fitur-fitur yang dapat diinterpretasikan, seperti fitur khusus untuk "Jembatan Golden Gate".

6. Kelebihan dan Kekurangan

  • Kelebihan:
    • Tidak memerlukan pelatihan ulang (no training needed).
    • Reversibel (dapat dihilangkan).
    • Kontrol yang presisi.
    • Dapat bekerja pada model apa pun yang bobotnya terbuka (open weights).
  • Kekurangan:
    • Menemukan vektor yang tepat adalah hal yang sulit.
    • Memerlukan akses ke aktivasi internal (hanya bisa pada model open source, bukan API tertutup seperti ChatGPT).
    • Vektor dapat saling berbenturan (context collision) jika terlalu banyak digunakan.
    • Kualitas output dapat menurun jika intensitas vektor terlalu kuat.

Kesimpulan & Pesan Penutup

Teknik Activation Steering membuka jalan baru dalam mengontrol AI dengan cara yang lebih mendalam dibandingkan sekadar prompting, namun lebih fleksibel daripada fine-tuning. Dengan memahami dan memanipulasi "pikiran" vektor model, kita dapat mengarahkan output AI secara presisi. Namun, teknik ini membatasi penggunaan pada model dengan bobot terbuka dan memerlukan pemahaman teknis tentang arsitektur internal Transformer.

Prev Next