Resume
9EEUbjf7Oig • Train LLMs for $5? DeepSeek’s mHC Breakthrough & The Blueberry 88M Project
Updated: 2026-02-12 02:45:08 UTC

Berikut adalah rangkuman komprehensif dan terstruktur dari transkrip yang Anda berikan:


Revolusi Arsitektur LLM: Mengenal Manifold Constrained Hyperconnections (MHC) dan Masa Depan AI Open Source

Inti Sari (Executive Summary)

Video ini membahas misi ambisius Open Super Intelligence Lab untuk menciptakan Large Language Model (LLM) kelas dunia yang sepenuhnya open-source, serta terobosan teknologi arsitektur yang dibutuhkan untuk mewujudkannya. Fokus utama pembahasan adalah evolusi dari Residual Connections menuju Hyperconnections (HC) dan solusi inovatif Manifold Constrained Hyperconnections (MHC) yang dikembangkan oleh tim DeepSeek. Teknologi ini tidak hanya menyelesaikan masalah ketidakstabilan pada skala besar, tetapi juga terbukti meningkatkan kemampuan penalaran model secara signifikan dengan biaya komputasi yang efisien.

Poin-Poin Kunci (Key Takeaways)

  • Misi Demokratisasi AI: Open Super Intelligence Lab bertujuan membangun LLM 10 besar dunia yang open-source untuk mengejar ketertinggalan dari model-model proprietary besar.
  • Evolusi Arsitektur: Perpindahan dari Residual Connections (jalur ekspres tunggal) ke Hyperconnections (jalan raya multi-lane) menawarkan kapasitas yang lebih besar tanpa biaya komputasi yang setara.
  • Masalah Skalabilitas: Hyperconnections tradisional gagal pada model besar (27 miliar parameter) karena "ledakan sinyal" (signal explosion) yang menyebabkan performa runtuh.
  • Solusi MHC: DeepSeek memperkenalkan Manifold Constrained Hyperconnections (MHC) menggunakan doubly stochastic matrix untuk menstabilkan aliran sinyal.
  • Efisiensi Teknik: Melalui optimasi tingkat rendah seperti kernel fusion, arsitektur kompleks ini hanya menambah 6,7% waktu pelatihan.
  • Peningkatan Kecerdasan: MHC terbukti melampaui desain standar, terutama pada tugas penalaran kompleks dan pemahaman bacaan yang sulit.

Rincian Materi (Detailed Breakdown)

1. Misi dan Tantangan Open Super Intelligence Lab

Open Super Intelligence Lab memiliki tujuan radikal: membangun LLM yang masuk jajaran 10 besar dunia dan membuatnya sepenuhnya open-source. Untuk mengejar ketertinggalan dari raksasa teknologi dan mencapai target ini pada akhir 2027, lab ini menyadari bahwa peningkatan biasa tidak cukup. Mereka membutuhkan keunggulan fundamental melalui teknologi baru yang radikal, mengubah cara model dibangun dari dasar.

2. Dasar Arsitektur: Residual Connections vs. Hyperconnections

  • Residual Connections (Jalur Ekspres): Ini adalah plumbing dasar dari model modern. Data masuk ke lapisan pemrosesan, tetapi salinan data dibawa melalui "jalur ekspres" di sekelilingnya. Di akhir, data yang diproses dan data asli ditambahkan. Ini berfungsi sebagai jaring pengaman; jika sebuah lapisan tidak belajar apa-apa, model tidak menjadi lebih bodoh. Ini memungkinkan penggunaan ratusan lapisan.
  • Hyperconnections (HC) - Jalan Raya Multi-Lane: Diperkenalkan oleh peneliti Bite Dance (2025), HC mengubah pendekatan dari satu jalur menjadi jalan raya multi-lane. Data diperluas menjadi beberapa aliran paralel (stream) yang mengkhususkan diri pada tugas berbeda (seperti tata bahasa, konteks, atau matematika). Sebelum bagian komputasi mahal (seperti attention), aliran ini dipadukan menjadi satu menggunakan fungsi cerdas, melakukan pemrosesan berat, lalu diperluas kembali. Manfaatnya adalah kapasitas 4 jalur dengan biaya komputasi 1 jalur.

3. Kegagalan Hyperconnections pada Skala Besar

Meskipun menjanjikan, HC memiliki kelemahan fatal pada skala masif. Pada model dengan 27 miliar parameter, model belajar sangat cepat di awal, tetapi sekitar langkah ke-12.000, loss melonjak dan performa runtuh. Masalahnya adalah hilangnya "jaring pengaman". Pencampuran yang tidak terkendali memperkuat sinyal dari lapisan ke lapisan. Gain sinyal yang seharusnya 1 melonjak menjadi 3.000, yang berubah menjadi noise atau statis, sehingga menghancurkan pembelajaran model.

4. Solusi Inovatif: Manifold Constrained Hyperconnections (MHC)

DeepSeek AI memperkenalkan solusi yang disebut Manifold Constrained Hyperconnections (MHC). Mereka menambahkan "pengontrol lalu lintas" berupa doubly stochastic matrix (matriks stokastik ganda). Ini adalah kisi angka di mana jumlah baris dan kolom selalu sama dengan satu. Hal ini menjamin bahwa energi sinyal didistribusikan ulang, bukan diciptakan atau dimusnahkan, sehingga menyelesaikan masalah ledakan sinyal.

Mereka menggunakan algoritma "Synhorn KOP" (Sinkhorn-Knopp) dari tahun 1960-an. Algoritma ini memaksa baris untuk berjumlah 1, lalu kolom untuk berjumlah 1, dan diulang secara berurutan. Secara matematis, ini dijamin akan menetap pada matriks stokastik ganda yang sempurna, memberikan stabilitas yang dibutuhkan.

5. Keajaiban Rekayasa dan Efisiensi

Arsitektur baru ini sangat kompleks dan berpotensi memperlambat pelatihan hingga titik yang tidak praktis. Namun, tim DeepSeek bukan hanya ahli teori brilian, tetapi juga insinyur kelas dunia. Mereka menyerang masalah ini dengan optimasi tingkat rendah, seperti:
* Kernel Fusion: Mengurangi perjalanan memori.
* **Recomputing Values

Prev Next