Sebuah teknik baru bernama AutoTTS diklaim mampu mengurangi penggunaan token hingga 69,5% dalam strategi penalaran model bahasa besar. Metode yang dikembangkan oleh tim yang tidak disebutkan namanya ini menargetkan inefisiensi inti dalam cara LLM memecah penalaran kompleks menjadi langkah-langkah — dan dilakukan tanpa mengubah arsitektur model yang mendasarinya.
Apa yang dilakukan AutoTTS secara berbeda
AutoTTS adalah singkatan dari Automatic Token Truncation Strategy (Strategi Pemotongan Token Otomatis). Pendekatan ini memperpendek urutan penalaran rantai pemikiran yang dihasilkan LLM saat memecahkan masalah multi-langkah. Alih-alih menghasilkan langkah-langkah antara yang bertele-tele, AutoTTS memangkas token yang redundan sambil mempertahankan alur logis. Hasilnya: lebih sedikit data yang dikirim melalui model per kueri.
Angka 69,5% berasal dari pengujian internal di berbagai tolok ukur penalaran. Tim belum mengungkapkan tolok ukur pasti yang digunakan atau apakah teknik tersebut diterapkan pada ukuran atau keluarga model tertentu.
Mengapa jumlah token penting
Setiap token yang diproses LLM membutuhkan biaya dan waktu. Bagi bisnis yang menjalankan inferensi dalam skala besar, bahkan pengurangan kecil dalam penggunaan token dapat memangkas tagihan cloud. Pemangkasan hampir 70% berarti kira-kira tiga kali lebih banyak output per dolar yang dihabiskan untuk komputasi. Latensi juga menurun, karena urutan yang lebih pendek selesai lebih cepat pada perangkat keras yang sama.
Pengembang alat bertenaga AI sangat sadar akan ekonomi token. Mengurangi overhead token tanpa mengorbankan kualitas penalaran telah menjadi tujuan rekayasa utama. Jika AutoTTS bekerja seperti yang diklaim, hal ini dapat mengubah cara perusahaan mengoptimalkan jalur pemrosesan LLM mereka.
Pertanyaan yang tersisa
Ketidakpastian besar adalah akurasi. Fakta hanya menyebutkan angka pengurangan token. Tim belum merilis hasil yang menunjukkan apakah rantai penalaran yang dipotong menghasilkan jawaban akhir yang sama dengan versi lengkapnya. Upaya sebelumnya untuk mengompresi rantai pemikiran terkadang menyebabkan celah logis atau kesimpulan yang salah.
Pertanyaan lain yang terbuka adalah kemampuan generalisasi. Apakah AutoTTS bekerja di berbagai arsitektur model — dari model berbobot terbuka hingga model kepemilikan? Tim belum membagikan detail tentang model yang diuji atau jenis tugas penalaran yang paling diuntungkan. Tanpa data tersebut, masih terlalu dini untuk menyebut teknik ini sebagai solusi plug-and-play.
Peneliti yang ingin mereplikasi hasil akan membutuhkan metodologi lengkap. Tim belum mengindikasikan kapan atau apakah mereka berencana menerbitkan makalah atau merilis kode. Sampai saat itu, pengurangan 69,5% tetap merupakan klaim menarik yang menunggu validasi yang lebih luas.




