AutoTTS adlı yeni bir teknik, büyük dil modellerinin (LLM) akıl yürütme stratejilerinde token kullanımında %69,5 azalma sağladığını iddia ediyor. İsmi açıklanmayan bir ekip tarafından geliştirilen yöntem, LLM'lerin karmaşık akıl yürütmeyi adımlara ayırma sürecindeki temel verimsizliği hedefliyor ve bunu temel model mimarisinde herhangi bir değişiklik yapmadan gerçekleştiriyor.
AutoTTS'in farklı yaklaşımı
AutoTTS, Otomatik Token Kırpma Stratejisi (Automatic Token Truncation Strategy) anlamına geliyor. Bu yaklaşım, LLM'lerin çok adımlı problemleri çözerken oluşturduğu düşünce zinciri (chain-of-thought) dizilerini kısaltıyor. AutoTTS, ayrıntılı ara adımlar üretmek yerine, mantıksal akışı koruyarak gereksiz token'ları kırpıyor. Sonuç: sorgu başına model üzerinden daha az veri gönderilmesi.
%69,5 oranı, çeşitli akıl yürütme kıyaslamaları üzerinde yapılan dahili testlerden geliyor. Ekip, hangi kıyaslamaların kullanıldığını veya tekniğin belirli bir model boyutuna ya da ailesine uygulanıp uygulanmadığını açıklamadı.
Token sayısı neden önemli
Bir LLM tarafından işlenen her token, para ve zaman maliyeti demektir. Ölçekli çıkarım yapan işletmeler için token kullanımındaki küçük bir azalma bile bulut faturalarını ciddi şekilde düşürebilir. Neredeyse %70'lik bir kesinti, hesaplama harcanan dolar başına kabaca üç kat daha fazla çıktı anlamına gelir. Daha kısa diziler aynı donanımda daha hızlı tamamlandığından gecikme süresi de düşer.
Yapay zeka destekli araçlar geliştirenler, token ekonomisinin son derece farkındadır. Akıl yürütme kalitesinden ödün vermeden token yükünü azaltmak büyük bir mühendislik hedefi olmuştur. AutoTTS iddia edildiği gibi çalışıyorsa, şirketlerin LLM hatlarını optimize etme şeklini değiştirebilir.
Geriye kalan sorular
Büyük bilinmeyen ise doğruluk. Veriler yalnızca token azaltma rakamını belirtiyor. Ekip, kısaltılmış düşünce zincirlerinin, tam sürümlerle aynı nihai yanıtları üretip üretmediğini gösteren sonuçları henüz yayınlamadı. Geçmişte düşünce zincirini sıkıştırma girişimleri bazen mantıksal boşluklara veya yanlış sonuçlara yol açmıştı.
Bir diğer açık soru ise genellenebilirlik. AutoTTS, açık ağırlıklı modellerden tescilli modellere kadar farklı model mimarilerinde çalışıyor mu? Ekip, test edilen modeller veya en çok fayda sağlanan akıl yürütme görev türleri hakkında ayrıntı paylaşmadı. Bu veriler olmadan, tekniğe tak-çalıştır bir çözüm demek için henüz çok erken.
Sonuçları tekrarlamak isteyen araştırmacıların tam yöntem bilgisine ihtiyacı olacak. Ekip, bir makale yayınlamayı veya kod yayınlamayı planlayıp planlamadığını ya da ne zaman yapacaklarını belirtmedi. O zamana kadar, %69,5'lik azalma, daha geniş bir doğrulama bekleyen ilginç bir iddia olarak kalıyor.




