En ny teknikk kalt AutoTTS hevder å redusere tokenforbruket med 69,5 % for resonneringsstrategier i store språkmodeller. Metoden, utviklet av et team som ikke er navngitt, retter seg mot den grunnleggende ineffektiviteten i hvordan LLM-er bryter ned kompleks resonnering i trinn – og dette uten å endre den underliggende modellarkitekturen.
Hva AutoTTS gjør annerledes
AutoTTS står for Automatic Token Truncation Strategy (automatisk tokenavkortingsstrategi). Tilnærmingen forkorter resonneringssekvensene (chain-of-thought) som LLM-er genererer når de løser flertrinnsproblemer. I stedet for å produsere ordrike mellomtrinn, beskjærer AutoTTS overflødige tokens mens den logiske flyten bevares. Resultatet: mindre data sendt gjennom modellen per forespørsel.
Tallet 69,5 % kommer fra interne tester på en rekke referansetester for resonnering. Teamet har ikke offentliggjort hvilke eksakte referansetester som ble brukt, eller om teknikken ble anvendt på en bestemt modellstørrelse eller -familie.
Hvorfor tokenantall er viktig
Hver token en LLM prosesserer koster penger og tid. For bedrifter som kjører inferens i stor skala, kan selv en beskjeden reduksjon i tokenforbruk redusere skyskostnadene betydelig. En kutt på nesten 70 % vil innebære omtrent tre ganger mer output per krone brukt på datakraft. Latensen synker også, siden kortere sekvenser fullføres raskere på samme maskinvare.
Utviklere av AI-drevne verktøy er svært bevisste på tokenøkonomi. Å redusere tokenoverhead uten å ofre resonneringskvalitet har vært et viktig ingeniørmål. Hvis AutoTTS fungerer som påstått, kan det endre hvordan selskaper optimaliserer LLM-rørledningene sine.
Gjenværende spørsmål
Den store ukjente faktoren er nøyaktighet. Fakta oppgir kun reduksjonstallet for token. Teamet har ikke offentliggjort resultater som viser om de avkortede resonneringskjedene gir de samme endelige svarene som fullversjonene. Tidligere forsøk på å komprimere chain-of-thought har noen ganger ført til logiske hull eller feil konklusjoner.
Et annet åpent spørsmål er generaliserbarhet. Fungerer AutoTTS på tvers av ulike modellarkitekturer – fra åpne vektmodeller til proprietære? Teamet har ikke delt detaljer om hvilke modeller som er testet eller hvilke typer resonneringsoppgaver som drar størst nytte. Uten disse dataene er det for tidlig å kalle teknikken en plug-and-play-løsning.
Forskere som ønsker å replikere resultatene, trenger fullstendig metodikk. Teamet har ikke indikert når eller om de planlegger å publisere en artikkel eller frigjøre kode. Inntil da forblir reduksjonen på 69,5 % en interessant påstand som venter på bredere validering.




