Një teknikë e re e quajtur AutoTTS pretendon një ulje prej 69.5% në përdorimin e tokenave për strategjitë e arsyetimit të modeleve të mëdha gjuhësore. Metoda, e zhvilluar nga një ekip pa emër, synon joefikasitetin thelbësor në mënyrën se si LLM-të zbërthejnë arsyetimin kompleks në hapa — dhe e bën këtë pa asnjë ndryshim në arkitekturën themelore të modelit.
Çfarë bën AutoTTS ndryshe
AutoTTS qëndron për Strategjia e Shkurtimit Automatik të Tokenave. Qasja shkurton sekuencat e arsyetimit në zinxhir mendimi që LLM-të gjenerojnë kur zgjidhin probleme me shumë hapa. Në vend që të prodhojë hapa të ndërmjetëm të gjatë, AutoTTS shkurton tokenat e tepërta duke ruajtur rrjedhën logjike. Rezultati: më pak të dhëna të dërguara përmes modelit për çdo pyetje.
Shifra prej 69.5% vjen nga teste të brendshme në një gamë testesh standarde të arsyetimit. Ekipi nuk ka zbuluar testet e sakta të përdorura apo nëse teknika është aplikuar në ndonjë madhësi ose familje specifike modeli.
Pse numri i tokenave është i rëndësishëm
Çdo token që një LLM përpunon kushton para dhe kohë. Për bizneset që kryejnë inferencë në shkallë të gjerë, edhe një ulje modeste në përdorimin e tokenave mund të ulë ndjeshëm faturat e cloud. Një ulje prej gati 70% do të thotë afërsisht tre herë më shumë prodhim për çdo dollar të shpenzuar për llogaritje. Gjithashtu, vonesa (latency) zvogëlohet, pasi sekuencat më të shkurtra përfundojnë më shpejt në të njëjtën pajisje.
Zhvilluesit e mjeteve të fuqizuara nga AI janë të vetëdijshëm për ekonominë e tokenave. Reduktimi i mbingarkesës së tokenave pa sakrifikuar cilësinë e arsyetimit ka qenë një qëllim kryesor inxhinierik. Nëse AutoTTS funksionon siç pretendohet, mund të ndryshojë mënyrën se si kompanitë optimizojnë tubacionet e tyre LLM.
Pyetje të mbetura
E panjohura e madhe është saktësia. Faktet tregojnë vetëm shifrën e reduktimit të tokenave. Ekipi nuk ka publikuar rezultate që tregojnë nëse zinxhirët e shkurtuar të arsyetimit prodhojnë të njëjtat përgjigje përfundimtare si versionet e plota. Përpjekjet e kaluara për të ngjeshur zinxhirin e mendimit ndonjëherë kanë çuar në boshllëqe logjike ose përfundime të gabuara.
Një pyetje tjetër e hapur është përgjithësueshmëria. A funksionon AutoTTS nëpër arkitektura të ndryshme modelesh — nga modelet me pesha të hapura deri tek ato pronësore? Ekipi nuk ka ndarë detaje mbi modelet e testuara ose llojet e detyrave të arsyetimit që përfitojnë më shumë. Pa ato të dhëna, është shumë herët për ta quajtur teknikën një zgjidhje të gatshme për përdorim.
Studiuesit që duan të përsërisin rezultatet do të kenë nevojë për metodologjinë e plotë. Ekipi nuk ka treguar nëse apo kur planifikon të publikojë një punim ose të lëshojë kod. Deri atëherë, reduktimi prej 69.5% mbetet një pretendim interesant që pret verifikim më të gjerë.




