یک تکنیک جدید به نام AutoTTS ادعا میکند که مصرف توکن را در استراتژیهای استدلال مدلهای زبانی بزرگ تا 69.5٪ کاهش میدهد. این روش که توسط یک تیم ناشناس توسعه یافته، به ناکارآمدی اصلی در نحوه تجزیه استدلال پیچیده به مراحل توسط LLMها میپردازد — و این کار را بدون هیچ تغییری در معماری زیربنایی مدل انجام میدهد.
تفاوت AutoTTS چیست
AutoTTS مخفف استراتژی برش خودکار توکن است. این رویکرد توالیهای استدلال زنجیرهای تفکر را که LLMها هنگام حل مسائل چندمرحلهای تولید میکنند، کوتاهتر میکند. به جای تولید مراحل میانی پرحرف، AutoTTS توکنهای اضافی را حذف میکند و در عین حال جریان منطقی را حفظ مینماید. نتیجه: دادههای کمتری در هر پرس و جو از طریق مدل ارسال میشود.
رقم 69.5٪ از آزمایشهای داخلی در طیف وسیعی از معیارهای استدلال به دست آمده است. تیم معیارهای دقیق استفاده شده یا اینکه آیا این تکنیک روی اندازه یا خانواده خاصی از مدلها اعمال شده را افشا نکرده است.
چرا تعداد توکن مهم است
هر توکنی که یک LLM پردازش میکند هزینه و زمان دارد. برای کسبوکارهایی که استنتاج را در مقیاس بزرگ اجرا میکنند، حتی یک کاهش متوسط در مصرف توکن میتواند صورتحسابهای ابری را به شدت کاهش دهد. کاهش تقریباً 70٪ به معنای تقریباً سه برابر خروجی بیشتر به ازای هر دلار هزینه محاسباتی است. همچنین تأخیر کاهش مییابد، زیرا توالیهای کوتاهتر روی سختافزار یکسان سریعتر تمام میشوند.
توسعهدهندگان ابزارهای مبتنی بر هوش مصنوعی به خوبی از اقتصاد توکن آگاه هستند. کاهش سربار توکن بدون قربانی کردن کیفیت استدلال یک هدف مهندسی بزرگ بوده است. اگر AutoTTS همانطور که ادعا میشود عمل کند، میتواند نحوه بهینهسازی خطوط لوله LLM توسط شرکتها را تغییر دهد.
سوالات باقیمانده
ناشناخته بزرگ دقت است. حقایق فقط رقم کاهش توکن را بیان میکنند. تیم نتایجی منتشر نکرده است که نشان دهد آیا زنجیرههای استدلال کوتاهشده پاسخهای نهایی یکسانی با نسخههای کامل تولید میکنند یا خیر. تلاشهای قبلی برای فشردهسازی زنجیره تفکر گاهی منجر به شکافهای منطقی یا نتایج اشتباه شده است.
یک سوال باز دیگر قابلیت تعمیم است. آیا AutoTTS در معماریهای مختلف مدل — از مدلهای وزنباز تا مدلهای اختصاصی — کار میکند؟ تیم جزئیاتی در مورد مدلهای آزمایش شده یا انواع وظایف استدلالی که بیشترین بهره را میبرند به اشتراک نگذاشته است. بدون آن دادهها، زود است که این تکنیک را یک راهحل آماده و قابل استفاده بنامیم.
محققانی که میخواهند نتایج را تکرار کنند به روششناسی کامل نیاز دارند. تیم اعلام نکرده است که چه زمانی یا اگر قصد انتشار مقاله یا انتشار کد را دارند. تا آن زمان، کاهش 69.5٪ یک ادعای جالب است که منتظر تأیید گستردهتری میباشد.




