เทคนิคใหม่ที่เรียกว่า AutoTTS อ้างว่าสามารถลดการใช้โทเค็นลง 69.5% สำหรับกลยุทธ์การให้เหตุผลของโมเดลภาษาขนาดใหญ่ วิธีการนี้พัฒนาโดยทีมงานที่ไม่เปิดเผยชื่อ มุ่งเน้นไปที่ความไม่มีประสิทธิภาพหลักในการที่ LLM แบ่งการให้เหตุผลที่ซับซ้อนออกเป็นขั้นตอนต่างๆ — และทำได้โดยไม่ต้องเปลี่ยนแปลงโครงสร้างโมเดลพื้นฐาน
สิ่งที่ AutoTTS ทำแตกต่าง
AutoTTS ย่อมาจาก Automatic Token Truncation Strategy (กลยุทธ์การตัดโทเค็นอัตโนมัติ) แนวทางนี้จะทำให้ลำดับการคิดแบบลูกโซ่ที่ LLM สร้างขึ้นเมื่อแก้ปัญหาหลายขั้นตอนสั้นลง แทนที่จะสร้างขั้นตอนกลางที่ละเอียดยิบ AutoTTS จะตัดโทเค็นที่ซ้ำซ้อนออกในขณะที่ยังคงการไหลของตรรกะ ผลลัพธ์: ข้อมูลที่ส่งผ่านโมเดลต่อคำถามน้อยลง
ตัวเลข 69.5% มาจากการทดสอบภายในในเกณฑ์มาตรฐานการให้เหตุผลหลายรายการ ทีมงานยังไม่ได้เปิดเผยเกณฑ์มาตรฐานที่แน่นอนหรือว่าเทคนิคนี้ถูกนำไปใช้กับโมเดลขนาดหรือตระกูลใดโดยเฉพาะ
เหตุใดจำนวนโทเค็นจึงสำคัญ
ทุกโทเค็นที่ LLM ประมวลผลมีค่าใช้จ่ายทั้งเงินและเวลา สำหรับธุรกิจที่เรียกใช้งานอนุมานในขนาดใหญ่ การลดการใช้โทเค็นแม้เพียงเล็กน้อยก็สามารถลดค่าใช้จ่ายคลาวด์ลงได้มาก การลดลงเกือบ 70% หมายความว่าจะได้ผลลัพธ์มากกว่าประมาณสามเท่าต่อเงินที่จ่ายไปในการคำนวณ ความหน่วงก็ลดลงเช่นกัน เนื่องจากลำดับที่สั้นกว่าจะทำงานเสร็จเร็วขึ้นบนฮาร์ดแวร์เดียวกัน
นักพัฒนาเครื่องมือที่ขับเคลื่อนด้วย AI ตระหนักดีถึงเศรษฐศาสตร์ของโทเค็น การลดค่าใช้จ่ายโทเค็นโดยไม่เสียคุณภาพการให้เหตุผลเป็นเป้าหมายทางวิศวกรรมที่สำคัญ หาก AutoTTS ทำงานได้ตามที่อ้าง ก็อาจเปลี่ยนวิธีที่บริษัทต่างๆ ปรับแต่งไปป์ไลน์ LLM ของตน
คำถามที่ยังคงอยู่
สิ่งที่ยังไม่รู้คือความแม่นยำ ข้อเท็จจริงระบุเพียงตัวเลขการลดโทเค็น ทีมงานยังไม่ได้เผยแพร่ผลลัพธ์ที่แสดงว่าลำดับการให้เหตุผลที่ถูกตัดทอนนั้นให้คำตอบสุดท้ายเหมือนกับเวอร์ชันเต็มหรือไม่ ความพยายามในอดีตในการบีบอัดการคิดแบบลูกโซ่บางครั้งนำไปสู่ช่องว่างทางตรรกะหรือข้อสรุปที่ผิด
อีกคำถามที่เปิดอยู่คือความสามารถในการนำไปใช้ทั่วไป AutoTTS ทำงานได้กับสถาปัตยกรรมโมเดลที่แตกต่างกันหรือไม่ ตั้งแต่โมเดลน้ำหนักเปิดไปจนถึงโมเดลกรรมสิทธิ์ ทีมงานยังไม่ได้แชร์รายละเอียดเกี่ยวกับโมเดลที่ทดสอบหรือประเภทของงานให้เหตุผลที่ได้รับประโยชน์มากที่สุด หากไม่มีข้อมูลนั้น ก็ยังเร็วเกินไปที่จะเรียกเทคนิคนี้ว่าเป็นโซลูชันแบบ plug-and-play
นักวิจัยที่ต้องการทำซ้ำผลลัพธ์จะต้องมีระเบียบวิธีแบบเต็ม ทีมงานยังไม่ได้ระบุว่าจะเผยแพร่เอกสารหรือโค้ดเมื่อใดหรือหรือไม่ จนกว่าจะถึงตอนนั้น การลดลง 69.5% ยังคงเป็นข้ออ้างที่น่าสนใจที่รอการตรวจสอบในวงกว้าง




