Loading market data...

AutoTTS Giảm 69,5% Lượng Token Sử Dụng trong Các Tác Vụ Suy Luận của LLM

AutoTTS Giảm 69,5% Lượng Token Sử Dụng trong Các Tác Vụ Suy Luận của LLM

Một kỹ thuật mới có tên AutoTTS tuyên bố giảm 69,5% lượng token sử dụng cho các chiến lược suy luận của mô hình ngôn ngữ lớn. Phương pháp do một nhóm nghiên cứu không được tiết lộ phát triển, nhắm vào sự kém hiệu quả cốt lõi trong cách các LLM chia nhỏ suy luận phức tạp thành các bước — và thực hiện điều đó mà không cần thay đổi kiến trúc mô hình cơ bản.

Điều khác biệt mà AutoTTS làm

AutoTTS là viết tắt của Automatic Token Truncation Strategy (Chiến lược Cắt giảm Token Tự động). Cách tiếp cận này rút ngắn các chuỗi suy luận theo kiểu chuỗi tư duy (chain-of-thought) mà LLM tạo ra khi giải quyết các bài toán nhiều bước. Thay vì tạo ra các bước trung gian dài dòng, AutoTTS loại bỏ các token dư thừa trong khi vẫn giữ được mạch logic. Kết quả: ít dữ liệu được gửi qua mô hình hơn cho mỗi truy vấn.

Con số 69,5% đến từ các thử nghiệm nội bộ trên nhiều tiêu chuẩn suy luận khác nhau. Nhóm nghiên cứu chưa tiết lộ các tiêu chuẩn chính xác được sử dụng hoặc liệu kỹ thuật này có được áp dụng cho bất kỳ kích thước hoặc dòng mô hình cụ thể nào hay không.

Tại sao số lượng token lại quan trọng

Mỗi token mà LLM xử lý đều tốn chi phí và thời gian. Đối với các doanh nghiệp chạy suy luận (inference) ở quy mô lớn, ngay cả một sự giảm nhỏ trong lượng token sử dụng cũng có thể cắt giảm đáng kể hóa đơn đám mây. Việc cắt giảm gần 70% đồng nghĩa với việc có thể tạo ra sản lượng gấp khoảng ba lần cho mỗi đô la chi cho tính toán. Độ trễ (latency) cũng giảm, vì các chuỗi ngắn hơn hoàn thành nhanh hơn trên cùng một phần cứng.

Các nhà phát triển công cụ hỗ trợ AI rất quan tâm đến kinh tế token. Giảm chi phí token mà không làm giảm chất lượng suy luận từ lâu đã là một mục tiêu kỹ thuật quan trọng. Nếu AutoTTS hoạt động như tuyên bố, nó có thể thay đổi cách các công ty tối ưu hóa đường ống LLM của họ.

Các câu hỏi còn lại

Ẩn số lớn là độ chính xác. Các dữ kiện chỉ đưa ra con số giảm token. Nhóm nghiên cứu chưa công bố kết quả cho thấy liệu các chuỗi suy luận đã bị cắt có tạo ra cùng câu trả lời cuối cùng như các phiên bản đầy đủ hay không. Các nỗ lực trước đây nhằm nén chuỗi tư duy đôi khi dẫn đến các lỗ hổng logic hoặc kết luận sai.

Một câu hỏi mở khác là tính khái quát. AutoTTS có hoạt động trên các kiến trúc mô hình khác nhau — từ mô hình trọng số mở đến mô hình độc quyền không? Nhóm nghiên cứu chưa chia sẻ chi tiết về các mô hình đã thử nghiệm hoặc các loại tác vụ suy luận được hưởng lợi nhiều nhất. Thiếu dữ liệu đó, còn quá sớm để gọi kỹ thuật này là một giải pháp cắm và chạy.

Các nhà nghiên cứu muốn tái tạo kết quả sẽ cần phương pháp luận đầy đủ. Nhóm nghiên cứu chưa cho biết khi nào hoặc liệu họ có kế hoạch công bố một bài báo hoặc phát hành mã nguồn hay không. Cho đến lúc đó, mức giảm 69,5% vẫn là một tuyên bố thú vị đang chờ được xác nhận rộng rãi hơn.