Bỏ tính toán nhân ma trận trong mô hình ngôn ngữ, AI sau này sẽ rẻ hơn?
Để đánh giá cách tiếp cận “bỏ nhân ma trận” của họ, các nhà nghiên cứu đã so sánh mô hình ngôn ngữ MatMul-free với một phiên bản dựa trên nền Llama-2 với ba kích thước, 370 triệu, 1.3 tỷ và 2.7 tỷ tham số. Tất cả những mô hình được thử nghiệm đều được huấn luyện thông qua cùng một bộ dữ liệu. Những mô hình kích thước tham số lớn thì được huấn luyện dựa trên 100 tỷ token dữ liệu văn bản.
Kết quả là các nhà nghiên cứu đưa ra khẳng định trong báo cáo, rằng mô hình ngôn ngữ MatMul-free giảm đáng kể bộ nhớ sử dụng. Cách tối ưu vận hành mô hình ngôn ngữ trên GPU của họ khiến quá trình vận hành giải phóng được tới 61% bộ nhớ trong quá trình huấn luyện, so sánh với trước khi tối ưu.
Ở khía cạnh công bằng hơn, so sánh với Llama 2 với 2.7 tỷ tham số vẫn còn đặt kỹ thuật loại bỏ nhân ma trận của các nhà khoa học Mỹ đứng sau rất xa so với những mô hình ngôn ngữ mới nhất trên thị trường hiện tại. GPT-4 vận hành ở ngưỡng trên 1 nghìn tỷ tham số. GPT-3 cũng vận hành ở ngưỡng 175 tỷ tham số từ tận năm 2020. Nhưng ở khía cạnh khác, cũng có rất nhiều các nhà nghiên cứu khác đang tìm ra những cách tối ưu LLM để chúng vận hành hiệu quả hơn ở ngưỡng tham số ít hơn, tức là tiết kiệm chi phí vận hành và chi phí phần cứng máy chủ.
Các nhà nghiên cứu cho biết, với hiệu năng và tiêu thụ điện năng như thế này, thì ở cùng tham số và cùng mức tiêu thụ điện năng, những mô hình vận hành dựa trên kỹ thuật không nhân ma trận có khi còn mạnh hơn và thông minh hơn những mô hình ngôn ngữ hiện tại, nếu vận hành chúng ở quy mô data center.
Dự báo của các nhà khoa học, là cách vận hành LLM họ mới sáng tạo ra, ở quy mô sức mạnh xử lý phần cứng ngưỡng 10^23 flops, tức là 100 nghìn exaflop, MatMul-free sẽ mạnh hơn LLM truyền thống hiện tại đang vận hành. Con số này tương đương với tổng hiệu năng điện toán cần thiết để huấn luyện những mô hình ngôn ngữ như Llama-3 8 tỷ tham số, hoặc Llama-2 70 tỷ tham số.
Tuy nhiên, các nhà nghiên cứu cũng thừa nhận giải pháp của họ cũng có giới hạn. Vì lý do giới hạn công nghệ, kỹ thuật xử lý mô hình ngôn ngữ không có nhân ma trận của họ chưa được thử nghiệm trên mô hình quy mô lớn, từ 100 tỷ tham số trở lên. Kết quả là, họ đang kêu gọi các tổ chức và các nhà nghiên cứu khác cùng các nhà đầu tư chung tay giúp sức để hoàn thiện kỹ thuật mới này.
Theo ArsTechnica