Apple công khai cách huấn luyện mô hình AI của họ
Thêm vào đó một thiết lập thông minh cân bằng ngữ cảnh cục bộ với sự hiểu biết tổng quan (được gọi là Interleaving Global and Local Attention Layers), kết quả là một mô hình rất module, hiệu quả và có khả năng mở rộng, nhanh hơn và nhẹ nhàng hơn, nhưng vẫn khá thông minh.
Tăng cường hiệu năng xử lý đa ngôn ngữ lên 275%
Một trong những hạn chế lớn nhất của lần triển khai đầu tiên Apple Intelligence là (và vẫn còn) hỗ trợ ngôn ngữ bị giới hạn chủ yếu ở tiếng Anh. Với các mô hình mới này, Apple đã mở rộng hỗ trợ ngôn ngữ, và tài liệu chi tiết các bước họ đã thực hiện để làm điều đó.
Theo tài liệu, Apple đã tăng lượng dữ liệu đa ngôn ngữ được sử dụng trong quá trình huấn luyện từ 8% lên 30%. Điều này bao gồm cả nội dung tự nhiên và tổng hợp.
Apple cũng tăng kích thước của bộ mã hóa (tokenizer) của mình (về cơ bản là vốn từ vựng token của mô hình) lên 50%. Điều này có nghĩa là mô hình hiện tại sẽ hiểu được 150.000 token khác nhau, so với 100.000 trước đây.
Công ty cho biết những thay đổi này đã dẫn đến “những cải tiến đáng kể” về hiệu suất trên các tiêu chuẩn đánh giá đa ngôn ngữ, đặc biệt là sau khi tinh chỉnh bằng học tăng cường (reinforcement learning).
Trong tài liệu, Apple giải thích rằng các đánh giá được thực hiện bằng các lời nhắc do người bản xứ viết (thay vì dịch), và mô hình đã được kiểm tra về cả độ chính xác và mức độ tự nhiên của phản hồi trong ngữ cảnh địa phương. Trên thực tế, tất cả những điều này có nghĩa là các tính năng như Writing Tools có thể sẽ hoạt động đáng tin cậy hơn ở các ngôn ngữ được hỗ trợ.
Dữ liệu huấn luyện của Apple đến từ đâu?
Giống như với các mô hình đầu tiên, phần lớn dữ liệu huấn luyện đến từ việc thu thập thông tin trên web. Tuy nhiên, Apple cho biết trình thu thập dữ liệu Applebot tôn trọng các trang web không cho phép sử dụng crawler robots.txt. Điều này có nghĩa là nếu một trang web không muốn Apple thu thập nội dung của họ, họ có thể nói như vậy và Applebot sẽ bỏ qua nó.
Tuy nhiên, đây là cách Apple nói rằng họ đã lấy dữ liệu cho các mô hình mới của họ:
- Dữ liệu web công khai: Mặc dù Apple không chỉ định số lượng hoặc tỷ lệ, nhưng họ xác nhận rằng phần lớn dữ liệu huấn luyện đến từ việc Applebot thu thập thông tin trên các trang web. Apple đã áp dụng nhiều lớp lọc để loại bỏ nội dung chất lượng thấp, không an toàn hoặc không liên quan, bao gồm cả các trang spam, văn bản nông hoặc có mẫu và định dạng bị hỏng.
- Dữ liệu được cấp phép: Apple không đi sâu vào chi tiết ở đây, nhưng xác nhận rằng một số dữ liệu huấn luyện đã được cấp phép từ các nhà xuất bản. Các báo cáo trước đó cho thấy Apple đang đàm phán với Condé Nast (The New Yorker, Vogue, Wired, v.v.), NBC News và IAC (People Magazine, The Daily Beast và Better Homes and Gardens, v.v.), vì vậy có khả năng một số tài liệu đó đã được đưa vào dữ liệu huấn luyện.
- Dữ liệu tổng hợp: Apple tạo dữ liệu tổng hợp bằng các mô hình nhỏ hơn và quy trình tùy chỉnh, đặc biệt là cho các tác vụ toán học, mã hóa, tinh chỉnh hướng dẫn và ngôn ngữ thị giác. Mặc dù Apple cũng không chỉ định số lượng dữ liệu tập này đại diện bao nhiêu, nhưng nó lưu ý rằng dữ liệu tổng hợp đóng vai trò quan trọng trong các bước huấn luyện chính như tinh chỉnh, học tăng cường và cải thiện hỗ trợ đa ngôn ngữ.
- Dữ liệu hình ảnh: Để hỗ trợ hiểu hình ảnh, Apple đã thu thập hơn 10 tỷ cặp hình ảnh có kèm chú thích, bao gồm cả ảnh chụp màn hình có OCR và ghi chú thủ công. Nó cũng sử dụng các mô hình của riêng mình để tạo thêm các chú thích phong phú hơn. Trước đây, báo cáo cho thấy Apple đã tiến hành đàm phán cấp phép với Shutterstock, vì vậy có thể một số tài liệu từ đó cũng đã được đưa vào dữ liệu huấn luyện.