Over 10 years we help companies reach their financial and branding goals. Engitech is a values-driven technology agency dedicated.

Gallery

Contacts

411 University St, Seattle, USA

engitech@oceanthemes.net

+1 -800-456-478-23

Development Technology

Hướng dẫn sử dụng model ChatGPT miễn phí ngay trên máy tính mac/win của bạn


Như chúng ta đã biết thì xưa giờ OpenAI họ theo đuối chiến lược đóng, nghĩa là giữ kín mã nguồn và model dù hồi mới thành lập, họ với Elon Musk đặt mục tiêu là thúc đẩy tạo ra mã nguồn mở AI cho mọi người. Tới hiện tại thì trong những bên lớn thì còn mỗi họ với Claude là vẫn đóng mã nguồn. Tuy nhiên khoảng 1 năm trở lại đây, các model mã nguồn mở đã ngày càng trở nên mạnh mẽ hơn bao giờ hết, điển hình là DeepSeek của TQ chấn động hồi đầu năm. Từ đó đến nay, không chỉ model TQ như DeepSeek, Qwen mà cả model phương tây như Llama của Meta, Mistral rồi cả Gemma của Google cũng trở thành những model mã nguồn mở ngày càng mạnh. Và mãi đến ngày hôm nay, OpenAI mới lần đầu tiên trong lịch sử công ty phát hành model mã nguồn mở của họ.

Cụ thể thì 2 model reasoning mà OpenAI hôm nay phát hành là GTP-OSS-120B, 120 tỷ tham số, cần GPU rất mạnh để vận hành và model GPT-OSS-20b, 20 tỷ tham số. Cái 20 tỷ mới là cái chúng ta cần quan tâm bởi nó chạy được trên GPU hay laptop phổ thông, chỉ cần 16GB RAM là chạy được. 2 model này đều phát hành dưới dạng giấy phép Apache 2.0, nghĩa là cho chúng ta tự tải về, triển khai, fine tune và dĩ nhiên là tự kiểm soát dữ liệu, triển khai thương mại mà không bị ràng buộc như Llama của Meta.

Một khi tự host một model, thí dụ như GPT-OSS, chúng ta sẽ đảm bảo mọi data đưa cho model đều được kiểm soát, tuyệt đối riêng tư, không sợ data đi đâu mà chúng ta không biết (thuyết âm mưu là được dùng để train cho model online). Đồng thời chúng ta sẽ xài ChatGPT mà không tốn tiền API hay nộp tiền cho OpenAI. OpenAI hôm nay còn phát hành cả bộ tokenizer gần như là hiệu quả nhất thị trường. Nôm na cho bạn nào lỡ quên thì đây là kỹ thuật bẻ chữ ra thành các đoạn nhỏ hơn và đưa vào model để train / truy vấn. Do tokenizer của OpenAI được phát triển dựa trên ký tự latin nên tiếng Việt của chúng ta chắc chắn được hỗ trợ hiệu quả, không cần phải đi finetune lại bằng tập data tiếng Việt nữa. Cái này thì đi xa quá rồi, nào có dịp mình sẽ share với mọi người về câu chuyện fine tune này nọ nha.





Source link

Author

MQ

Leave a comment

Your email address will not be published. Required fields are marked *