Over 10 years we help companies reach their financial and branding goals. Engitech is a values-driven technology agency dedicated.

Gallery

Contacts

411 University St, Seattle, USA

engitech@oceanthemes.net

+1 -800-456-478-23

Development Technology

Lý do những chatbot và trợ lý ảo AI bị “loạn ngôn”


Susan Verberne, giáo sư đại học Leiden, chuyên trách thuật toán xử lý ngôn ngữ tự nhiên: “Mô hình ngôn ngữ lớn tạo sinh ngôn ngữ dựa trên nguồn thông tin mà nó được học, nhưng ngôn ngữ mượt thì không đồng nghĩa với thông tin sẽ chính xác.”


Keyword-Hero---2096x1182.png


Chủ đề tìm kiếm càng cụ thể, khả năng xuất hiện thông tin sai lệch sẽ càng cao trong kết quả tổng hợp của LLM. Vấn đề này có thể tạo ra những hậu quả xấu trong nhiều ngành như y khoa, giáo dục và khoa học.

Theo người phát ngôn của Google, trong nhiều trượng hợp, AI Overviews đưa ra thông tin sai lệch vì không có đủ thông tin hữu ích trên mạng internet để trả lời câu lệnh tìm kiếm của người dùng, hoặc câu lệnh quá gần với những bài viết mỉa mai châm biếm và hài hước. Cũng theo đó, hầu hết những câu lệnh AI Overviews vận hành đều trả kết quả chất lượng cao, và những câu trả lời sai lệch đều là kết quả của những từ khóa tìm kiếm kỳ quặc.

Theo Google, tỷ lệ AI Overviews đưa ra kết quả có hại, sai lệch hay không chấp nhận được là 1:7.000.000.

Lý do không chỉ đến từ dữ liệu huấn luyện AI


Dù rằng cái ví dụ “đổ keo lên pizza” là ví dụ được đề cập nhiều nhất khi nói đến vấn đề AI Overviews vẫn mắc tình trạng “loạn ngôn”, công cụ tìm kiếm lọc những thông tin từ những nguồn không đảm bảo chính xác. Thế nhưng vẫn có khả năng AI tổng hợp những nguồn đáng tin cậy mà vẫn tạo ra thông tin sai.

Nhà nghiên cứu Melanie Mitchell của viện nghiên cứu Santa Fe Institute, New Mexico, Mỹ đã thử Google cụm từ khóa “Mỹ có bao nhiêu tổng thống theo đạo Hồi”. AI Overviews trả lời: “Nước Mỹ có một tổng thống theo đạo Hồi, đó là Barack Hussein Obama.”


image-18.png


Ông Barack Obama không theo đạo Hồi, tức là thông tin của AI Overviews sai. Nhưng nguồn mà nó viện dẫn là một cuốn sách nội dung nghiên cứu hàn lâm có tiêu đề “Barack Hussein Obama: Tổng thống đạo Hồi đầu tiên của nước Mỹ?”

Hệ thống AI trong trường hợp này không chỉ hiểu sai toàn bộ nội dung cuốn cách, mà còn đưa ra thông tin trái ngược hoàn toàn so với nội dung nghiên cứu. Cô Mitchell cho biết: “Có vài vấn đề với AI ở đây. Tìm ra nguồn thông tin có giá trị và không phải nội dung châm biến là một. Nhưng vấn đề quan trọng hơn là AI phải diễn giải và tóm tắt chính xác nguồn thông tin nó tổng hợp được. Đó là thứ mà AI hiện giờ vẫn gặp khó khăn trong vận hành, ngay cả khi tìm ra nguồn thông tin chính xác, thì AI vẫn có thể tạo ra lỗi.”

Có giải quyết được tình trạng này?


Khẳng định quan trọng nhất ở đây là, AI hiện giờ hoàn toàn không đáng tin cậy 100%. LLM còn sử dụng kỹ thuật tạo sinh nhờ xác suất, để tạo những chuỗi từ và văn bản, thì “loạn ngôn” sẽ luôn là một nguy cơ đối với quá trình tìm kiếm thông tin. Dù Google có tinh chỉnh và nâng cấp Gemini vận hành AI Overviews đến đâu đi chăng nữa, thì cũng không thể chắc chắn đảm bảo thông tin mà công cụ này tổng hợp sẽ chính xác và đáng tin cậy 100%.

Google cho biết họ đang thêm những giới hạn được kích hoạt khi người dùng tìm kiếm những câu lệnh nơi AI Overviews không có khả năng tạo câu trả lời hữu ích. Bên cạnh đó là những hàng rào bảo vệ người dùng và lọc thông tin đối với những câu lệnh liên quan tới sức khỏe hay y học.


657b46310473c59aeafde0b6-image2.webp


Cùng với đó, Google cũng có thể tạo ra những bước cải tiến kỹ thuật RAG, để đánh dấu những câu lệnh tìm kiếm có nguy cơ, hệ thống từ chối trả kết quả tìm kiếm nếu không đảm bảo thông tin chính xác.

Rồi những kỹ thuật khác như cải thiện khả năng tự học của mô hình AI dựa trên phản hồi của người dùng, kết hợp những phản hồi ấy vào quá trình huấn luyện LLM cũng sẽ cải thiện được chất lượng câu trả lời mỗi khi tìm kiếm thông tin.

Tương tự như vậy, LLM có thể được huấn luyện chuyên biệt chỉ cho tác vụ xác định câu hỏi liệu có thể được trả lời một cách hiệu quả hay không. LLM khi ấy sẽ phải xác định chất lượng nguồn thông tin một cách cẩn trọng, trước khi tạo sinh nội dung cho người dùng.

Theo MIT Technology Review





Source link

Author

MQ

Leave a comment

Your email address will not be published. Required fields are marked *