chúng tôi chưa phát hành model AI tạo giọng nói từ văn bản DALL-E 2 do nó quá giống thật
Chi tiết hơn xíu, VALL-E 2 là một mô hình ngôn ngữ codec neural, một cách tiếp cận deep learning dùng các kỹ thuật mạng neural để mã hóa và giải mã thông tin ngôn ngữ. Tuy nhiên, không giống như VALL-E, VALL-E 2 có thể tổng hợp văn bản thành giọng nói (TTS), sử dụng đầu vào văn bản để tạo giọng nói cho giọng nói mà nó chưa được đào tạo trước đó.
Để làm được chuyện đó, Microsoft đã sử dụng một thư viện đào tạo cực lớn chính là LibriSpeech và VCTK để ánh xạ các đầu vào văn bản thành các đầu ra định dạng file âm thanh tương ứng. Quá trình mapping còn có thể tạo ra các biến thể của một cách phát âm, ngữ điệu, nhịp và nhiều đặc điểm khác của giọng nói.
Sau khi “nghe” một đoạn clip ngắn về bài phát biểu của ai đó và kết hợp với prompt đầu vào bằng văn bản của người dùng, VALL-E 2 sẽ đưa các đặc điểm giọng nói đấy vào để bắt bước giọng nói của mẫu đưa vào và sau đó dùng giọng nói vừa tạo ra để tạo nên một đoạn nói chuyện với nội dung là text đưa vào một cách hoàn chỉnh.
Trước giờ, dù đã có nhiều model tạo giọng nói từ văn bản được giới thiệu nhưng phần lớn vẫn cho cảm giác là máy, kém tự nhiên và dễ nhận thấy là do máy tạo. Tuy nhiên với nghiên cứu mới này của Microsoft thì VALL-E 2 đã có thể tạo ra đoạn nói chuyện mượt mà, tự nhiên, có nhấn nhá và thậm chí biểu đạt được cảm xúc tức thời như con người.
Dù vậy, có ý kiến cho rằng việc đưa cho AI khả năng này đã “phần nào đạt được như con người”, có thể sẽ tạo nên những bất cập hơn là lợi ích. Microsoft nói rằng hiện VALL-E 2 chỉ phục vụ mục đích nghiên cứu và chưa có kế hoạch đưa nó vào sản phẩm hoặc mở rộng việc sử dụng cho cộng đồng.
Đồng thời, nhóm nghiên cứu nói rằng VALL-E 2 có thể phục vụ các nhu cầu đặc biệt như giáo dục hoặc giải trí, trong đó model AI tạo giọng nói sẽ có thể trình bày các bài giảng online, đọc các quyển sách với giọng nói tự nhiên như con người.