Over 10 years we help companies reach their financial and branding goals. Engitech is a values-driven technology agency dedicated.

Gallery

Contacts

411 University St, Seattle, USA

engitech@oceanthemes.net

+1 -800-456-478-23

Development Technology

yêu cầu, các công cụ và những bước cơ bản


Dưới góc độ kỹ thuật tạo ảnh / video bằng AI thì sau khi xem video của anh ca sĩ, chúng ta có thể thấy được những đặc điểm sau:

  • Nhân vật nam chính trong video được lấy từ hình ảnh thật ngoài đời của Duy Mạnh. Hầu hết các cảnh có nhân vật chính xuất hiện đều cho hình ảnh rất giống với người thật ngoài đời. Các đặc điểm như kiểu tóc, hình xăm trên cổ cũng được nhóm làm video cố tái tạo lại cho giống ngoài đời.
  • Nhân vật nữ cũng có nét trên gương rất giống hình ảnh của Duy Mạnh.
  • Có sự sai khác về gương mặt của nam ca sĩ trong MV giữa các cảnh (Scene). Tuy nhiên, ở từng scene, gương mặt của nam ca sĩ vẫn giữ lại được đường nét chính cùng các đặc điểm nhận diện.
  • Chất liệu bộ quần áo đặc biệt của nhân vật nữ được giữ cố định qua các cảnh quay.
  • Các cảnh quay nam ca sĩ hát: cử động nhép miệng theo tiếng nhạc tương đối khớp. Mình dùng từ tương đối ở đây là vì vẫn chưa thực sự đồng bộ tuyệt đối giữa lời bài hát và chuyển động miệng của ca sĩ. Tuy nhiên, tốc độ khẩu hình miệng đóng mở cùng các thao tác biểu cảm của gương mặt, biểu diễn hình thể như đưa tay lên,… đang được làm tương đối tự nhiên và mô phỏng lại khá chính xác cách biểu diễn của ca sĩ ngoài đời thật. Đây là điều rất khó có thể làm được ở thời điểm hiện tại với các công cụ GenAI đại chúng. Bởi thế, điều mà MV làm được ở khía cạnh này đã có thể tính là đã khai thác rất tốt, có sự chuẩn bị nhất định.
  • Video có cả những chi tiết như tên biển hiệu cửa hàng, thương hiệu đồng hồ hay logo quả táo tào, tất cả đều được thể hiện tốt.
  • Bối cảnh và không gian môi trường trong video cũng được làm tốt.
  • Tổng thể 70% hình ảnh trong toàn video dài hơn 4 phút đều ổn, nhưng nếu soi vào chi tiết cảu từng khung hình thì tất nhiên vẫn sẽ có các lỗi thường gặp của nội dung visual do GenAI tạo ra như lỗi text, đặc biệt là text nhỏ, các chi tiết của từng vật thể, chất liệu bề mặt vật liệu bị nhảy qua mỗi frame hình chuyển động,… Dù vậy thì tổng thể là ổn.


Trên đây là những quan sát của mình về video ở giác độ kỹ thuật GenAI hiện tại. Dựa trên những điểm ngon và chưa ngon đó, chúng ta sẽ thử tìm các công cụ, hình thành nên workdflow với khả năng làm được video tương tự như vậy.

Các yêu cầu tạo video tương tự


Từ các đặc điểm đã phân tích ở trên, chúng ta có thể tóm gọn lại các yêu cầu trong video cần có là:

  • Video có thời lượng dài theo ý muốn người dùng.
  • Video có hình ảnh chuyển động của con người và kèm theo lời bài khác.
  • Một số đoạn cần lời bài hát đồng bộ ở mức tương đối với chuyển động miệng của ca sĩ.
  • Gương mặt của ca sĩ và diễn viên chính trong từng cảnh quay phái nhất quán với nhau nhất có thể.
  • Đặc điểm nhận dạng của ca sĩ và diễn viên do người dùng đưa vào từ một ảnh người thật mà người dùng muốn.


Hiện tại, có rất nhiều công cụ, rất nhiều cách làm để tạo ra một video theo yêu cầu bên trên, tạo offline hoàn toàn bằng tools chạy local cũng được nhưng đòi hỏi phải setup và phức tạp hơn, đổi lại là kiểm soát được mọi thứ bạn muốn. Các công cụ online thì vô số và rất nhiều cái làm được chuyện đó. Nhưng dù công cụ nào thì với nhu cầu bên trên, không có 1 công cụ duy nhất đáp ứng được mà phải kết hợp nhiều tools AI, mỗi tools làm một giai đoạn thì mới có video theo yêu cầu. (mình tạm gọi là xài nhiều con AI như các bạn hay nói trên mạng á).

Bên dưới đây là một workflow mà mình nghĩ là đơn giản nhất có khả năng tạo ra video theo yêu cầu trên.

Các bước chính tạo video như MV trên


Screenshot 2025-06-05 at 3.30.05 PM.png


Đầu tiên, mình sẽ gợi ý ngắn gọn các bước để làm video nói trên, sau đó giải thích từng bước. Cũng nói thêm rằng với đặc điểm video bên trên của anh ca sĩ Duy Mạnh thì cần chuẩn bị phần hình (video) và phần âm thanh (audio) riêng, sau đó làm thêm 1 bước edit bằng các phần mềm dựng video truyền thống. Nguyên nhân là chúng ta không đòi hỏi cử động miệng được sync tuyệt đối với lời bài hát phát ra, do đó không cần làm bước hết sức phức tạp này.





Source link

Author

MQ

Leave a comment

Your email address will not be published. Required fields are marked *