Over 10 years we help companies reach their financial and branding goals. Engitech is a values-driven technology agency dedicated.

Gallery

Contacts

411 University St, Seattle, USA

engitech@oceanthemes.net

+1 -800-456-478-23

Development Technology

Xem MV làm bằng AI của ‘anh Bo’ Đan Trường, làm video bằng AI như thế nào, có khó không?


Chính vì cách vận hành như thế, nên chi tiết của những đoạn clip tạo ra bằng Stable Diffusion không bao giờ đồng nhất, đặc biệt là những chi tiết nhỏ như tóc, chi tiết trên trang phục, hiệu ứng ánh sáng hay những tiểu tiết rất nhỏ trong hình ảnh. Chúng có xu hướng “nhảy nhót” liên tục, chẳng hạn như thế này:

Nhưng mà cái hay của LCM nói riêng và AnimateDiff nói chung, là khả năng kiểm soát chi tiết hình ảnh dựa trên ControlNet:

ControlNet là một gói giải pháp kiểm soát chất lượng và kết quả đầu ra của hình ảnh được tạo ra bằng những mô hình SD. Với công cụ này, anh em có thể ép SD phải làm hình ảnh với bố cục, chi tiết, cử động cơ thể chính xác như những gì anh em muốn. Lấy ví dụ chẳng hạn như anh em có một tấm hình gốc, muốn tái tạo lại để trông hay hơn, lạ hơn, có thể dùng tính năng Canny hoặc SoftEdge. Nếu muốn cử động của nhân vật trong hình SD tạo ra giống hệt như hình mẫu thì sẽ dùng OpenPose. Hoặc muốn tấm hình tạo ra có chiều sâu giống hệt như hình mẫu, thì chọn Depth…


1-XUb9XWj5DuBiZNBsoW3l0g.png


Quay lại với cái MV của anh Bo. Nhìn tấm hình bữa cơm gia đình mà mình screenshot ở trên, có thể đưa ra dự đoán là đoạn clip được tạo ra bằng cách bỏ tấm hình chụp bữa cơm thật vào, rồi dùng ControlNet và AnimateDiff để tạo ra một đoạn clip ngắn chừng 4 đến 5 giây.

Có rất nhiều đoạn cắt cảnh trong MV của anh Bo được làm theo cách tương tự, chẳng hạn như đoạn dưới đây, có thể đã lấy hình chụp một cô gái đi trên con đường làng rồi ghép thêm chi tiết hình ảnh ở nền. Rồi sau đó ê kíp phát hiện ra là cần cái nón, thế là dùng inpainting để ghép thêm vào, hệ quả là cái nón vừa quá to vừa lệch.


Desktop Screenshot 2024.07.07 - 19.11.32.22.jpg


Nhưng với chính cái đoạn cắt cảnh này, mình phải nhấn mạnh một lợi thế của những công cụ tạo sinh video bằng mô hình AI.

Chèn hậu cảnh bằng Stable Diffusion


Anh em để ý cái tiền cảnh và hậu cảnh chẳng ăn nhập gì với nhau. Lý do là, rất có thể hình ảnh chụp cô gái đi trên con đường làng có nền không đẹp, nên đã bị cắt ra, rồi bỏ vào Stable Diffusion để chế thêm “đồng ruộng mênh mông xa tít tắp.” Mỗi tội, SD thì không phân biệt được đồng ruộng vùng đồng bằng miền Tây và ruộng bậc thang ở vùng miền núi Tây Bắc nước mình, thành ra nhiều cảnh trong video vừa lệch về bố cục, vừa có cảm giác lệch về hình ảnh. Một ví dụ khác ở dưới đây. Cảnh chạy xe hơi là thật, còn cây cỏ ruộng đồng rồi cả rặng núi xa xa là AI chế ra.


Desktop Screenshot 2024.07.07 - 19.11.45.27.jpg


Đừng vì đoạn MV này mà bỏ qua lợi thế rất lớn của những công cụ tạo sinh video bằng mô hình AI trong tương lai. Nó có thể tạo ra những đoạn video làm nền hoặc cắt cảnh ngắn rất tốt, tiết kiệm rất nhiều thời gian trong quá trình sản xuất nội dung.

Trùng hợp là hôm giữa tuần vừa rồi, mình có nghịch thử Gen-3 của Runway, tạo ra những đoạn clip cũng chỉ dài từ 5 đến 10 giây, nhưng chất lượng rất khác so với AnimateDiff trên Stable Diffusion, đơn giản vì cách vận hành tạo video của hai giải pháp này khác nhau hoàn toàn. Một công cụ tạo sinh video dựa trên việc hiểu chiều sâu và logic vật lý. Công cụ còn lại chỉ đơn thuần biến hình ảnh tĩnh thành những khung hình ghép lại với nhau thành video động mà thôi:

Vì sao MV xấu?


Mình mạnh dạn đưa ra dự đoán, rằng MV của anh Bo trông hơi buồn cười một chút về mặt hình ảnh, là vì cả hai khía cạnh: Giới hạn khả năng tạo sinh hình ảnh, rồi biến hình ảnh thành video của StableDiffusion, và thứ hai là giới hạn về khả năng điều khiển công cụ AI của ê kíp làm MV.

Đầu tiên và quan trọng nhất, là tổng thể tông màu của đoạn MV. Nhìn những khung hình màu rất rực, đoạn nào cũng xanh lét, rồi hình ảnh không hề chi tiết, dễ nhận ra ê kíp làm MV có vẻ đã quên việc làm hậu kỳ cho MV, cứ có đoạn cắt cảnh anh Bo phiên bản AI ngồi hát hay những cảnh trong kịch bản làm ra bằng công cụ AI là ghép nối lại với nhau thành một cái MV. Những đoạn clip này hoàn toàn có thể được bỏ vào Premiere Pro hay DaVinci Resolve để xử lý hậu kỳ, chỉnh màu sắc, chỉnh LUT để tạo ra chất điện ảnh, nhìn nịnh mắt hơn nhiều so với những khung hình quá rực như thế này.


Desktop Screenshot 2024.07.07 - 19.24.15.76.jpg


Thứ hai là khả năng điều khiển prompt và những công cụ như ControlNet và Inpainting trong giao diện vận hành Stable Diffusion. Nhìn MV có những đoạn hình ảnh vừa không khớp về mặt không gian bố cục, lại vừa không hợp lý về mặt chi tiết, chẳng hạn như những ngôi nhà mái hiên méo mó lệch lạc, rồi từng khối nhà không nối với nhau một cách hợp lý. Riêng cái này hoàn toàn có thể chỉnh sửa kỹ lưỡng bằng công cụ Inpainting, đến khi nào tạo ra sản phẩm hợp lý và ưng mắt thì sử dụng. Stable Diffusion có thể làm tốt hơn thế này rất nhiều, với điều kiện người dùng kiểm soát tốt quy trình workflow tạo sinh hình ảnh và video.


Desktop Screenshot 2024.07.07 - 19.23.58.28.jpg



Desktop Screenshot 2024.07.07 - 19.24.24.33.jpg


Thứ ba, là giới hạn của công nghệ AI tạo sinh video hiện giờ rất khó tạo ra những khung hình đồng nhất về cả không gian, chi tiết lẫn logic. Anh em cứ lên YouTube tìm kiếm từ khóa “AI MV”, kết quả có thể đẹp hơn những gì thể hiện trong MV của anh Bo, nhưng những vấn đề về chi tiết hình ảnh thì giống hệt nhau. Cái này có lẽ phải đợi công nghệ hoàn thiện hơn trong tương lai gần.

Còn ở thời điểm hiện tại, bỏ qua chất lượng hình ảnh của MV, mình phải cảm ơn anh Bo vì đã có một thử nghiệm vui vẻ, để mình có cơ hội chia sẻ về những kỹ thuật làm hình ảnh và video nhờ Stable Diffusion mà không phải ai cũng biết hoặc quan tâm.





Source link

Author

MQ

Leave a comment

Your email address will not be published. Required fields are marked *