Dec 18, 2024

Google Veo 2 and Imagen 3

Veo 2 dẫn dắt xu thế sáng tạo video 4k

OpenAI công bố Sora thì Google cũng không chịu thua khi họ vừa giới thiệu Veo 2 và Imagen 3, hai mô hình AI tạo video và hình ảnh mới nhất của Google, cải thiện rất nhiều thứ so với phiên bản trước. Mô hình Veo 2 là một sự nâng cấp đáng kể trong công nghệ tạo video, được thiết kế để tạo ra những video chất lượng cao, chân thực và sáng tạo hơn. Còn với Imagen 3 là mô hình được cập nhật, mang đến những cải tiến đáng kể về chất lượng, độ chi tiết và khả năng sáng tạo.

Những điểm mới về mô hình Veo 2

Chất lượng và độ phân giải vượt trội: Veo 2 đánh dấu bước tiến về chất lượng video và độ phân giải so với phiên bản trước. Mô hình này tạo được video độ phân giải 4K, sắc nét và sống động hơn hẳn giới hạn 1080p của Veo. Nhờ vậy, Veo 2 tái tạo hình ảnh chân thực, chi tiết và mang đến trải nghiệm thị giác tốt hơn.

Hiểu ngôn ngữ điện ảnh chuyên sâu

Dù cả hai phiên bản đều hiểu được thuật ngữ điện ảnh cơ bản, Veo 2 được huấn luyện với kho dữ liệu lớn hơn và kiến thức chuyên sâu hơn về điện ảnh. Điều này giúp nó phân tích và diễn giải ngôn ngữ điện ảnh chính xác hơn.

Người dùng có thể tạo video mang phong cách điện ảnh chuyên nghiệp với nhiều kỹ thuật phức tạp về góc quay, chuyển động máy quay, ánh sáng và âm thanh.

Tính chân thực: Veo 2 có những cải tiến quan trọng trong việc tái tạo chuyển động, biểu cảm và vật lý. Chuyển động của con người, động vật và vật thể trong video trở nên mượt mà và tự nhiên hơn, phản ánh chính xác sự tương tác với môi trường. Đặc biệt, Veo 2 giảm thiểu được hiện tượng "ảo giác" - một vấn đề phổ biến ở các mô hình trước - bằng cách loại bỏ chi tiết không mong muốn và đảm bảo tính nhất quán.

Những cập nhật mới về mô hình Imagen 3

Chất lượng hình ảnh tốt hơn nữa: Google đã nâng cao chất lượng hình ảnh của Imagen 3, giúp mô hình tạo ra những hình ảnh sáng hơn, có bố cục hài hòa, chi tiết phong phú hơn. Nhờ vậy, hình ảnh từ Imagen 3 có màu sắc sống động và chân thực, mang đến trải nghiệm thị giác tốt hơn.

Đa dạng phong cách nghệ thuật và tăng độ chính xác: Imagen 3 được cải tiến để tái tạo nhiều phong cách nghệ thuật với độ chính xác cao hơn phiên bản trước. Từ trường phái hiện thực đến ấn tượng, từ trừu tượng đến anime, mô hình có thể đáp ứng đa dạng nhu cầu sáng tạo. Với khả năng nắm bắt và tái tạo chính xác các phong cách nghệ thuật, Imagen 3 sẽ có sự cạnh tranh tốt hơn với các công cụ đang rất được ưa chuộng hiện nay như MidJourney, Stable Diffusion hay DALL-E của OpenAI.

Bám sát prompt mà người dùng cung cấp: Google đã cải thiện khả năng thực hiện chính xác prompt của Imagen 3, giúp tạo ra hình ảnh đúng với mong muốn người dùng. Mô hình có thể hiểu và diễn giải các yêu cầu phức tạp về chủ đề, bố cục, màu sắc, ánh sáng và phong cách. Người dùng dễ dàng kiểm soát quá trình sáng tạo và tạo ra hình ảnh phản ánh chính xác ý tưởng của mình.

Tích hợp với Gemini để nâng cao khả năng hiểu: Imagen 3 kết hợp với mô hình ngôn ngữ Gemini của Google, tạo nên sự phối hợp hoàn hảo giữa khả năng hiểu ngôn ngữ và tạo hình ảnh. Trong công cụ Whisk (hiện thử nghiệm ở Google Labs), Gemini tạo chú thích chi tiết cho hình ảnh đầu vào, sau đó Imagen 3 dùng chú thích này để tạo hình ảnh mới. Sự kết hợp này giúp Imagen 3 hiểu rõ ý định người dùng và tạo ra hình ảnh phù hợp với ngữ cảnh.

Về Whisk, đây là một thử nghiệm mới của Google trên Google Labs, cho phép người dùng tạo hình ảnh bằng cách sử dụng hình ảnh đầu vào thay vì văn bản (prompt). Bạn có thể kéo và thả hình ảnh cho chủ thể, khung cảnh và phong cách, sau đó kết hợp chúng để tạo ra một thứ gì đó độc đáo riêng. Whisk đang trong giai đoạn thử nghiệm và chỉ có ở thị trường Mỹ.

An toàn và mảo mật cho các mô hình AI của Google

Google áp dụng các biện pháp an toàn cho tất cả các mô hình AI của họ, bao gồm Veo 2 và Imagen 3. Trước tiên, Google tiến hành thử nghiệm kỹ lưỡng để xác định và giảm thiểu rủi ro, đặc biệt là khả năng tạo ra nội dung độc hại hoặc gây hiểu lầm.

Để bảo vệ người dùng, Google triển khai các bộ lọc thông minh nhằm ngăn chặn nội dung không phù hợp như khiêu dâm, bạo lực và phân biệt đối xử. Đội ngũ an toàn chuyên trách của họ liên tục giám sát và đánh giá rủi ro của các mô hình.

Một trong những công nghệ quan trọng khác là SynthID - công cụ nhúng hình mờ kỹ thuật số vào nội dung AI. Điều này giúp xác định nguồn gốc của nội dung và ngăn chặn việc lạm dụng. Tất cả nội dung từ Veo 2 trên VideoFX và Gemini 2.0 Flash đều được tích hợp SynthID.

Ngoài ra, Google còn hợp tác chặt chẽ với cộng đồng sáng tạo và các bên liên quan để thu thập phản hồi, đảm bảo phát triển công nghệ an toàn và có trách nhiệm.

GenAI will be everywhere like Ants. Let's ready to live with them...

Source: Tinhte.vn Google ra mắt Veo 2 và Imagen 3, hai công cụ tạo hình ảnh và video rất mạnh của Google.

Source: Google State-of-the-art video and image generation with Veo 2 and Imagen 3.