گوگل می‌کوشد تا فرایند تولید ویدیوهای سینمایی و ویرایش فیلم‌های واقعی را با اعمال جهت دوربین، برای کاربران هوش مصنوعی ویدیویی Veo 2 آسان‌تر کند. قابلیت‌های جدید Veo 2 از طریق پلتفرم Vertex AI گوگل کلاد، به همراه به‌روزرسانی‌‌های جدید هوش مصنوعی متن به تصویر Imagen 3 در دسترس قرار گرفته‌اند.

هوش مصنوعی Veo 2 گوگل می‌تواند جهت دوربین را تنظیم کند

از ویژگی‌های جدید Veo 2 می‌توان به inpainting اشاره کرد که قادر است به‌طور خودکار پس‌زمینه‌های ناخواسته، علایم یا عناصر مزاحم را از ویدیوهای شما حذف کند. همچنین، قابلیت دیگری به نام outpainting، کادر اصلی ویدیو را به فرمتی دیگر بسط می‌دهد. این قابلیت همانند ویژگی Generative Expand ادوبی، فضای جدید را با فیلم تولیدشده توسط هوش مصنوعی پر کرده و سپس آن را با کلیپ اصلی ادغام می‌کند.

به‌روزرسانی جدید، همچنین به کاربران Veo 2 اجازه می‌دهد تا هنگام تولید فیلم، تنظیمات پیش‌فرض تکنیک‌های سینمایی را در کنار توضیحات متنی خود انتخاب کنند. این کار می‌تواند در ترکیب‌بندی نما، زوایای دوربین و سرعت آن مؤثر واقع شود. این تنظیمات شامل افکت‌های تایم‌لپس، نمای اول شخص به سبک پهپاد و شبیه‌سازی حرکت افقی دوربین در جهات گوناگون است.

هوش مصنوعی Veo 2 گوگل اکنون می‌تواند جهت دوربین را اعمال کند

علاوه بر این، یک ویژگی برای درون‌یابی تصاویر گنجانده شده که این امکان را می‌دهد تا یک انتقال یکپارچه بین دو عکس ثابت ایجاد شود و همچنین سکانس‌های ابتدایی و انتهایی ویدیو را با فریم‌های جدید پر کنید.

هوش مصنوعی Firefly ادوبی نیز قابلیت‌های مشابهی را ارائه می‌دهد. هفته‌ی گذشته، یک قابلیت برای گسترش ویدیوهای تولیدشده در پریمیر پرو عرضه شد. گوگل نیز، مشابه سیستم Content Credentials ادوبی، واترمارک‌های SynthID را به محتوای تولیدشده توسط هوش مصنوعی خود می‌افزاید. با این حال، ادوبی یک قدم فراتر گذاشته و تضمین می‌کند که ابزارهایش به دلیل آموزش روی محتوای عمومی و دارای مجوز، از نظر تجاری کاملاً امن هستند.

قابلیت‌های ویرایش در مدل Imagen 3 گوگل نیز به منظور بهبود چشمگیر حذف خودکار اشیاء ارتقا یافته است و هنگام حذف عناصر ناخواسته، نتایج به مراتب طبیعی‌تری ارائه می‌دهد. در حال حاضر، هر دو مدل Veo 2 و Imagen 3 توسط شرکت‌هایی مانند لورئال و کرافت هاینز برای تولید محتوای بازاریابی به کار گرفته می‌شوند. جاستین توماس، مسئول ارشد تجربه‌ی دیجیتال کرافت هاینز، در این باره می‌گوید «کارهایی که پیش از این هشت هفته زمان می‌برد، اکنون تنها در عرض هشت ساعت به انجام می‌رسد.»

جهت دوربین Veo 2

در بخش صوتی، گوگل از مدل تبدیل متن به موسیقی Lyria، در قالب یک نسخه آزمایشی خصوصی رونمایی کرد. علاوه بر این، قابلیت Instant Custom Voice برای هوش مصنوعی تولید صدای Chirp 3 معرفی شده است. به گفته گوگل، Chirp 3 اکنون این توانایی را دارد که صداهای واقع‌گرایانه و منحصربه‌فرد را تنها با ده ثانیه داده صوتی اولیه تولید کند. همچنین، یک ویژگی جدید برای تبدیل گفتار به نوشتار در مرحله پیش‌نمایش قرار گرفته که قادر است گویندگان مختلف را تشخیص داده و از یکدیگر تمیز دهد تا متن‌های دقیق‌تری از گفتگوهای چند نفره ارائه کند.

همه این قابلیت‌ها، صرفاً بخشی از اطلاعیه‌های امروز گوگل در زمینه هوش مصنوعی است. مدل Gemini 2.5 Flash قرار است به زودی از طریق Vertex AI قابل استفاده شود. گوگل گفته که Gemini 2.5 Flash به صورت خودکار، مدت زمان پردازش را متناسب با میزان دشواری وظیفه تنظیم می‌کند و از این رو، پاسخ‌های سریع‌تری را برای درخواست‌های ساده‌تر ارائه می‌دهد.

source
کلاس یوس

توسط petese.ir