گوگل میکوشد تا فرایند تولید ویدیوهای سینمایی و ویرایش فیلمهای واقعی را با اعمال جهت دوربین، برای کاربران هوش مصنوعی ویدیویی Veo 2 آسانتر کند. قابلیتهای جدید Veo 2 از طریق پلتفرم Vertex AI گوگل کلاد، به همراه بهروزرسانیهای جدید هوش مصنوعی متن به تصویر Imagen 3 در دسترس قرار گرفتهاند.
هوش مصنوعی Veo 2 گوگل میتواند جهت دوربین را تنظیم کند
از ویژگیهای جدید Veo 2 میتوان به inpainting اشاره کرد که قادر است بهطور خودکار پسزمینههای ناخواسته، علایم یا عناصر مزاحم را از ویدیوهای شما حذف کند. همچنین، قابلیت دیگری به نام outpainting، کادر اصلی ویدیو را به فرمتی دیگر بسط میدهد. این قابلیت همانند ویژگی Generative Expand ادوبی، فضای جدید را با فیلم تولیدشده توسط هوش مصنوعی پر کرده و سپس آن را با کلیپ اصلی ادغام میکند.
بهروزرسانی جدید، همچنین به کاربران Veo 2 اجازه میدهد تا هنگام تولید فیلم، تنظیمات پیشفرض تکنیکهای سینمایی را در کنار توضیحات متنی خود انتخاب کنند. این کار میتواند در ترکیببندی نما، زوایای دوربین و سرعت آن مؤثر واقع شود. این تنظیمات شامل افکتهای تایملپس، نمای اول شخص به سبک پهپاد و شبیهسازی حرکت افقی دوربین در جهات گوناگون است.
علاوه بر این، یک ویژگی برای درونیابی تصاویر گنجانده شده که این امکان را میدهد تا یک انتقال یکپارچه بین دو عکس ثابت ایجاد شود و همچنین سکانسهای ابتدایی و انتهایی ویدیو را با فریمهای جدید پر کنید.
هوش مصنوعی Firefly ادوبی نیز قابلیتهای مشابهی را ارائه میدهد. هفتهی گذشته، یک قابلیت برای گسترش ویدیوهای تولیدشده در پریمیر پرو عرضه شد. گوگل نیز، مشابه سیستم Content Credentials ادوبی، واترمارکهای SynthID را به محتوای تولیدشده توسط هوش مصنوعی خود میافزاید. با این حال، ادوبی یک قدم فراتر گذاشته و تضمین میکند که ابزارهایش به دلیل آموزش روی محتوای عمومی و دارای مجوز، از نظر تجاری کاملاً امن هستند.
قابلیتهای ویرایش در مدل Imagen 3 گوگل نیز به منظور بهبود چشمگیر حذف خودکار اشیاء ارتقا یافته است و هنگام حذف عناصر ناخواسته، نتایج به مراتب طبیعیتری ارائه میدهد. در حال حاضر، هر دو مدل Veo 2 و Imagen 3 توسط شرکتهایی مانند لورئال و کرافت هاینز برای تولید محتوای بازاریابی به کار گرفته میشوند. جاستین توماس، مسئول ارشد تجربهی دیجیتال کرافت هاینز، در این باره میگوید «کارهایی که پیش از این هشت هفته زمان میبرد، اکنون تنها در عرض هشت ساعت به انجام میرسد.»
در بخش صوتی، گوگل از مدل تبدیل متن به موسیقی Lyria، در قالب یک نسخه آزمایشی خصوصی رونمایی کرد. علاوه بر این، قابلیت Instant Custom Voice برای هوش مصنوعی تولید صدای Chirp 3 معرفی شده است. به گفته گوگل، Chirp 3 اکنون این توانایی را دارد که صداهای واقعگرایانه و منحصربهفرد را تنها با ده ثانیه داده صوتی اولیه تولید کند. همچنین، یک ویژگی جدید برای تبدیل گفتار به نوشتار در مرحله پیشنمایش قرار گرفته که قادر است گویندگان مختلف را تشخیص داده و از یکدیگر تمیز دهد تا متنهای دقیقتری از گفتگوهای چند نفره ارائه کند.
همه این قابلیتها، صرفاً بخشی از اطلاعیههای امروز گوگل در زمینه هوش مصنوعی است. مدل Gemini 2.5 Flash قرار است به زودی از طریق Vertex AI قابل استفاده شود. گوگل گفته که Gemini 2.5 Flash به صورت خودکار، مدت زمان پردازش را متناسب با میزان دشواری وظیفه تنظیم میکند و از این رو، پاسخهای سریعتری را برای درخواستهای سادهتر ارائه میدهد.
source
کلاس یوس