شرکت OpenAI امروز ویژگی ارتقا‌یافته تولید تصویر مدل هوش مصنوعی GPT-4o خود را به‌صورت بومی به ChatGPT اضافه کرد. این اولین به‌روزرسانی بزرگ قابلیت‌های تولید تصویر ChatGPT پس از بیش از یک سال است.

امکان تولید تصویر در هوش مصنوعی ChatGPT

بر این اساس، از امروز، قابلیت‌های جدید تولید تصویر مستقیماً در هوش مصنوعی ChatGPT و در قالب ویژگی با نام «تصاویر در ChatGPT» ادغام شده است و کاربران حالا می‌توانند از GPT-4o برای تولید تصاویر درون خود ChatGPT استفاده کنند و به‌صورت بومی تصاویر و عکس‌ها را ایجاد و ویرایش کنند.

تصویر تولید شده توسط هوش مصنوعی ChatGPT

مدل GPT-4o مدت‌هاست که پایه و اساس پلتفرم هوش مصنوعی ChatGPT را تشکیل می‌دهد، اما تا پیش از این، این مدل تنها قادر به تولید و ویرایش متن بود و نه تصاویر.

بر اساس اعلام OpenAI این نسخه اولیه صرفاً بر خلق تصویر متمرکز است و در تمام سطوح اشتراک ChatGPT Plus، Pro، Team و Free در دسترس خواهد بود.

سرنوشت هوش مصنوعی تولید تصویر DALL-E چه خواهد شد؟

تیا کریستیان‌سون، سخنگوی OpenAI، به TheVerge گفته است که محدودیت استفاده در سطح رایگان مشابه DALL-E است، اما افزود که «عدد مشخصی برای اعلام نداریم» و «این محدودیت‌ها ممکن است با توجه به تقاضا در طول زمان تغییر کند.» بر اساس سؤالات متداول ChatGPT، کاربران رایگان پیش‌تر می‌توانستند «سه تصویر در روز با DALL·E 3» تولید کنند.

در مورد سرنوشت DALL-E، کریستیان‌سون اظهار داشت که «طرفداران» همچنان از طریق یک GPT سفارشی به آن دسترسی خواهند داشت.

OpenAI تاکید کرده که هوش مصنوعی GPT-4o با خروجی تصویر نسبت به مدل تولید تصویر قبلی که عملاً جایگزین آن شده، یعنی DALL-E 3، کمی طولانی‌تر “فکر” می‌کند تا تصاویری دقیق‌تر و با جزئیات بیشتر تولید کند.

تصویر تولید شده توسط هوش مصنوعی ChatGPT

ویژگی‌های قابلیت تولید تصویر چت جی پی تی

هوش مصنوعی GPT-4o همچنین می‌تواند تصاویر موجود، از جمله تصاویری که افراد در آن حضور دارند را ویرایش کند؛ این ویرایش شامل تغییر شکل دادن یا “inpainting” (پر کردن جزئیات) مانند اشیاء پیش‌زمینه و پس‌زمینه است.

شرکت OpenAI به وال استریت ژورنال اعلام کرد که برای پشتیبانی از این قابلیت جدید تصویر، GPT-4o را با استفاده از “داده‌های عمومی در دسترس” و همچنین داده‌های اختصاصی حاصل از همکاری با شرکت‌هایی مانند Shutterstock آموزش داده است.

بسیاری از ارائه‌دهندگان هوش مصنوعی مولد، داده‌های آموزشی را به‌عنوان یک مزیت رقابتی می‌بینند و به همین دلیل اطلاعات مربوط به آن را محرمانه نگه می‌دارند اما جزئیات داده‌های آموزشی همچنین می‌تواند منبعی برای دعاوی حقوقی مرتبط با مالکیت معنوی باشد که این خود انگیزه دیگری برای شرکت‌ها برای عدم افشای اطلاعات زیاد است.

به‌روزرسانی قابلیت تولید تصویر ChatGPT پس از معرفی خروجی تصویر بومی آزمایشی گوگل برای Gemini 2.0 Flash، یکی از مدل‌های برجسته این شرکت، صورت گرفته است.

این قابلیت قدرتمند در شبکه‌های اجتماعی وایرال شد، اما نه لزوماً به دلایل مثبت. مشخص شد که بخش تصویر Gemini 2.0 Flash محدودیت‌های کمی دارد و به کاربران اجازه می‌دهد واترمارک‌ها را حذف کنند و تصاویری از شخصیت‌های دارای حق کپی‌رایت خلق کنند.

گفتنی است، همزمان با اضافه شدن تولید تصویر با استفاده از GPT-4o به ChatGPT، گوگل نیز مدل‌های جدید هوش مصنوعی استدلالی جمینای 2.5 گوگل را معرفی کرده و مایکروسافت نیز از دو عامل (ایجنت) جدید استدلال عمیق برای هوش مصنوعی کوپایلت رونمایی کرده است.

source
کلاس یوس

توسط petese.ir