شرکت OpenAI امروز ویژگی ارتقایافته تولید تصویر مدل هوش مصنوعی GPT-4o خود را بهصورت بومی به ChatGPT اضافه کرد. این اولین بهروزرسانی بزرگ قابلیتهای تولید تصویر ChatGPT پس از بیش از یک سال است.
امکان تولید تصویر در هوش مصنوعی ChatGPT
بر این اساس، از امروز، قابلیتهای جدید تولید تصویر مستقیماً در هوش مصنوعی ChatGPT و در قالب ویژگی با نام «تصاویر در ChatGPT» ادغام شده است و کاربران حالا میتوانند از GPT-4o برای تولید تصاویر درون خود ChatGPT استفاده کنند و بهصورت بومی تصاویر و عکسها را ایجاد و ویرایش کنند.
مدل GPT-4o مدتهاست که پایه و اساس پلتفرم هوش مصنوعی ChatGPT را تشکیل میدهد، اما تا پیش از این، این مدل تنها قادر به تولید و ویرایش متن بود و نه تصاویر.
بر اساس اعلام OpenAI این نسخه اولیه صرفاً بر خلق تصویر متمرکز است و در تمام سطوح اشتراک ChatGPT Plus، Pro، Team و Free در دسترس خواهد بود.
سرنوشت هوش مصنوعی تولید تصویر DALL-E چه خواهد شد؟
تیا کریستیانسون، سخنگوی OpenAI، به TheVerge گفته است که محدودیت استفاده در سطح رایگان مشابه DALL-E است، اما افزود که «عدد مشخصی برای اعلام نداریم» و «این محدودیتها ممکن است با توجه به تقاضا در طول زمان تغییر کند.» بر اساس سؤالات متداول ChatGPT، کاربران رایگان پیشتر میتوانستند «سه تصویر در روز با DALL·E 3» تولید کنند.
در مورد سرنوشت DALL-E، کریستیانسون اظهار داشت که «طرفداران» همچنان از طریق یک GPT سفارشی به آن دسترسی خواهند داشت.
OpenAI تاکید کرده که هوش مصنوعی GPT-4o با خروجی تصویر نسبت به مدل تولید تصویر قبلی که عملاً جایگزین آن شده، یعنی DALL-E 3، کمی طولانیتر “فکر” میکند تا تصاویری دقیقتر و با جزئیات بیشتر تولید کند.
ویژگیهای قابلیت تولید تصویر چت جی پی تی
هوش مصنوعی GPT-4o همچنین میتواند تصاویر موجود، از جمله تصاویری که افراد در آن حضور دارند را ویرایش کند؛ این ویرایش شامل تغییر شکل دادن یا “inpainting” (پر کردن جزئیات) مانند اشیاء پیشزمینه و پسزمینه است.
شرکت OpenAI به وال استریت ژورنال اعلام کرد که برای پشتیبانی از این قابلیت جدید تصویر، GPT-4o را با استفاده از “دادههای عمومی در دسترس” و همچنین دادههای اختصاصی حاصل از همکاری با شرکتهایی مانند Shutterstock آموزش داده است.
بسیاری از ارائهدهندگان هوش مصنوعی مولد، دادههای آموزشی را بهعنوان یک مزیت رقابتی میبینند و به همین دلیل اطلاعات مربوط به آن را محرمانه نگه میدارند اما جزئیات دادههای آموزشی همچنین میتواند منبعی برای دعاوی حقوقی مرتبط با مالکیت معنوی باشد که این خود انگیزه دیگری برای شرکتها برای عدم افشای اطلاعات زیاد است.
بهروزرسانی قابلیت تولید تصویر ChatGPT پس از معرفی خروجی تصویر بومی آزمایشی گوگل برای Gemini 2.0 Flash، یکی از مدلهای برجسته این شرکت، صورت گرفته است.
این قابلیت قدرتمند در شبکههای اجتماعی وایرال شد، اما نه لزوماً به دلایل مثبت. مشخص شد که بخش تصویر Gemini 2.0 Flash محدودیتهای کمی دارد و به کاربران اجازه میدهد واترمارکها را حذف کنند و تصاویری از شخصیتهای دارای حق کپیرایت خلق کنند.
گفتنی است، همزمان با اضافه شدن تولید تصویر با استفاده از GPT-4o به ChatGPT، گوگل نیز مدلهای جدید هوش مصنوعی استدلالی جمینای 2.5 گوگل را معرفی کرده و مایکروسافت نیز از دو عامل (ایجنت) جدید استدلال عمیق برای هوش مصنوعی کوپایلت رونمایی کرده است.
source
کلاس یوس