
تنها دو ماه پس از عرضه مدل هوش مصنوعی مولد بزرگ خود، متا یک بهروزرسانی عظیم دیگر را برای آن در نظر گرفته است. این شرکت اولین مدل هوش مصنوعی منبع-باز با قابلیت ساخت تصویر و متن را عرضه میکند.
مدل جدید، لاما 3.2، به توسعهدهندگان اجازه میدهد تا برنامههای پیشرفتهتر هوش مصنوعی ایجاد کنند. مانند برنامههای واقعیت افزوده که درک لحظهای از ویدئو را فراهم میآورند، موتورهای جستجوی تصویری که تصاویر را بر اساس محتوا طبقهبندی میکنند، یا تحلیل اسناد که متون طولانی را برای شما خلاصه میکند.
متا اعلام کرده که راهاندازی و استفاده از مدل جدید برای توسعهدهندگان آسان خواهد بود. احمد الدحله، معاون هوش مصنوعی مولد در متا، به ورج گفت:
توسعهدهندگان به جز افزودن «ویژگی چندوجهی جدید» و توانایی نمایش تصاویر لاما و برقراری ارتباط با آن، کار زیادی نخواهند داشت.
سایر توسعهدهندگان هوش مصنوعی، از جمله OpenAI و گوگل، از سال گذشته مدلهای چندحالته را عرضه کردهاند. بنابراین متا در اینجا در حال جبران عقبماندگی است. افزودن پشتیبانی از بینایی نیز نقش کلیدی را ایفا خواهد کرد زیرا متا به توسعه قابلیتهای هوش مصنوعی در سختافزارهایی مانند عینکهای Ray-Ban Meta خود ادامه میدهد.
لاما 3.2 شامل دو مدل بینایی (با 11 میلیارد پارامتر و 90 میلیارد پارامتر) و دو مدل متنی سبکوزن (با 1 میلیارد پارامتر و 3 میلیارد پارامتر) است. مدلهای کوچکتر برای کار روی سختافزارهای کوالکام، مدیاتک و سایر سختافزارهای Arm طراحی شدهاند. با این امید که متا بتواند شاهد استفاده از آنها بر روی موبایل باشد.
البته مدل (کمی) قدیمیتر هوش مصنوعی مولد متا، لاما 3.1 هنوز هم کاربرد دارد. این مدل که در ماه جولای منتشر شد، نسخهای با 405 میلیارد پارامتر را شامل میشود که از نظر تئوری، هنگام تولید متن توانایی بیشتری خواهد داشت.
source
کلاس یوس