قبلا شاهد انتشار گزارشهایی از منابع مختلف مبنی بر استفادهی OpenAI از ویدئوهای یوتیوب برای آموزش مدل متن به ویدئوی هوش مصنوعی Sora بودیم. اکنون گزارش جدیدی ادعا میکند که شرکتهایی چون اپل، انویدیا، آنتروپیک و دیگران از محتوای عمومی ساخته شده توسط کاربران برای آموزش مدل هوش مصنوعی خود استفاده میکنند. اما آیا استفاده اپل از ویدئوهای یوتیوب برای آموزش هوش مصنوعی خود صحت دارد؟
این گزارش ادعا میکند که اپل از دهها هزار ویدئوی یوتیوب برای آموزش Apple Intelligence استفاده کرده است. رفتاری که مخالف قوانین این پلتفرم است.
گزارش تحقیقی Proof News که با همکاری Wired منتشر شد
بر اساس این تحقیق، اپل و شرکتهای دیگر از دیتاستی موسوم به YouTube Subtitles که شامل 173 هزار و 536 فایل زیرنویس ویدئوها از بیش از 48 هزار کانال بوده استفاده کردهاند. ویدئوهای این منبع داده، از کانالهای آموزشی مثل Khan Academy و MIT تا سایتهای خبری مثل والاستریت ژورنال و محتواسازهای مشهوری چون MrBeast و Marques Brownlee بودهاند.
طبق ادعای Marques Brownlee اپل با استفاده از شرکتهایی که فایلهای زیرنویس ویدئوهای یوتیوب را در بر داشتهاند به جای استفادهی مستقیم از دادهها، قوانین را دور زده است. با این حال، این دادهها در نهایت منجر به بهود مدلهای هوش مصنوعی شدهاند. دادههایی که سازندگان آنها زمان و پول زیادی صرف ساخت آنها کردهاند. این محتواساز یوتیوب اذعان کرده که این موضوع، یک مشکل بزرگ طولانی مدت خواهد بود.
Proof News همچنین ابزاری برای محتواسازها طراحی کرده که با استفاده از آن، میتوانند محتوای خود را در این منبع داده جستجو کنند. منبع YouTube Subtitles شامل خود ویدئوها نیست. در عوض، زیرنویس ویدئوها در زبانهای مختلف را در بر دارد.
گزارش این پژوهش مدعی میشود که این منبع داده توسط یک آزمایشگاه غیرانتفاعی به نام Eleuther AI ساخته شده است. تمرکز این آزمایشگاه تحقیقاتی، بر ترویج هنجارهای علم همگانی است.
به جز شرکت اپل، هیچیک از دیگر شرکتهای نامبرده شده در این گزارش واکنشی به آن نشان ندادهاند. «نیل موهن» مدیرعامل یوتیوب پیشتر در یک مصاحبه گفته بود که استفادهی شرکتها از ویدئوهای یوتیوب برای آموزش هوش مصنوعی یک «تخلف آشکار» از قوانین این پلتفرم است.
اپل تکذیب کرد
گزارش منتشر شده ادعا میکند که اپل با استفاده از این منبع داده، هوش مصنوعی OpenELM خود را آموزش داده است. حالا این شرکت تایید کرده که OpenELM هیچیک از ویژگیهای Apple Intelligence را تغذیه نمیکند.
اپل میگوید که مدل OpenELM را برای مشارکت در ساخت مدلهای وسیع منبع باز توسعه داده است. در نتیجه این مدل هوش مصنوعی، هیچ یک از محصولات نهایی اپل در این حوزه را پشتیبانی نمیکند. در گذشته محققان شرکت اپل OpenELM را یک «مدل زبانی باز هنرمندانه» توصیف کرده بودند.
طبق ادعای اپل، OpenELM تنها با اهداف پژوهشی توسعه پیدا کرده و هیچیک از ویژگیهای Apple Intelligence به آن وابسته نیست. این مدل هوش مصنوعی به صورت منبع باز عرضه شده و در دسترس طیف وسیعی از کاربران قرار دارد. از جمله میتوانید آن را در وبسایت AMLR پیدا کنید.
این یعنی در حالی که اپل استفاده از ویدئوهای یوتیوب برای آموزش مدل هوش مصنوعی OpenELM را تکذیب نکرده، منکر استفاده از این دادهها در هوش مصنوعی خود شده است. در گذشته هم این شرکت تایید کرده بود که مدلهای هوش مصنوعی خود را با استفاده از «دادههای لایسنس شده، از جمله دادههای انتخاب شده برای ارتقای ویژگیهای خاص، به علاوه دادههای عمومی که توسط خزنده وبگرد خود» آموزش داده است.
همچنین اپل تایید کرده که هیچ برنامهای برای توسعه نسخهی جدیدی از OpenELM ندارد.
source
کلاس یوس