شرکت هوش مصنوعی چینی دیپ‌سیک نسخه ۳.۱ از مدل زبانی بزرگ خود را منتشر کرده است. این نسخه با گسترش پنجره متنی به ۱۲۸ هزار توکن و افزایش تعداد پارامترها به ۶۸۵ میلیارد همراه شده است. این به‌روزرسانی از طریق گروه وی‌چت دیپ‌سیک به‌طور بی‌سروصدا اعلام شد، بدون آنکه اطلاعیه‌ای در کانال‌های رسمی شبکه‌های اجتماعی منتشر گردد.

چه چیزی تغییر کرده است؟

مهم‌ترین تغییر در DeepSeek V3.1 افزایش طول متن زمینه است که اکنون این امکان را فراهم می‌آورد تا ورودی‌هایی معادل یک کتاب ۳۰۰ تا ۴۰۰ صفحه‌ای را پردازش کند. این توسعه موجب بهبود کارایی در تولید محتوای بلند، تحلیل مستندات فنی با حجم گسترده و مدیریت گفت‌وگوهای چندمرحله‌ای طولانی می‌شود. گروه رسمی دیپ‌سیک تأیید کرده که قابلیت پشتیبانی از این حجم ورودی در نسخه قبلی V3 به‌طور داخلی فعال بود، اما در نسخه جدید به‌صورت رسمی در تمامی رابط‌ها قابل استفاده شده است. این ویژگی می‌تواند کاربردهای عملی متعددی در حوزه‌هایی نظیر نگارش گزارش‌های پیچیده، ترجمه متون علمی و پشتیبانی از پروژه‌های تحقیقاتی طولانی‌مدت داشته باشد.

معماری Mixture-of-Experts و نتایج معیارها

دیپ‌سیک در نسخه V3.1 همچنان بر اساس معماری Mixture-of-Experts یا همان MoE کار می‌کند، با این تفاوت که در هر توکن تنها ۳۷ میلیارد پارامتر فعال می‌شود. این مدل از چندین فرمت محاسباتی پشتیبانی می‌کند، از جمله BF16، FP8 و F32، که انعطاف بیشتری را برای پیاده‌سازی در محیط‌های مختلف فراهم می‌سازد. توسعه‌دهندگان قادرند این مدل را از طریق API فراخوانی کنند یا آن را تحت مجوز متن‌باز MIT از مخزن Hugging Face دریافت نمایند.

این نسخه ارتقایافته در ارزیابی‌های اولیه‌ی مستقل عملکرد مطلوبی نشان داده است. در آزمون کدنویسی Aider موفق به کسب امتیاز ۷۱.۶% شد که آن را بالاتر از Claude Opus 4 قرار داده و در ردیف قدرتمندترین مدل‌های متن‌باز حال حاضر در زمینه برنامه‌نویسی جای می‌دهد. DeepSeek V3.1 همچنین در وظایف مربوط به ریاضیات و منطق پیشرفت محسوسی از خود نشان داده است، هرچند برخی کاربران گزارش داده‌اند که نسبت به مدل پیشین R1-0528 در بخش استدلال بهبودی آشکار مشاهده نکرده‌اند.

تغییر در استراتژی

دیپ‌سیک تمامی ارجاعات به مدل R1 را از رابط کاربری چت‌بات خود حذف کرده که نشان‌دهنده تغییر رویکرد به سمت یک معماری هیبریدی واحد است. به نظر می‌رسد این شرکت قابلیت‌های استدلالی خود را به‌طور مستقیم در نسخه V3.1 ادغام کرده و به جای حفظ یک مدل مجزا برای استدلال، تصمیم گرفته آن را در ساختار اصلی بگنجاند.

هزینه آموزش V3.1 تاکنون فاش نشده است. با این حال، بر اساس گزارش‌های پیشین، مدل اصلی V3 با صرف ۲.۷۸۸ میلیون ساعت پردازش GPU و با استفاده از تراشه‌های Nvidia H800 آموزش داده شد که هزینه‌ای معادل ۵.۶ میلیون دلار برآورد گردید. این همان مدل پایه‌ای برای نسخه کنونی محسوب می‌شود که به احتمال زیاد از زیرساخت مشابه بهره می‌برد، هرچند با اصلاحات و بهینه‌سازی‌های تکمیلی.

سردرگمی پیرامون تأخیر در مدل R2

انتظار گسترده‌ای وجود داشت که نسخه بعدی دیپ‌سیک، مدل R2 باشد؛ مدلی که قرار بود توانایی‌های استدلالی را به سطح بالاتری ارتقا دهد. اما در عوض، نسخه V3.1 به عنوان گام بعدی معرفی شد. طبق گزارشی از فایننشال تایمز، عرضه مدل R2 به دلیل مشکلات فنی مداوم مرتبط با تراشه‌های هوش مصنوعی Ascend شرکت هواوی به تعویق افتاده است.

گفته می‌شود دیپ‌سیک تحت فشار قرار گرفته بود تا از سخت‌افزار Ascend استفاده کند تا وابستگی خود به انویدیا را کاهش دهد و با استراتژی ملی چین در زمینه خودکفایی در هوش مصنوعی هماهنگ شود. با وجود پشتیبانی مهندسان هواوی، فرآیند آموزش روی تراشه‌های Ascend به دلیل مشکلات سازگاری و افت عملکرد با شکست مواجه شد. این شرکت سپس تصمیم گرفت از GPUهای انویدیا برای آموزش بهره گیرد و در عین حال از Ascend برای استنتاج استفاده کند، که این ترکیب هیبریدی موجب پیچیدگی‌ها و تأخیرهای بیشتر گردید. علاوه بر این، زمان طولانی‌تری که صرف برچسب‌گذاری داده‌ها شد نیز روند توسعه را کند ساخت. بنیان‌گذار دیپ‌سیک، لیانگ ونفنگ، ظاهررا از این پیشرفت کند ابراز نارضایتی کرده است.

در همین حال، رقبایی مانند Qwen3 از شرکت علی‌بابا توانسته‌اند با استفاده از الگوریتم‌های مشابه اما با کارایی بالاتر، گام‌های سریعتری بردارند. این وضعیت محدودیت‌های زیرساخت تراشه‌های بومی چین و دشواری‌هایی را که استارتاپ‌ها در تلاش برای برآورده کردن همزمان تقاضاهای سیاسی و فنی با آن مواجه هستند، به وضوح نشان داده است. دیپ‌سیک احتمال معرفی مدل R2 را منتفی ندانسته است. با این حال، هر زمان که این مدل عرضه شود، عملکرد آن تحت بررسی‌های شدید و مقایسه‌های مستقیم قرار خواهد گرفت. تا آن زمان، نسخه V3.1 به عنوان پرچم‌دار کنونی شرکت عمل می‌کند و وظایف مرتبط با استدلال و غیر استدلال را در قالب یک ساختار یکپارچه در اختیار کاربران و توسعه‌دهندگان قرار می‌دهد.

source
کلاس یوس

توسط petese.ir