نوشته و ویرایش شده توسط مجله ی اسکوار
استارتاپ چینی DeepSeek بیسروصدا مدل هوش مصنوعی ارتقایافتهای به نام V3-0324 را انتشار کرده است. این مدل در قسمتهای گوناگون همانند کدنویسی بهبود یافته است. درکل دیپسیک ادعا میکند مدل هوش مصنوعی آن میتواند با مدلهای آمریکایی OpenAI و Anthropic رقابت کند یا آنها را ناکامی دهد.
بر پایه گزارش TechRadar، دیپسیک بهتازگی ترقی قابلتوجهی برای مدل مهم خود انتشار کرد. مدل تازه V3-0324 با حجم ۶۴۱ گیگابایت اکنون متنباز با مجوز MIT در Hugging Face انتشار شده است. مسئله شگفت این که برخلاف شرکتهای آمریکایی که تبلیغات بسیاری برای مدلهای تازه خود میکنند، مدل تازه چینیها تقریباً بدون هیچ اطلاعیه خاصی انتشار شده است.
مدل هوش مصنوعی تازه دیپسیک
محقق هوش مصنوعی مدل تازه دیپسیک را روی مک استودیو با تراشه M3 Ultra اجرا کرده و نشان داده این مدل با شدت بیشتر از ۲۰ توکن در ثانیه عمل میکند. یقیناً نباید از قوت شگفتانگیز مک استودیوی ۹ هزار و ۵۰۰ دلاری غافل شد و احتمالا برای سنجش شدت این هوش مصنوعی این چنین سیستم قدرتمندی معیار عمومی خوبی نباشد.
بادقتبه تستهای این شرکت، نسخه تازه DeepSeek از مدل V3 ترقی قابل توجهی در توانمندیهای گوناگون همانند کدنویسی یافته است. احتمالا این چنین ارتقاهایی بهخودیخود انقلابی نباشند اما شدت پیشرفت DeepSeek قابلدقت است.
دیپسیک که سال قبل میلادی به شهرت رسید، بعد از انتشار کردن نسخه مهم V3 در دسامبر، بهشدت درحال پیشروی است. یک ماه سپس از انتشار کردن نسخه مهم، مدل دلایلگر R1 از راه رسید و اکنون V3-0324 انتشار شده است. حتی اگر مدلهای دیپسیک در برخی بنچمارکها نتوانند با مدلهای OpenAI و آنتروپیک رقابت کنند، از لحاظ قیمتی زیاد بهصرفهاند.
DeepSeek-V3-0324 از معماری «ترکیب متخصصان» (MoE) منفعت میبرد که اساساً با نحوه کارکرد مدلهای زبانی بزرگ معمولی فرق دارد. مدلهای معمولی کل تعداد پارامترهای خود را برای یک کار فعال میکنند اما در رویکرد DeepSeek فقط نزدیک به ۳۷ میلیارد از ۶۸۵ میلیارد پارامتر میانه انجام ماموریت های خاص فعال خواهد شد.
دسته بندی مطالب