Скачать 

DeepSeek v3 – как Китай нагнул США (Ранас Мукминов)

Зарегистрируйтесь, чтобы посмотреть скрытый контент
Aноним
Ссылка на картинку
DeepSeek также выпустила DeepSeek-V3, модель Mixture-of-Experts (MoE) с 671B параметрами, из которых 37B активированы для каждого токена. Модель использует Multi-head Latent Attention (MLA) и архитектуру DeepSeekMoE для эффективного вывода и экономичной обучения. DeepSeek-V3 была предварительно обучена на 14,8 триллионах разнообразных и высококачественных токенов, за которыми следовали этапы контролируемой доработки и обучения с подкреплением, чтобы полностью использовать ее возможности.

Оценки показывают, что DeepSeek-V3 превосходит другие модели с открытым исходным кодом и достигает производительности, сопоставимой с ведущими закрытыми моделями, при этом для полного обучения требуется всего 2,788M часов H800 GPU.

PDF
Показать больше
 
Зарегистрируйтесь , чтобы посмотреть авторский контент.
Поиск по тегу:
Теги
deepseek v3 автор александр дырза вебинар инфобизнес как китай нагнул сша ранас мукминов трафик трафик на вебинары трафик на вебинары дешевле
Похожие складчины
Найти больше схожих складчин

Зарегистрируйте учетную запись

У вас появится больше возможностей!

Создать учетную запись

Пройдите быструю регистрацию

Войти

Уже зарегистрированы? Войдите.

Сверху