Раздел Технологии выходит при поддержке
DeepSeek-R1 — новая генеративная модель искусственного интеллекта, разработанная китайским стартапом DeepSeek. Она вызвала значительный резонанс, поскольку позиционируется как конкурент ведущих моделей, таких как OpenAI o1. При этом DeepSeek-R1 имеет открытый код и экономически более эффективна чем большинство ИИ-моделей на рынке. Разбираемся, как китайцам это удалось. И все ли так просто…
Искусственный интеллект от DeepSeek опередил ChatGPT в рейтинге App Store, обвалил акции Nvidia на 12%, а Meta и Microsoft — на 4%. Европейские компании ASML и Tokyo Electron также понесли потери. Попадали и связанные с ИИ и майнингом криптовалюты. И это далеко не все, что буквально за неделю успел наделать китайский ИИ.
Согласно данные консалтинговой компании Preqin, инвестиции США в искусственный интеллект в 2023 году превышали вложения КНР в шесть раз, и составляли $26,6 млрд против $4 млрд. Как же так получилось, что Китай за неполных два года смог обогнать американцев?
OpenAI и Google не раскрывали точную стоимость обучения моделей ИИ (а это самая сложная и кропотливая часть работы), таких как GPT-4 и Gemini. Но очевидно, что это ужасно дорогой бизнес. Когда OpenAI выпустила GPT-3 в 2020 году, облачный провайдер Lambda предположил, что обучение этой модели со 175 млн параметров стоило более $4,6 млн с использованием облачного инстанса Tesla V100. OpenAI не разглашает размер GPT-4, который она выпустила год назад, но в отчетах проносятся данные от 1 триллиона до 1,8 триллиона параметров.
К тому же генеральный директор OpenAI Сэм Альтман невнятно оценил стоимость обучения в «более» $100 млн. Генеральный директор Anthropic Дарио Амодей предположилчто «к 2025 году мы можем иметь модель стоимостью $10 млрд» к 2025 году.
Отчет Epoch AI от мая 2024 года по оценке технической стороны показал, что объемы учебных вычислений передовых моделей ИИ растут в 4-5 раз в год. Так вот, согласно средним оценкам, стоимость обучения самых дорогих моделей ИИ к 2030 году (без учета зарплаты исследователей) достигнет $140 млрд.
СпецпроектыЯк за рік збільшити команду в шість разів і не втратити домашню атмосферу в роботі. Історія SharksCodeТри ноутбуки, консоль на Steam OS і міні-ПК завширшки з долоню. 5 футуристичних гаджетів від Lenovo на CES, які хочеться купити просто зараз
А вот немного о самом времени обучения. Если бы использовалась машина Exaflop, то GPT-3 (со 175 миллиардами параметров) со сложностью обучения порядка 3,14×10²³, то нужно было б 314 000 секунд вычислительных циклов, чтобы завершить обучение с 300 миллиардами токеновТокен — единица текста, которую модель использует для обработки информации. В контексте естественного языка, это может быть: слово, часть слова, символ или знак пунктуации]. Это примерно 3,5 дня.
Если OpenAI использовала в своем суперкомпьютере графические процессоры Nvidia V100, то для завершения обучения GPT-4 нужно около 5-6 месяцев.
То есть, самый дорогой, сложный и долгий процесс создания модели — это именно подготовка данных, на которых ее будут обучать.
И тут на арену выходит DeepSeek, которая говорит, что разработала V3 всего за 2 месяца и потратила всего $5.6 млн. При этом пока ведущие комании используют до 16 000 интегральных схем, китайцы — лишь около 2 000 чипов NVIDIA H800 PCIe. А некоторые версии моделей DeepSeek можно запускать локально. Как это возможно?!
Содержание
- 1 Технология и принципы работы DeepSeek R1 и ее принципы работы
- 2 Вот как работает MoE
- 3 DeepSeek vs. OpenAI vs. Anthropic vs. Google
- 4 Все «за» и «против»
- 5 Гонка искусственного интеллекта: США vs Китай (и где-то там ЕС)
Технология и принципы работы DeepSeek R1 и ее принципы работы
Все началось с того, что в ноябре 2023 года появилась модель DeepSeek-Coder с открытым исходным кодом, а затем — DeepSeek-LLM, которая в дополнение умела генерировать текст. В апреле 2024 года свет увидела обновленная версия DeepSeek-Coder под названием DeepSeek-Math. В том же году вышли два обновления DeepSeek-LLM: V2 и V2.5. В ноябре появилась предварительная версия DeepSeek R1, основой которой послужил DeepSeek-V3-Base. В конце года вышла DeepSeek-V3 — обновление DeepSeek-V2, — и уже на ее основе создали DeepSeek R1, который и наделал шума в начале 2025 года.
СпецпроектыМікрофони HyperX QuadCast 2 та QuadCast 2S: чистий звук у складних умовах, інноваційна підсвітка та свій застосунокЧи є користь від ноутбука з двома екранами та чи зручно за ним працювати? Розбираємося на прикладі ASUS Zenbook DUO
DeepSeek-V3 обучали на 14,8 трлн токенов, а DeepSeek R1 — на учебных данных DeepSeek-V3-Base и еще около 800 тыс. образцов. Запросы на R1 стоят на 98% дешевле, чем на ChatGPT. Несмотря на ограничения США на экспорт мощных чипов, DeepSeek использовал доступные Nvidia H800 и некоторые свои собственные инновации.
При этом генеративная модель ИИ DeepSeek-R1 имеет открытый код и производительность на уровне закрытых моделей, таких как o1 от OpenAI.
DeepSeek R1 базируется на большой базовой модели под названием DeepSeek-V3и использует архитектуру Mixture of Experts (MoE)что позволяет эффективно обрабатывать сложные задачи, активируя только часть своих параметров во время вычислений. Общее количество параметров составляет 671 миллиард (модель занимает 400 ГБ), но при обработке каждого запроса активируется только около 37 миллиардов, что предоставляет баланс между производительностью и эффективностью. То есть, экономит время и ресурсы.
Для этого создаются подмодели, имеющие разную экспертность (микс экспертов). И уже в зависимости от запроса пользователя активируются только нужные эксперты, и именно между ними распределяются ресурсы.
Вот как работает MoE
Архитектура MoE (которая, кстати, может быть частью ИИ-агентов) состоит из нескольких независимых нейросетевых экспертов, специализирующихся на различных аспектах обработки данных. Основные компоненты этой архитектуры:
Гейтинг-сеть (Gating Network)
- Особый модуль, который определяет, какие эксперты будут активированы для каждого отдельного запроса.
- Гейтинг-сеть анализирует входные данные и распределяет их между несколькими экспертами.
Эксперты (Experts)
- Это отдельные нейросети, которые обучаются обрабатывать определенные типы данных или выполнять определенные задачи.
- Они могут специализироваться, например, на распознавании речевых паттернов, анализе логических связей или генерации текста.
Объединение результатов (Weighted Summation)
- После того, как эксперты выполняют свои вычисления, их результаты комбинируются в финальный ответ модели.
Таким образом, MoE использует только часть экспертов во время вычислений, что позволяет уменьшить затраты на инференс (работу модели, ее рассуждения). Также эксперты могут специализироваться на разных типах задач, что делает MoE мощнее традиционных трансформерных моделей (как ChatGPT). Кроме того, увеличение количества экспертов не требует значительного увеличения затрат на обучение. Однако при использовании MoE необходимо правильно настраивать гейтинг-сеть, чтобы избежать чрезмерного использования некоторых экспертов, когда это не требуется. Даже если активируется только часть экспертов, вся модель должна храниться в памяти.
DeepSeek R1 использует MoE-архитектуру с 64 экспертами, из которых активируется только 2 или 4 во время обработки каждого запроса.
Также важной особенностью DeepSeek R1 является ее способность генерировать «цепочку мнений» (Chain of Thought, CoT) перед формированием ответа. Этот подход позволяет модели улучшить точность и логичность своих ответов, особенно в сложных задачах, требующих многошагового рассуждения.
Интересно, что DeepSeek-R1 готовили с помощью обучения с подкреплением (reinforcement learning) без предварительного этапа контролируемой тонкой настройки. Этот подход позволил модели развивать навыки рассуждения и принятия решений на основе обратной связи, что делает ее способной к сложным логическим выводам и генерации связного текста
Для повышения эффективности и уменьшения требований к вычислительным ресурсам разработчики применили метод дистилляции, который предусматривает создание упрощенных версий модели. Они сохраняют основные возможности оригинала, но имеют меньшее количество параметров. В частности, создали модели на основе Llama (LLM от Meta AI) и Qwen (LLM от Alibaba) с 32 и 70 миллиардами параметров.
Дистиллированные версии можно развернуть локально, на собственном оборудовании:
- DeepSeek-R1-Distill-Qwen-1.5B — работает на одной видеокарте (версии для графических интерфейсов (версии для графических интерфейсов Ollama и LM studio).
- DeepSeek-R1-Distill-Qwen-7B — требуется минимум 20 ГБ видеопамяти.
- DeepSeek-R1-Distill-Qwen-32B — оптимально работает с 2-4 графическими процессорами.
Есть еще несколько версий, которые вы можете найти и скачать по этой ссылке.
DeepSeek vs. OpenAI vs. Anthropic vs. Google
DeepSeek R1 чаще всего сравнивают с моделью OpenAI o1. По производительности она демонстрирует схожие результаты в задачах по математике, кодированию и рассуждениям. Однако китайская модель достигает этих результатов при значительно меньших затратах. Использование DeepSeek R1 стоит примерно $0,55 за миллион токенов, тогда как OpenAI o1 — около $15 за тот же объем.
Как отметил Андрей Никоненко, Machine Learning & Data Science в Turnitin, независимые проверки показали, что GPT-4o1 немного превосходит DeepSeek-R1. Свежие Anthropic Claude Sonnet 3.5 и Google Gemini 2.0 лучше, чем DeepSeek-V3.
Вместе с тем, DeepSeek-R1 и V3 — сильные модели с открытым исходным кодом, которые установили новый высокий базовый уровень для LLM, и превосходят модели LLaMA. Кроме того, R1 может стать новым эталоном для моделей рассуждений с открытым исходным кодом, что сделает недорогой производственный ИИ более доступным.
Все «за» и «против»
Начнем с хорошего:
- DeepSeek-R1 является полностью открытой моделью с лицензией MIT, что позволяет разработчикам свободно использовать, модифицировать и интегрировать ее в свои проекты.
- Цена. Стоимость использования пока что вне конкуренции.
- Китайская модель доступна в различных вариациях, включая упрощенные дистиллированные версии. Это означает, что если у вас есть несколько NVIDIA GeForce RTX 3090, вы можете запустить модель дома. И не нужно будет платить OpenAI за доступ. Достаточно просто установить Ollama, загрузить DeepSeek и все! Например, DeepSeek 671B (с 671 миллиардом параметров) смогли запустить на сервере AmpereOne A192. Модель работает со скоростью 4 токена в секунду. Потребление энергии составило лишь несколько сотен ватт, что делает ее достаточно эффективной.
Таким образом, обычные пользователи могут наслаждаться конкуренцией, которая делает технологии более доступными. Недавний выпуск ИИ-модели Sky-T1, которая также способна размышлять и стоит всего $450, показал, что мощные модели могут быть экономически эффективными.
Появление DeepSeek-R1 подтолкнуло OpenAI к открытию общего доступа к мощным моделям и снижению цен на некоторые услуги.
А теперь к плохому.
Не стоит забывать, что DeepSeek-R1 — модель искусственного интеллекта из Китая. Поэтому при ее использовании следует быть осторожным. Китайские гаджеты уже неоднократно попадались на краже информации своих владельцев. Как и ожидалось, с DeepSeek также не все в порядке. Недавно Wiz Research выяснила, что база данных компании-разработчика DeepSee была открытой для доступа в Интернете и не имела надлежащей защиты. Это позволяло любому получить доступ к более чем миллиону записей, включая историю чатов пользователей, API-ключей и других системных параметров.
Самое главное то, что эта уязвимость позволяла полностью контролировать базу данных и потенциальное повышение привилегий в среде DeepSeek, без какой-либо аутентификации или механизма защиты от внешнего мира.
Исследователи Wiz обнаружили эту уязвимость, заметив открытые порты 8123 и 9000 на серверах DeepSeek, что указывало на публично доступный интерфейс базы данных ClickHouse. После сообщения о проблеме компания DeepSeek закрыла доступ к интерфейсам. Но неизвестно, сколько данных посторонние лица успели скопировать.
Также некоторые исследования показали, что DeepSeek-R1 может распространять информацию, которая соответствует официальной позиции Пекина, и не всегда предоставляет точные данные. DeepSeek избегает ответов на 85% вопросов на «чувствительные темы», связанные с Китаем.
Например, при обсуждении политически чувствительных тем, таких как события на площади ТяньаньмэньСобытия на площади Тяньаньмэнь 1989 года — серия демонстраций в КНР, продолжавшихся с 15 апреля по 4 июня 1989 года, главными участниками которых были студенты. События также известны как «События 4 июня в Китае» и «Резня на площади Тяньаньмэнь». Наибольший резонанс вызвал силовой разгон демонстрантов 4 июня с применением армейских подразделений, в результате чего погибли тысячи протестующих. или статус Тайваня, модель может отражать предвзятость или избегать ответа (что собственно и видим на скриншоте ниже).
Кроме того, существуют опасения относительно конфиденциальности данных пользователей. Уже есть информация, что DeepSeek собирает данные о пользователях, включая аппаратное обеспечение: IP-адреса, модели телефонов, язык, даже «схемы нажатия клавиш или ритмы». А затем отправляет на серверы в Китай.
Кроме того, еще на момент запуска DeepSeek-V3 появились подозрения в краже данных в OpenAI. Во время тестирования китайская ИИ-модель называла себя ChatGPT. Позже один из разработчиков ChatGPT заявил, что DeepSeek использовала данные OpenAI для дисцилляции. Также бывший разработчик Meta Яншун Тай Яншун заметил подозрительную совместимость библиотек DeepSeek и OpenAI. Таким образом, китайская компания сэкономила недели разработки клиентских библиотек Node.js и Python просто использовав библиотеки OpenAI.
Стоит помнить, что компания DeepSeek — относительно новый игрок в сфере искусственного интеллекта. Согласно Википедии, она основана в апреле-мае 2023 года. Стратегия найма компании фокусируется на технических способностях, а не на опыте работы, что приводит к тому, что рабочая сила состоит преимущественно из недавних выпускников или разработчиков с менее устоявшейся карьерой в области ИИ.
Новости о технической и финансовой выгоде ИИ-моделей DeepSeek привели к тому, что многие организации и стартапы поспешили внедрить эти инструменты в свои продукты. Однако забыли, что подобные шаги также предполагают передачу конфиденциальных данных. А это требует высокой степени доверия…
Гонка искусственного интеллекта: США vs Китай (и где-то там ЕС)
В 1956 году во время Дартмутской конференции в США был впервые введен термин «искусственный интеллект» (ИИ). Этот событие стала отправной точкой для активных исследований в этой области. Кстати, именно этой конференции мы обязаны появлением теста Тьюринга. Алан Тьюринг, британский математик, предложил идею теста, который позволил бы определить, может ли машина демонстрировать разумное поведение, а его невозможно отличить от человеческого.
Так вот, в 2017 году Китай объявил о своем плане стать мировым лидером в сфере ИИ к 2030 году. Значительные финансовые вливания в исследования и развитие этой ниши, а также поддержка со стороны правительства способствовали быстрому прогрессу. Китайские компании Baidu, Alibaba (куда входит и всем известный AliExpress) и Tencent, активно начали разработку ИИ-технологий, а правительство внедряет ИИ в различные сферы, включая безопасность и здравоохранение.
В конце своего президентства Джо Байден подписал указ о содействии более быстрому созданию в США компьютерных центров обработки данных и другой инфраструктуры для разработок в сфере искусственного интеллекта. С приходом к власти Дональда Трампа в 2025 году, он заявил о намерении вывести США в лидеры ИИ-технологий.
Уже стартовал проект под названием Stargate, который возглавляют OpenAI, японский конгломерат SoftBank и Oracle. Он предусматривает инвестиции в размере $500 млрд в развитие инфраструктуры искусственного интеллекта (ИИ) в США, и построение в течение следующих 4 лет 10 центров обработки данных в Техасе, затем — и в других штатах.
И вот буквально пару недель спустя вышел DeepSeek R1. Поскольку эта модель способна делать то же, что и o1, но бесплатно, OpenAI вынуждена рассмотреть снижение стоимости подписки на ChatGPT Plus вдвое: до $10. На фоне обострения гонки с Китаем, OpenAI даже предоставила государственным учреждениям США специальный доступ к своим моделям с выделенной инфраструктурой: ChatGPT Gov.
И тут прилетел второй удар. Китайская компания-гигант Alibaba выпустила собственную генеративную ИИ-модель под названием Qwen2.5-Max. И утверждает, что она лучше DeepSeek V3.
Тем временем Европейский Союз старается не отставать от конкурентов. В 2023 году был принят Закон ЕС об искусственном интеллекте (AI Act), который вступил в силу 1 августа. Он устанавливает правила для разработки и использования ИИ, направленные на обеспечение безопасности и этичности технологий. Что касается гонки в сфере технологий искусственного интеллекта, пока США и Китай активно вкладывают деньги и показывают результаты, ЕС только начала программу «упрощения», чтобы сократить бюрократию и стимулировать инновации.
В конце января 2025 года опубликованный документ Еврокомиссии под названием «Компас конкурентоспособности», в котором изложен экономический план развития ЕС на следующие 5 лет, включая меры, направленные на развитие «зеленых» технологий, искусственного интеллекта и квантовых вычислений. В нем предложено создать «Гигафабрики ИИ», которые позволят стартапам и исследователям обучать и разрабатывать модели. Отдельная стратегия будет направлена на развитие этой ИИ-технологии в таких секторах, как производство, автомобилестроение и финансовые услуги. Предложения включают также инициативы, направленные на развитие биотехнологий, робототехники и космических технологий.
Глава исполнительной власти ЕС Урсула фон дер Ляйен подчеркнула, что бизнес-модель ЕС в течение последних 20-25 лет полагалась на «дешевую рабочую силу из Китая, вероятно, дешевую энергию из России» и «частично на аутсорсинг безопасности», но «эти дни прошли».
30 января Еврокомиссия постановила пятую годовую Рабочую программу в рамках Европейского оборонного фонда (EDF 2025), выделив более 1 млрд евро на совместные оборонные научно-исследовательские и опытно-конструкторские проекты. Рабочая программа EDF 2025 охватывает технологический вызов в области искусственного интеллекта, а также запрос на проведение научно-исследовательских и опытно-конструкторских работ (НИОКР) «для содействия синергии между гражданскими и оборонными инновациями, сосредоточившись в этом году на космосе, энергетической устойчивости, наземных боях и киберпространстве».
Гонка в сфере ИИ с каждым днем набирает обороты. Пока США лидируют в фундаментальных исследованиях и разработке инновационных технологий, Китай делает акцент на масштабном внедрении ИИ в различные отрасли, используя преимущества большого объема данных и быстрого внедрения. ЕС, как всегда, отстает.
Раздел Технологии выходит при поддержке
Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков.