DeepSeek: умнее, быстрее, дешевле?

05.04.2025 150 прочтений

DeepSeek, появившийся в начале года соперник ChatGPT из Китая, быстро вышел в топ самых скачиваемых приложений. Он бесплатно предоставляет те же возможности, что и другие модели, а в каких-то случаях его ответы превосходят по качеству ChatGPT. DeepSeek — стартап, чей основной инвестор компания High-Flyer до его появления объявляла о планах сформировать независимую группу по исследованиям в области универсального искусственного интеллекта. Чат-бот основан на двух больших языковых моделях: DeepSeek R1 и DeepSeek-V3, созданных на базе моделей с открытым кодом Llama и Qwen. В DeepSeek R1 встроены механизмы самопроверки, благодаря чему модели удается избегать некоторых нелепых ошибок, присущих другим чат-ботам. В DeepSeek утверждают, что R1 в ряде стандартных тестов превосходит OpenAI o1 — модель первого поколения, на которой был изначально основан механизм «рассуждения» ChatGPT. Но главным преимуществом DeepSeek называют меньшую стоимость обучения по сравнению с ChatGPT и другими интеллектуальными чат-ботами. Как утверждают в самой DeepSeek, обучение китайского бота проводилось на чипах Nvidia H800, менее мощных и дорогих, чем новейшие H100, экспорт которых в Китай запрещен. Меньше ресурсов DeepSeek требует и при работе, что достигнуто за счет ряда новаций, в том числе механизма компрессии кэша, позволяющего расходовать меньше памяти, и системы прогнозной оптимизации, с помощью которой при работе модели минимизируется вычислительная нагрузка. Эксперты между тем подвергают сомнению оценки стоимости обучения DeepSeek и тот факт, что оно проходило с помощью недорогих процессоров — есть неподтвержденные сообщения о том, что компания все-таки располагает чипами H100.