Разработчики DeepSeek обучают ИИ методом кнута и пряника. Как китайский стартап покоряет мир

Китайский разработчик заявляет, что его конкурент ChatGPT обходится в разы дешевле, что ставит под сомнение обоснованность стратосферных бюджетов на искусственный интеллект.

Когда на прошлой неделе главы крупнейших компаний в области искусственного интеллекта собрались в Швейцарских Альпах, их взгляды были устремлены на Восток. В панельных дискуссиях и частных беседах на полях Всемирного экономического форума в Давосе руководители технологических компаний подчеркивали необходимость для США и их союзников строить больше центров обработки данных и находить правильный баланс в регулировании, чтобы иметь возможность опережать Китай в разработке ИИ.

«Мы, вероятно, на год опережаем в моделях», — предполагал тогда на мероприятии Рут Порат, президент и главный инвестиционный директор Alphabet Inc.. Но, добавила она, «это не предрешенный результат», и что США пока сохраняют свое преимущество.

Но и эти предположения оказались чересчур оптимистичными. На той же неделе малоизвестный китайский стартап в области ИИ DeepSeek выпустил новую модель с открытым исходным кодом под названием R1, которая может имитировать мышление людей. Компания заявила, что R1 как минимум конкурирует или даже превосходит ведущих разработчиков США по ряду отраслевых показателей, включая математические задачи и общие знания. 

Но главный аспект состоит в том, что он его создание обошлось гораздо дешевле стоимости западных конкурентов. К выходным DeepSeek поднялся в рейтинге Chatbot Arena, тщательно отслеживаемой таблицы лидеров для систем ИИ, и видные деятели в сфере технологий, такие как Марк Андрессен, называли продукт «моментом Спутника в ИИ» («Момент Спутника» — идиоматическое выражение, означающее момент, когда люди осознают серьёзную угрозу и вызов, и вынуждены удвоить усилия, чтобы наверстать упущенное. Идиома возникла после 4 октября 1957 года, когда Советский Союз запустил первый в истории человечества искусственный спутник Земли, уязвив США).

1x-1-_3_ (4).jpg

Рут Порат в Давосе. Фотограф: Стефан Вермут/Bloomberg

Теперь технологическая индустрия США пытается понять, как DeepSeek удалось совершить этот подвиг и сделал ли новичок это правда так дешево, как он утверждает. Уже есть подозрения, что китайские разработчики создали своего чат-бота на основе западных технологий, обойдя огромные затраты на разработку больших языковых моделей.

В Сан-Франциско руководители и сотрудники ИИ срочно анализируют технологию DeepSeek. Некоторые сотрудники OpenAI пытаются выяснить, как именно DeepSeek смогла выпустить такую ​​модель. Другой человек утверждает, что в компании есть ощущение, что OpenAI нужно очень серьезно относиться к разработкам китайских компаний, поскольку это дает возможность внедрять инновации и улучшать их существующие модели. Генеральный директор OpenAI Сэм Альтман недавно сказал сотрудникам, что этот выпуск знаменует собой серьезный сдвиг в ландшафте стартапов.

«R1 от DeepSeek — впечатляющая модель», — написал Альтман в своей первой публичной реакции на X. «Очевидно, что мы предоставим гораздо лучшие модели, и также приятно иметь нового конкурента!»

1x-1-_4_ (4).jpg

Сэм Альтман Фотограф: Эндрю Харник/Getty Images

Компания Meta Platforms Inc.* (признана экстремистской организацией и её деятельность запрещена на территории РФ), которая также фокусируется на моделях ИИ с открытым исходным кодом, создала внутреннюю команду, которая занимается анализом DeepSeek, чтобы лучше понять, как он был создан и что он может делать. Компания сформировала аналогичные рабочие группы для оценки других основных конкурентов, таких как модель GPT-4 OpenAI и Gemini от Google, ссылаются на информированных людей СМИ.

Практически за одну ночь DeepSeek перевернул многие предположения в Кремниевой долине об экономике создания ИИ, а также о лучших технических методах разработки технологии и степени превосходства США над конкурентами в Китае. На протяжении большей части последних двух с лишним лет с тех пор, как ChatGPT положил начало глобальному безумию, отрасль делала ставку на то, что путь к лучшему ИИ во многом зависит от крупных расходов на более продвинутые чипы от таких компаний, как Nvidia Corp., и все более крупных центров обработки данных для их размещения.

Безымянный3443.jpg

На инфраструктуру ИИ уже тратят миллиарды. Расходы растут из-за строительства центров обработки данных

Президент США Дональд Трамп приветствовал разработку как «хорошую, поскольку вам не нужно тратить так много денег». Лидер отрасли Nvidia, чьи акции сильно пострадали от дебюта DeepSeek, также похвалил ее как «превосходное достижение ИИ» в своем заявлении.

«Выпуск DeepSeek AI от китайской компании должен стать тревожным сигналом для наших отраслей, и мы должны быть предельно сосредоточены на конкуренции, чтобы победить», — добавил Трамп.

Последствия для рынка были ошеломляющими. Шумиха вокруг DeepSeek привела к обвалу акций американских и европейских технологических компаний в понедельник почти на 1 триллион долларов, поскольку инвесторы усомнились в планах расходов некоторых крупнейших американских компаний. Падение акций одного только производителя чипов для искусственного интеллекта Nvidia уронил ее рыночную стоимость примерно на 589 миллиардов долларов, что стало крупнейшим крахом в истории фондового рынка США.

Тем временем в округе Колумбия законодателям предстоит найти наилучший способ остановить прогресс Китая в технологии, которую некоторые считают критически важной для его армии и экономики, учитывая, что ограничения на экспорт чипов администрацией Байдена оказались недостаточными. Дэвид Сакс, глава отдела криптовалют и искусственного интеллекта Трампа, сказал, что DeepSeek показывает, что глобальная гонка ИИ будет очень конкурентной, — при этом обвиняя администрацию Байдена в чрезмерном регулировании, которое «подкосило» развитие ИИ в США.

Еще больше усложняет ситуацию то, что возобновившаяся неопределенность в отношении крупных инвестиций в ИИ возникла всего через несколько дней после того, как Трамп выступил за создание совместного предприятия OpenAI, SoftBank Group Corp. и Oracle Corp. стоимостью 100 миллиардов долларов для повышения конкурентоспособности США за счет инвестиций в центры обработки данных и другую физическую инфраструктуру. Теперь возникают новые вопросы о целесообразности стратосферных бюджетов на ИИ.

«Это смена парадигмы», — уверен Али Годси, генеральный директор Databricks Inc. «Эти модели, которые могут рассуждать, настолько дешевле производить, что вы увидите, как быстро рынок станет демократичным. Вы увидите инновации из неожиданных уголков мира».

Становление DeepSeek

Для Лян Вэньфэна DeepSeek начинался как побочный проект. 40-летний Лян создал DeepSeek в 2023 году как ответвление подразделения ИИ для своего хедж-фонда Zhejiang High-Flyer Asset Management.

Лян смог задействовать некоторые местные таланты и, что особенно важно, чипы. Он начал накапливать около 10 000 графических процессоров Nvidia A100 — более старой версии ключевой технологии для обучения систем ИИ — до того, как США ввели экспортные ограничения. А большинство его ведущих исследователей были выпускниками ведущих китайских университетов, сказал он, подчеркивая необходимость для Китая развивать свою собственную внутреннюю экосистему.

DeepSeek быстро выпустила ряд моделей ИИ с открытым исходным кодом, начав с DeepSeek LLM в конце 2023 года. Две более продвинутые модели — V2 и V3 — вышли в середине и конце 2024 года соответственно. Однако именно модель R1 от DeepSeek, выпущенная в середине января, действительно задела за живое.

Безымянный3444.jpg

DeepSeek занимает третье место среди конкурентов моделей ИИ. Оцененные сообществом баллы для лучших моделей 5 лучших компаний. Источник: Chatbot Arena

Как и некоторые из последних моделей от OpenAI, Google и Anthropic, R1 предназначена для того, чтобы попугайничать, как люди иногда размышляют над проблемами, тратя время на вычисление ответа, прежде чем отвечать на запросы пользователей. Однако версия DeepSeek отличается своей эффективностью. 

Команда, стоящая за этим, придумала несколько простых, но важных инноваций, таких как поиск способов более эффективного использования компьютерных чипов, к которым у них был доступ. Еще один прорыв: активное использование техники, известной как обучение с подкреплением, которая вознаграждает систему за правильные ответы и наказывает ее за неправильные.

Приложение DeepSeek стало популярным среди пользователей США, отчасти благодаря приветливому, немного неловко звучащему чат-боту, который подробно показывает, как он планирует ответить на вопрос человека, прежде чем погрузиться в результаты. Подход включает в себя гораздо больше деталей, чем, скажем, последние модели рассуждений OpenAI. И в отличие от OpenAI, который взимает до 200 долларов в месяц за неограниченный доступ к своим самым передовым моделям рассуждений, среди прочих функций, DeepSeek в настоящее время предлагает свои услуги бесплатно. 

Но DeepSeek также цензурирует темы, которые являеются деликатными в Китае. Например, вопрос о китайской культурной революции может спровоцировать ответ: «Извините, это выходит за рамки моей текущей компетенции. Давайте поговорим о чем-нибудь другом».

Годси сказал, что в течение часа после выпуска R1 он получил первый запрос от клиента DataBricks, который интересовался его использованием. С тех пор спрос только усилился. В частности, сказал он, компании хотят знать, как добавить возможности рассуждения от DeepSeek поверх существующих моделей ИИ Databricks.

«Темпы и уровень интереса беспрецедентны для нас», — уверяет Годси.

1x-1-_5_ (3).jpg

Версия DeepSeek отличается от конкурентов своей эффективностью. Фотограф: Андрей Рудаков/Bloomberg

Мехди Осман, генеральный директор компании-разработчика программного обеспечения OpenReplay, говорит, что его компания традиционно использовала услуги OpenAI, Anthropic и Mistral, и что навыки рассуждения DeepSeek, схожи сс уровнем OpenAI. «Если OpenAI не снизит цены, я думаю, что многие разработчики перейдут на DeepSeek в ближайшие месяцы», — считает Осман.

OpenAI отказалась от комментариев. DeepSeek не ответила на запрос о комментарии.

«Он как бы вырвался из ниоткуда», — рассуждает Демис Хассабис, генеральный директор Google DeepMind. «Нет сомнений, что это впечатляющая система». Но, как и другие в отрасли, Хассабис выразил неуверенность в том, как работают модели DeepSeek, включая то, в какой степени они полагались на другие, западные модели.

Тем временем Альтман сообщил сотрудникам OpenAI, что его стартап пытается понять, является ли и в какой степени эффективность DeepSeek результатом переработки моделей OpenAI — то есть использования результатов ИИ этой компании для обучения другой модели с аналогичными возможностями — или представляет собой независимый исследовательский прорыв.

«Даже если это [переработка модели OpenAI] сэкономило им немного времени и немного денег — я не говорю, что они это сделали — в статье явно много настоящей технической работы, которую люди могут изучить и оценить самостоятельно», — утверждает Майлз Брандейдж, независимый исследователь политики в области ИИ, недавно покинувший OpenAI.

Некоторые основатели американских технологических компаний и венчурные капиталисты также скептически относятся к реальной цене технологии DeepSeek. Многие, включая Брендеджа, сомневались, включала ли оценка DeepSeek в размере 5,6 млн долларов на обучение стоимость предыдущих исследовательских экспериментов, а также фиксированные затраты на инвестиции в графические процессоры и строительство центров обработки данных.

Лян, со своей стороны, заявил, что затраты и сбор средств не являются его главной заботой. Он назвал ограничения США на доступ к лучшим чипа узким местом для дальнейшего прогресса в интервью китайскому изданию 36kr.

«Больше инвестиций не обязательно приводит к большему количеству инноваций», — считает Лян. «В противном случае крупные компании захватили бы все инновации».

Новая конкурентная среда

В течение недель, предшествовавших безумию DeepSeek, некоторые из крупных компаний, на которые Лян, возможно, намекал, еще больше напрягали свои финансовые мускулы.

Amazon прогнозировала потратить около 75 млрд долларов капитальных затрат в 2024 году и еще больше в этом году, в основном на технологическую инфраструктуру, такую ​​как чипы и центры обработки данных, которые питают искусственный интеллект. Meta*(признана экстремистской организацией и её деятельность запрещена на территории РФ) заявила, что инвестирует до 65 миллиардов долларов в проекты, связанные с ИИ, в 2025 году. А Microsoft решила, что потратит 80 миллиардов долларов на центры обработки данных ИИ в этом финансовом году.

Большая часть расходов крупнейших компаний облачных вычислений идет на графические процессоры Nvidia. Amazon, Google и Microsoft также создают специальные чипы, предназначенные для ИИ, работа, которая может быть менее полезной в долгосрочной перспективе, если разработчики смогут создавать и запускать модели на менее специализированном оборудовании, написал Стефан Словински, аналитик BNP Paribas Exane, в исследовательской записке.

Облачные гиганты уже сталкиваются с вопросами инвесторов о доходности своих значительных затрат на ИИ. Microsoft, например, изо всех сил пыталась монетизировать чат-ботов Copilot, которые она встраивала во многие свои линейки продуктов. Amazon, тем временем, отстает от своих основных конкурентов в разработке собственных больших языковых моделей, даже при том, что внедряет чатботов и другие инструменты ИИ в свой розничный и облачный бизнес.

1x-1-_7_ (3).jpg

Инженеры Amazon работают над чипами искусственного интеллекта в Annapurna Labs в Остине. Фотограф: Серхио Флорес/Bloomberg

Но огромные инвестиции двух компаний могут окупиться в будущем. Amazon делает ставку на то, что ее статус крупнейшего поставщика арендуемых вычислительных мощностей поможет ей процветать, поскольку другие компании обучают и запускают программы ИИ на серверах Amazon Web Services. По словам Марка Мёрдлера, аналитика Bernstein Societe Generale Group, Microsoft больше сосредоточена на создании центров обработки данных, которые запускают модели ИИ, а не на их обучении. Он ожидает, что расходы компании снизятся уже в следующем году. 

«Мы считаем, что они в основном строят потенциал вывода, а не обучения», — говорит он. «Если это так, я не думаю, что DeepSeek — проблема для Microsoft». 

Alphabet также тратит много, а финансовый директор Анат Ашкенази заявила, что ожидает значительного увеличения расходов в этом году. Тем не менее, подразделение Google Cloud компании использовало свои продукты ИИ для привлечения новых клиентов и получения большего количества заказов от существующих. Руководители Google также хвастались своим успехом в снижении стоимости предоставления ответов, сгенерированных ИИ, в поиске.

Главный вопрос заключается в том, примут ли крупные американские технологические компании аспекты подхода DeepSeek. Некоторые разработчики ИИ говорят, что успех китайского стартапа может ускорить переход к более дешевому и прибыльному ИИ — запустив естественный прогресс, который двигал почти все крупные технологические разработки, от чипов до смартфонов.

«Будущее ИИ принадлежит тем, кто сосредоточен на более эффективных методах, а не на большем количестве вычислений», — уверяет Эйдан Гомес, генеральный директор стартапа AI Cohere.