Как снизить энергопотребление ИИ — задача, над которой активно работают исследователи

Россия+7 (910) 990-43-11
Обновлено: 2025-04-18

В начале ноября 2024 года Федеральная комиссия по регулированию энергетики США (FERC) отклонила запрос Amazon на покупку дополнительных 180 мегаватт электроэнергии напрямую с АЭС Саскуэханна для своего центра обработки данных, расположенного поблизости. Причиной отказа стало утверждение, что покупка электроэнергии напрямую, вместо того чтобы получать её через сеть, как все остальные, противоречит интересам других пользователей.

Спрос на электроэнергию оставался относительно стабильным в течение почти 20 лет. Однако, в последнее время мы наблюдаем стремительный рост прогнозов нагрузки. По словам Марка Кристи, комиссара FERC, эти прогнозы могут варьироваться от стремительного до просто быстрого роста.

Часть этого всплеска спроса исходит от центров обработки данных, которые требуют всё больше мощностей для запуска более сложных моделей искусственного интеллекта.

Управление потреблением энергией системами искусственного интеллекта

Момент AlexNet

В 2012 году группа исследователей искусственного интеллекта (ИИ) из Университета Торонто, состоящая из Алекса Крижевского, Ильи Суцкевера и Джеффри Э. Хинтона, работала над сверточной нейронной сетью (CNN) для конкурса по распознаванию изображений ImageNet LSRVC. Правила конкурса были просты: создать систему ИИ, способную классифицировать изображения из базы данных, содержащей более миллиона помеченных изображений.

В то время задача была невероятно сложной, и команда решила, что им нужна очень большая нейронная сеть – гораздо больше, чем у любой другой исследовательской группы. AlexNet, названная в честь ведущего исследователя, имела несколько слоев с более чем 60 миллионами параметров и 650 тысячами нейронов. Однако, проблема заключалась в том, как обучить такого гиганта.

В лаборатории команды было несколько видеокарт Nvidia GTX 580, каждая с 3 ГБ памяти. Как писали исследователи в своей статье, AlexNet была слишком большой, чтобы поместиться на любом из доступных графических процессоров (GPU). Поэтому они придумали, как разделить фазу обучения AlexNet между двумя GPU, которые работали параллельно: половина нейронов обучалась на одном GPU, а другая половина – на другом.

AlexNet одержала убедительную победу в конкурсе 2012 года, но команда достигла гораздо более значимого результата. Размер моделей ИИ был раз и навсегда отделен от возможностей одного процессора или графического процессора. Это было подобно тому, как джинн был выпущен из бутылки.

Недавно исходный код AlexNet был предоставлен Музею компьютерной истории.

Акт уравновешивания

После успеха AlexNet использование нескольких графических процессоров для обучения искусственного интеллекта стало общепризнанным. С каждым годом всё более мощные системы ИИ требовали все больше графических процессоров: сначала десятки, затем сотни, тысячи и даже больше. Однако, прошло некоторое время, прежде чем эта тенденция начала ощущаться в Интернете.

Согласно отчету Института исследований в области электроэнергетики (EPRI), энергопотребление центров обработки данных оставалось относительно стабильным в период с 2010 по 2020 год. Это не означает, что спрос на услуги центров обработки данных оставался неизменным, но улучшение энергоэффективности центров обработки данных было достаточным, чтобы компенсировать увеличение их потребностей.

Два ключевых фактора, способствовавших этой эффективности, – это растущее использование вычислений на графических процессорах (GPU) и повышение энергоэффективности самих GPU.

«Это было основой того, почему столь быстро росла компания Nvidia. Мы объединили процессоры с ускорителями, чтобы повысить эффективность», – сказал Дион Харрис, руководитель отдела маркетинга продуктов для центров обработки данных в Nvidia.

В период с 2010 по 2020 год чипы Nvidia для центров обработки данных стали, примерно, в 15 раз более эффективными, что позволило поддерживать стабильное энергопотребление этих центров.

Всё изменилось с появлением крупных языковых моделей-трансформеров, таких как ChatGPT, в 2022 году. Как отметил Мошараф Чоудхури, профессор Мичиганского университета и участник исследовательской группы ML Energy Initiative, занимающейся повышением энергоэффективности ИИ, произошёл значительный скачок, когда трансформеры стали мейнстримом.

Nvidia, продолжая совершенствовать свою продукцию, добилась впечатляющих результатов: с 2020 года эффективность работы её чипов увеличилась в десять раз.

«Эта эффективность во многом обусловлена оптимизацией программного обеспечения. Только в прошлом году мы смогли улучшить общую производительность Hopper, примерно, в пять раз», — сказал Харрис.

Однако, несмотря на эти достижения, по оценкам Национальной лаборатории Лоуренса в Беркли, потребление энергии центрами обработки данных в США выросло с 76 ТВт·ч в 2018 году до 176 ТВт·ч в 2023 году.

Жизненный цикл ИИ

LLM – это большие языковые модели, которые обрабатывают десятки миллиардов нейронов. Они приближаются к уровню, сопоставимому с человеческим мозгом, а возможно, даже превосходят его.

Предполагается, что GPT 4 будет иметь около 100 миллиардов нейронов, распределенных по 100 слоям, и более 100 триллионов параметров, определяющих силу связей между ними. Эти параметры устанавливаются в процессе обучения, когда ИИ получает огромные объёмы данных и корректирует свои значения. Затем следует фаза вывода, когда модель занимается обработкой ежедневных запросов.

Обучение представляет собой колоссальное вычислительное усилие. По данным OpenAI, для этого использовалось более 25 000 графических процессоров Nvidia Ampere 100, которые работали на полную мощность в течение 100 дней. Расчетное энергопотребление составило 50 ГВт-часов, что достаточно для обеспечения энергией среднего города в течение года.

Согласно данным, опубликованным Google, обучение занимает 40 процентов от общего энергопотребления модели ИИ в течение её жизненного цикла. Оставшиеся 60 процентов приходятся на фазу вывода, где показатели энергопотребления менее впечатляющие, но со временем они будут расти.

Сокращение моделей ИИ

Растущее энергопотребление стало одной из ключевых проблем, стоящих перед компьютерным сообществом. Исследователи ищут способы сократить объём памяти и вычислений, не снижая при этом производительность.

Одним из первых методов, которые предложили ученые, была техника, известная как обрезка. Её цель – уменьшить количество параметров в обученных моделях искусственного интеллекта. Ян Лекун предложил этот подход еще в 1989 году, назвав его «оптимальным повреждением мозга».

Суть обрезки заключается в удалении некоторых параметров из модели, обычно выбирая те, которые имеют нулевое значение и не влияют на общую производительность. Чанг объяснил, что этот метод позволяет преобразовать большую модель в меньшую, сохраняя при этом качество.

Ещё один способ оптимизировать модели ИИ – это квантование. Обычно параметры в нейронных сетях представлены как числа с плавающей точкой одинарной точности, занимающие 32 бита памяти компьютера. Однако, квантование позволяет изменить формат параметров на более компактный, что снижает требования к памяти и ускоряет вычисления.

Уменьшение отдельного параметра может показаться незначительным, но когда речь идёт о миллиардах параметров, эффект суммируется. Также существует возможность обучения с учетом квантования, которое применяет квантование на этапе обучения. По данным Nvidia, которая внедрила обучение с квантованием в свой набор инструментов для оптимизации моделей ИИ, это может снизить требования к памяти на 29-51 процент.

Обрезка и квантование относятся к категории методов оптимизации, которые направлены на тонкую настройку внутренних процессов работы моделей ИИ – количества параметров и интенсивности использования памяти. Эти методы можно сравнить с настройкой двигателя автомобиля для повышения его скорости и снижения потребления топлива.

Однако, существуют и другие категории методов, которые сосредоточены на процессах, используемых компьютерами для запуска моделей ИИ, а не на самих моделях. Это похоже на улучшение расчета светофоров, которое позволяет автомобилю быстрее реагировать на дорожную ситуацию.

Синхронизированный финиш

Помимо оптимизации самих моделей искусственного интеллекта, мы могли бы также улучшить способ их использования в центрах обработки данных. Равномерное распределение нагрузки на этапе обучения между 25 тысячами графических процессоров оказывается неэффективным.

«Когда вы делите модель на 100 000 графических процессоров, вы, в конечном итоге, нарезаете её на несколько частей в нескольких измерениях, и очень сложно сделать каждую часть точно одинакового размера», – говорит Чанг.

Графические процессоры, на которые возлагаются большие рабочие нагрузки, потребляют больше энергии, что не всегда компенсируется за счёт меньшей нагрузки на другие. Чанг предположил, что если бы графические процессоры с меньшими нагрузками работали медленнее, потребляя меньше энергии, они могли бы завершить работу, примерно, в то же время, что и те, которые обрабатывают большие нагрузки на полной скорости. Хитрость заключается в том, чтобы настроить каждый графический процессор так, чтобы весь кластер заканчивал работу одновременно.

Чтобы реализовать эту идею, Чунг разработал программный инструмент под названием Perseus, который определяет объём рабочих нагрузок, назначенных каждому графическому процессору в кластере. Perseus учитывает расчётное время, необходимое для завершения самой большой рабочей нагрузки на графическом процессоре, работающем на полную мощность. Затем он оценивает, сколько вычислений должно быть выполнено на каждом из оставшихся графических процессоров, и определяет, на какой скорости их следует запускать, чтобы они завершили работу все вместе.

«Perseus точно замедляет некоторые графические процессоры, а замедление означает меньшее потребление энергии, но сквозная скорость остаётся той же», — добавил Чунг.

Команда протестировала Perseus, обучив общедоступный GPT-3, а также другие крупные языковые модели и искусственный интеллект компьютерного зрения. Результаты оказались многообещающими.

«Perseus может сократить до 30 процентов энергии для всего этого», – сказал Чанг.

Он добавил, что команда обсуждает возможность внедрения Perseus на практике, «но для внедрения чего-то нового в крупной компании требуется много времени».

Достаточно ли всех этих оптимизаций моделей и способов их использования в центрах обработки данных, чтобы мы могли добиться успеха? Планирование и строительство центра обработки данных занимает примерно год или два, но строительство электростанции может занять больше времени. Так выигрываем мы эту гонку или проигрываем? Сложно сказать.

Обратная сторона конверта

Когда стало очевидно, что энергопотребление центров обработки данных стремительно растет, исследовательские группы попытались оценить масштабы этой проблемы.

Команда Lawrence Berkley Laboratory рассчитала, что к 2028 году годовое потребление энергии центрами обработки данных в США составит от 325 до 580 тераватт-часов (ТВт·ч). Это составляет от 6,7 до 12 процентов от общего потребления электроэнергии в стране.

Международное энергетическое агентство прогнозирует, что к 2026 году этот показатель достигнет, примерно, 6 процентов. Goldman Sachs Research ожидает 8 процентов к 2030 году, в то время как EPRI заявляет о 4,6-9,1 процента к тому же сроку.

EPRI также предупреждает, что последствия будут ещё более серьёзными, поскольку центры обработки данных, как правило, сосредоточены в местах, которые инвесторы считают привлекательными. Например, в Вирджинии уже 25 процентов электроэнергии направляется в центры обработки данных. В Ирландии, как ожидается, в ближайшем будущем центры обработки данных будут потреблять треть электроэнергии, производимой во всей стране. И это только начало.

Запуск крупных моделей искусственного интеллекта, таких как ChatGPT, является одной из самых энергоемких задач, выполняемых в центрах обработки данных. Однако, по данным Nvidia, на неё приходится, примерно, 12 процентов операций. Ситуация может измениться, если такие компании, как Google, начнут интегрировать разговорные LLM (большие языковые модели) в свои самые популярные сервисы.

В отчете EPRI подсчитано, что один поисковый запрос в Google сегодня потребляет около 0,3 Вт энергии, в то время как один запрос в ChatGPT увеличивает это значение до 2,9 Вт. Основываясь на этих данных, в отчете прогнозируется, что поиск Google на базе ИИ потребует от Google развертывания 400 000 новых серверов, которые будут потреблять 22,8 ТВт·ч в год.

«Поисковые системы с использованием ИИ потребляют в 10 раз больше электроэнергии, чем их аналоги без ИИ», – заявил Кристи, комиссар FERC, на конференции, организованной FERC.

Закрытая проблема ИИ

Чоудхури и Чанг не считают эти цифры особенно достоверными. Они предполагают, что мы не имеем представления о том, что происходит внутри коммерческих систем ИИ, таких как ChatGPT или Gemini, поскольку OpenAI и Google никогда не публиковали фактические данные об энергопотреблении.

По словам Чоудхури, мы не располагаем реальными цифрами или научными работами, которые бы подтверждали энергопотребление этих систем. Единственная цифра, 0,3 Вт на поиск в Google, была опубликована в сообщении в блоге или другом связанном с пиаром материале. Мы не знаем, как измерялось это энергопотребление, на каком оборудовании и при каких условиях. Но, по крайней мере, эта цифра была предоставлена непосредственно Google.

Когда речь заходит об уравнении «10x Google против ChatGPT», одна часть уравнения известна лишь наполовину, а другая часть остаётся неизвестной. Затем деление осуществляется третьей стороной, которая не имеет отношения ни к Google, ни к Open AI.

«Связанный с пиаром материал» Google был опубликован ещё в 2009 году, а цифра в 2,9 Вт на запрос ChatGPT, вероятно, была основана на комментарии Дженсена Хуанга, генерального директора Nvidia, о количестве графических процессоров, необходимых для обучения GPT-4, сделанном в 2024 году. Это означает, что утверждение о «10-кратном увеличении ИИ по сравнению с поиском без ИИ» на самом деле было основано на потреблении энергии, достигнутом на совершенно разных поколениях оборудования, разделённых 15 годами. «Но эта цифра казалась правдоподобной, поэтому люди продолжают её повторять», – комментирует Чоудхури.

Все доступные сегодня отчеты были сделаны третьими лицами, которые не связаны с компаниями, создающими крупные ИИ. Тем не менее, они приходят к странным конкретным цифрам.

«Они берут цифры, которые являются лишь оценками, затем умножают их на множество других цифр и возвращаются с заявлениями вроде «ИИ потребляет больше энергии, чем Великобритания, или больше, чем Африка, или что-то в этом роде». Правда в том, что они этого не знают», — сказал Чоудхури.

Он утверждает, что для получения лучших показателей необходимо сопоставить модели ИИ с использованием формальной процедуры тестирования, которую можно было бы проверить в процессе рецензирования.

Как оказалось, ML Energy Initiative определила именно такую процедуру тестирования и провела бенчмарки на любых моделях ИИ, которые они смогли получить. Затем группа опубликовала результаты в интернете на своей доске лидеров ML.ENERGY.

Чоудхури и Чанг не считают эти цифры особенно достоверными. Они считают, что мы ничего не знаем о том, что происходит внутри коммерческих систем ИИ, таких как ChatGPT или Gemini, поскольку OpenAI и Google никогда не публиковали фактические цифры энергопотребления.

«Они не опубликовали никаких реальных цифр, никаких научных работ. Единственная цифра, 0,3 Вт на поиск в Google, появилась в каком-то сообщении в блоге или другой связанной с пиаром штуке», — сказал Чодвхури. Мы не знаем, как измерялось это энергопотребление, на каком оборудовании или при каких условиях, сказал он. Но, по крайней мере, это пришло напрямую от Google.

«Когда вы берете это уравнение 10x Google против ChatGPT или что-то в этом роде, одна часть известна наполовину, другая часть неизвестна, а затем деление выполняется какой-то третьей стороной, которая не имеет никакого отношения ни к Google, ни к Open AI», — сказал Чоудхури.

«Связанная с пиаром штука» Google была опубликована еще в 2009 году, а цифра в 2,9 Вт на запрос ChatGPT, вероятно, была основана на комментарии о количестве графических процессоров, необходимых для обучения GPT-4, сделанном Дженсеном Хуангом, генеральным директором Nvidia, в 2024 году. Это означает, что утверждение о «10-кратном увеличении ИИ по сравнению с поиском без ИИ» на самом деле основывалось на потреблении энергии, достигнутом на совершенно разных поколениях оборудования, разделенных 15 годами. «Но эта цифра казалась правдоподобной, поэтому люди продолжают ее повторять», — сказал Чоудхури.

Все отчеты, которые у нас есть сегодня, были сделаны третьими лицами, которые не связаны с компаниями, создающими крупные ИИ, и тем не менее они приходят к странно конкретным цифрам. «Они берут цифры, которые являются всего лишь оценками, затем умножают их на множество других цифр и возвращаются с заявлениями вроде «ИИ потребляет больше энергии, чем Великобритания, или больше, чем Африка, или что-то в этом роде». Правда в том, что они этого не знают», — сказал Чоудхури.

Он утверждает, что для получения лучших показателей потребуется сопоставить модели ИИ с использованием формальной процедуры тестирования, которую можно было бы проверить в процессе рецензирования.

Как оказалось, ML Energy Initiative определила именно такую процедуру тестирования и провела бенчмарки на любых моделях ИИ, которые они смогли получить. Затем группа опубликовала результаты в Интернете на своей доске лидеров ML.ENERGY.

Таблица лидеров эффективности ИИ

Чтобы получить точные данные, команда ML Energy Initiative отказалась от идеи оценивать энергопотребление графических процессоров (GPU) по их тепловому расчетному потенциалу (TDP), который представляет собой максимальную потребляемую мощность.

Использование TDP было бы похоже на оценку эффективности автомобиля по количеству топлива, которое он сжигает при максимальной скорости. Однако, это не соответствует реальным условиям вождения и не отражает работу GPU при запуске моделей искусственного интеллекта. Поэтому Чанг разработал ZeusMonitor – комплексное решение, позволяющее измерять энергопотребление GPU в режиме реального времени.

Для проведения тестов команда использовала установки с графическими процессорами Nvidia A100 и H100, которые сегодня наиболее распространены в центрах обработки данных. Они измеряли, сколько энергии потребляют эти процессоры при работе с различными большими языковыми моделями (LLM), диффузионными моделями, которые генерируют изображения или видео на основе текстового ввода, и многими другими системами искусственного интеллекта.

Самый крупный LLM, вошедший в таблицу лидеров, — Meta's Llama 3.1 405B, чат-бот с открытым исходным кодом, имеющий 405 миллиардов параметров. При запуске на двух графических процессорах H100 он потреблял 3352,92 джоуля энергии на запрос, что составляет около 0,93 ватт-часов. Это значительно меньше, чем 2,9 ватт-часов, указанных для запросов ChatGPT. Эти измерения подтвердили улучшение энергоэффективности оборудования.

Mixtral 8x22B был самым крупным LLM, который команде удалось запустить на платформах Ampere и Hopper. Запуск модели на двух графических процессорах Ampere обеспечил потребление 0,32 ватт-часов на запрос, по сравнению с 0,15 ватт-часами на одном графическом процессоре Hopper.

Однако, остается неизвестной производительность фирменных моделей, таких как GPT-4, Gemini или Grok. Команда ML Energy Initiative считает, что исследовательскому сообществу очень сложно предлагать решения проблем энергоэффективности, когда мы даже не знаем, с чем имеем дело. Мы можем делать оценки, но Чанг подчеркивает, что они должны сопровождаться анализом ошибок. На данный момент у нас нет ничего подобного.

По словам Чунга и Чоудхури, самой серьёзной проблемой является отсутствие прозрачности.

«У таких компаний, как Google или Open AI, нет стимула говорить о потреблении энергии. Публикация реальных цифр может нанести им вред», — сказал Чоудхури. «Но люди должны понимать, что происходит на самом деле, так что, возможно, нам следует как-то убедить их опубликовать некоторые из этих цифр».

Там, где резина встречается с дорогой

Энергоэффективность в центрах обработки данных следует тенденции, схожей с законом Мура, — только в гораздо большем масштабе, а не на одном чипе, как утверждает Харрис из Nvidia. По его словам, потребление энергии на стойку — единицу, используемую в центрах обработки данных, где установлено от 10 до 14 графических процессоров Nvidia, — постепенно растёт, однако производительность на ватт продолжает улучшаться.

«Если учесть все инновации, которые происходят в оптимизации программного обеспечения, системах охлаждения, MEP (механических, электрических и сантехнических) и самих графических процессорах, у нас большой запас прочности», — уверен Харрис. Он ожидает, что этот крупномасштабный вариант закона Мура будет действовать ещё довольно долго, даже без каких-либо радикальных изменений в технологиях.

Однако, на горизонте уже появляются более революционные решения. Идея, которая привела такие компании, как Nvidia, к их нынешнему положению на рынке, заключалась в том, чтобы переложить определённые задачи с центрального процессора (CPU) на выделенное, специально разработанное оборудование – графический процессор (GPU). Но, теперь даже GPU, вероятно, будут использовать свои собственные ускорители в будущем.

Нейронные сети и другие параллельные вычислительные задачи могут быть реализованы на фотонных чипах, которые используют свет вместо электронов для обработки информации. Фотонные вычислительные устройства на порядки более энергоэффективны, чем современные GPU, и могут запускать нейронные сети буквально со скоростью света.

Ещё одно новшество, которое стоит ожидать, — это 2D-полупроводники, позволяющие создавать невероятно маленькие транзисторы и укладывать их вертикально, что значительно повышает возможную плотность вычислений в пределах заданной области чипа.

«Мы изучаем многие из этих технологий, пытаясь оценить, куда мы можем их направить», — говорит Харрис. «Но где действительно возникают сложности, так это в том, как их масштабировать. Вероятно, ещё слишком рано говорить о будущем соотношении цены и качества».

Проблема в том, что когда мы делаем ресурс более эффективным, мы просто начинаем использовать его больше. Это парадокс Джевонса, известный с начала индустриальной эпохи. Но, увеличит ли потребление энергии ИИ настолько, что это приведёт к апокалипсису? Чанг так не считает. По словам Чоудхури, если у нас закончится энергия для поддержания нашего прогресса, мы просто замедлимся.


5.0/1