Уже в 2023 году, спустя всего год после запуска ChatGPT, эксперты высказывали опасения, что к 2025 году в мире может закончиться запас качественных данных для обучения искусственного интеллекта.
В последующие годы многие исследования подтверждали эти опасения.
И вот мы перенеслись в 2025 год, и проблема снова стала актуальной. Илон Маск присоединился к обсуждению и согласился с мнением экспертов отрасли о том, что данные для обучения искусственного интеллекта уже почти исчерпаны.
В своём выступлении на X Маск заявил: «Мы сейчас практически исчерпали совокупный объём человеческих знаний… в области обучения искусственного интеллекта».
Что происходит сейчас? Ограничивает ли дефицит и разнообразие данных для обучения искусственного интеллекта инновации? Могут ли синтетические данные решить проблему, или есть другие варианты?
В этом обзоре мы отвечаем на эти и другие вопросы, чтобы лучше понять текущее состояние искусственного интеллекта и его будущее.
Почему заканчиваются данные для обучения ИИ
Хотя многие считают, что нехватка данных для обучения искусственного интеллекта связана с тем, что модели ИИ становятся больше, быстрее и требуют больше данных, есть и другие причины.
Качество данных и ограничения на их использование играют важную роль в этой проблеме. В исследовании, проведённом в 2024 году, было проанализировано 14 000 веб-доменов. Цель исследования — получить информацию о согласии на использование данных, доступных для сканирования веб-данных, и ограничениях, которые сайты накладывают на использование контента для обучения ИИ.
Исследование показало, что за год (2023-2024) произошло резкое увеличение ограничений на доступ к данным из веб-источников.
Ограничения на данные для обучения ИИ стали более распространёнными и ужесточились. Во многих случаях веб-сайты активно ограничивают доступ к данным, а в других случаях инфраструктура данных просто не рассчитана на масштабное повторное использование онлайн-контента для обучения моделей ИИ.
Хотя растущие размеры, мощность и возможности моделей ИИ способствуют дефициту наборов данных для обучения, есть и другие факторы, которые влияют на ситуацию.
Качество данных – одна из ключевых проблем. Модели ИИ требуют высококачественных данных для эффективного обучения. Хотя в мире ежедневно генерируется огромное количество новых данных, большая их часть недоступна для ИИ или не соответствует высоким стандартам, требуемым продвинутыми LLM и другими моделями машинного обучения.
Что произойдет, когда данные для обучения ИИ закончатся
Короткий ответ: ничего хорошего.
Данные, используемые для обучения, определяют эффективность и возможности искусственного интеллекта. Если высококачественные данные становятся дефицитными или их вообще не хватает, то модели искусственного интеллекта, которые уже используются, начнут выдавать менее точные и надёжные результаты.
В то же время, модели, которые ещё разрабатываются, могут быть заброшены и никогда не увидеть свет.
Без качественных данных для обучения искусственный интеллект может выдавать бесполезные и бессмысленные результаты.
Но, почему нехватка данных так сильно влияет на искусственный интеллект?
Исследователи Epoch AI подсчитали, что общий объём общедоступных текстовых данных, созданных человеком, составляет примерно 300 триллионов токенов с 90% доверительным интервалом от 100T до 1000T. Эти данные не включают низкокачественные материалы.

Мы можем рассматривать эти 300 триллионов токенов как обширный и постоянно расширяющийся словарь. Разработчик AI Copilot, Pieces, наглядно продемонстрировал эту идею:
«Представьте, что вы обучаете ребёнка новому языку. Чем больше слов и выражений он услышит, тем быстрее будет учиться. Но, если вы будете постоянно повторять одни и те же слова, его обучение замедлится и, в итоге, остановится».
Подобно ребёнку, который выучил всего несколько слов, искусственный интеллект, ограниченный определённым количеством токенов, достигнет предела своих возможностей.
Этот предел может помешать стремительному развитию инноваций в области искусственного интеллекта.
Как частные и некачественные данные влияют на ИИ
Ограниченность общедоступных данных для обучения искусственного интеллекта может иметь и другие, не столь очевидные последствия. Например, это может стимулировать использование личных данных. Однако, использование личных данных требует строгого контроля, поскольку это может привести к проблемам с конфиденциальностью и юридическим проблемам.
Чтобы избежать этих рисков, разработчики всё чаще обращаются к низкокачественным наборам данных, синтетическим данным и частным источникам данных, соответствующим законодательству. Однако, каждый из этих источников имеет свои риски, включая предвзятость, проблемы с соответствием, «галлюцинации», проблемы с конфиденциальностью и уязвимости в области кибербезопасности.
В конечном итоге, нехватка данных для обучения может негативно повлиять на разработку искусственного интеллекта и привести к серьёзным последствиям: от юридических проблем до финансовых и репутационных потерь, нарушений кибербезопасности и утечек конфиденциальной информации.
Где найти больше данных для обучения ИИ
Вот три основных решения:
- Синтетические данные
- Личные данные
- Лучшая оптимизация моделей ИИ
Рынок синтетических данных стремительно растет. По прогнозам, к 2030 году его объем достигнет 2,3 миллиарда долларов, увеличившись с 351,2 миллиона в 2023-м.
Технологические гиганты, такие как IBM, Google и Microsoft, активно развивают это направление. Многие другие компании уже сейчас предлагают синтетические данные для различных отраслей: здравоохранения, производства, правоохранительных органов, обороны, безопасности границ, логистики и IT.
Gartner прогнозирует, что к 2030 году синтетические данные станут основным источником для обучения искусственного интеллекта.
Создание таких данных возможно разными способами: от объединения алгоритмов с анонимными реальными данными до генерации их с помощью ИИ-моделей.
Тем не менее, синтетические данные остаются лишь симуляцией и могут содержать ошибки. Для их исправления и повышения точности модели ИИ используют высокооптимизированные алгоритмы.
Синтетические данные обходятся дешевле и более последовательны, чем реальные. Их можно настраивать под конкретные задачи, что ускоряет разработку.
В то же время появились легальные способы использования личных данных. 10 января 2024 года Bloomberg сообщил, что OpenAI, Google, Moonvalley и другие компании платят создателям видео на YouTube, Instagram и TikTok за неопубликованные материалы для обучения ИИ.
Сделки особенно выгодны для тех, кто предлагает высококачественное видео 4K, принося авторам тысячи долларов. Это показывает, как частные данные могут решить проблему дефицита информации для ИИ.
Можно ли улучшить модели ИИ с ограниченным объемом данных?
Да.
Маленькие и мини-модели ИИ – упрощенные версии больших языковых моделей (LLM) – демонстрируют высокую производительность и эффективность. Это доказывает, что проблема не в размере данных, а в их оптимизации.
Разработчики могут улучшить модели, адаптируя их под конкретные задачи. Это сокращает ошибки, повышает вовлеченность и эффективность использования ресурсов. Кроме того, это снижает энергопотребление и потребность в охлаждении центров обработки данных.
Итог
Ни один метод – будь то оптимизация ИИ, синтетические данные или использование частных данных – не способен полностью решить проблему дефицита обучающих данных для разработчиков. Однако, их грамотное сочетание открывает большие перспективы.
По иронии, исчерпание общедоступной информации для ИИ может стать толчком к развитию. Когда разработчики столкнутся с острой нехваткой данных, им придётся выйти за пределы привычного и искать новые пути. Это может привести к появлению инновационных решений и расширению возможностей искусственного интеллекта.
Часто задаваемые вопросы
Что такое данные для обучения ИИ?
Данные для обучения ИИ – это набор информации, который помогает моделям распознавать закономерности и прогнозировать результаты.
Сколько данных нужно для обучения ИИ?
Объём данных зависит от модели. Для достижения высокой точности крупным системам ИИ требуются огромные наборы данных, часто триллионы токенов.
Насколько велик набор данных для обучения ИИ?
Размер данных для обучения ИИ варьируется в зависимости от задачи. Для простых моделей достаточно сотен тысяч точек данных, а для сложных – миллионов или даже миллиардов.
В чем разница между данными обучения и тестирования в ИИ?
Данные обучения используются для обучения модели, а данные тестирования – для оценки её точности и производительности, не влияя на обучение.