12.09.2025
Американский журнал The Atlantic выявил незаконное использование более 15,8 млн видеороликов с 2 млн YouTube-каналов в обучающих массивах данных для ИИ. Эти видео находятся в 13 публичных наборах данных, распространяемых через платформы вроде Hugging Face. Видео в основном анонимны; авторов идентифицировали журналисты.
Разработчики нарушают правила платформы YouTube, скачивая видео для обработки алгоритмами. Хотя не все ролики защищены авторским правом, использование такой базы данных остается юридически спорным. Многие записи копируются без разрешения, что порождает судебные разбирательства. Контент, созданный ИИ, включая обучающие и музыкальные видео, быстро распространяется на YouTube, вытесняя другой. Проблема выходит за пределы YouTube: чат-боты уже генерируют мультимодальные ответы, позволяя создать материалы, адаптированные под запросы пользователей. Крупные компании, такие как Microsoft, Amazon и Nvidia, активно используют массивы данных с YouTube, оправдывая их применение как законное. Успех таких технологий возможен только благодаря массивам данных, где значительный процент видео взят с образовательных и развлекательных каналов.
Разработчики отдают предпочтение высококачественным роликам, например, научной фантастике или популярным фрагментам. Массивы. Видео с субтитрами и логотипами менее востребованы, так как эти элементы могут видеть пользователи в генерированных роликах. Для обучения модели видео делят на короткие клипы с текстовыми описаниями на английском. Сопоставляя текст с изображением, алгоритмы обучаются создавать видео по запросу. Аннотации делают либо люди, либо ИИ. На TED применяется технология синхронизации речи с движением губ для дубляжа выступлений на других языках.
ИИ-контент становится источником прибыли для пользователей. Например, DeepBrain AI предлагает $500 за ИИ-видеоролики на YouTube, если они достигнут 10 000 просмотров – вполне достижимая цель. Компании активно делятся доходами от рекламы, поощряя создание контента с помощью ИИ. Одновременно на рынке появились так называемые инфоцыгане, обещающие научить секретам заработка на материалах, созданных ИИ. Однако корпорации действуют еще шире, обучая свои системы на видеоконтенте с принадлежащих им платформ: Google использовала не менее 70 миллионов видео с YouTube. Наступает эпоха конкуренции между людьми и искусственным интеллектом за создание качественного контента, что грозит дальнейшим изменением характера социальных сетей. Об этом задумался даже директор OpenAI Сэм Альтман, отметив, как технологии меняют суть первоначального предназначения соцсетей.
На фоне этих изменений недавно появился стандарт лицензирования контента Really Simple Licensing (RSL), позволяющий медиакомпаниям определять условия оплаты за использование их данных для обучения ИИ. Новый подход даёт веб-издателям возможность вносить параметры лицензирования прямо в файл robots.txt на своих сайтах. Эти правила могут также распространяться на онлайн-книги, видеоматериалы и учебные наборы данных. Среди уже заявивших о поддержке RSL такие крупные игроки, как Reddit, Yahoo, Medium, Quora, IGN и People Inc. Стандарт расширяет функционал robots.txt, позволяя не просто ограничивать доступ для ботов, но и устанавливать условия лицензирования с возможностью получения роялти.
За разработкой RSL стоит правозащитная организация RSL Collective, которую возглавляют Экарт Вальтер, соавтор стандарта RSS, и Дуг Лидс, в прошлом генеральный директор IAC Publishing и Ask.com. По словам Вальтера, цель этой инициативы – создать новую масштабируемую бизнес-модель для интернета, интегрирующую модели лицензирования и компенсации. Несколько крупных медиакомпаний уже заключили соглашение с разработчиками ИИ вроде OpenAI и Amazon, но RSL Collective стремится упростить процесс оплаты для владельцев сайтов, минимизируя количество отдельных контрактов. Лидс также подчёркивает юридический аспект проекта: организация сможет коллективно бороться с нарушениями прав интеллектуальной собственности и делить судебные расходы между участниками. Он сравнивает работу RSL с системами защиты музыкальных прав вроде ASCAP, которая распределяет лицензионные сборы между правообладателями через единый механизм регулирования.
