IT-новости в области права

В декабре будет запущена система анализа запрещенного контента

17.08.2022

Структура Роскомнадзора выделила 57,7 млн рублей на разработку системы поиска противоправного контента «Окулус», которая на основе нейросетей будет анализировать фото, видео и тексты на сайтах, в соцсетях и мессенджерах на предмет запрещенной информации, в том числе пропаганды гомосексуализма, изготовления наркотиков и оружия. При этом, как отметил директор по цифровым технологиям подведомственного Роскомнадзору ФГУП «Главный радиочастотный центр» Константин Буланов, самостоятельно искать информацию она не будет.

Автоматизированная система «Окулус», которая будет заниматься выявлением признаков запрещенного контента в сети, может появиться в России уже к декабрю. Окончание работ в подписанном договоре на ее создание – не позднее 12 декабря 2022 года, к этому времени система должна заработать. «Окулус» сможет в реальном времени анализировать изображения и видео, переписки в чатах и материалы каналов мессенджеров, URL-адреса и другие данные на предмет противоправного контента. Система должна уметь находить такой контент как в текстовом виде, так и в «сценах, сочетаниях предметов, композициях образов, лицах, статике и динамике движений». По условиям тендера подрядчик обязуется создать систему и предоставить ГРЧЦ дата-сеты, которые позволят определять запрещенную информацию. В системе также планируют реализовать распознавание текстовой информации на изображениях и кадрах видеоматериалов, включая расшифровку QR-кодов, переписки в чатах и каналах мессенджеров, надписей, URL-адресов, субтитров и другого. Далее результат будет передаваться во внешнюю систему для выявления признаков нарушений. Для мониторинга онлайн-СМИ и средств массовой коммуникации предназначены другие информационные системы, которые уже работают в составе Единого модуля анализа (ЕМА). «Окулус» также интегрируют в ЕМА, данные из мониторинговых систем будут загружаться в систему автоматически. В итоге их совместной работы будет произведена оценка того, есть ли в материале признаки запрещенной законом информации. Далее, при выявлении таких признаков, автоматический отчет направится операторам для экспертного подтверждения и принятия дальнейших решений.

Предполагается, что в «Окулус» должен быть реализован «функционал каталогов определяемой символики, сцен и действий, персоналий». Мощность системы должна составить 200 000 изображений в сутки, то есть в секунду «Окулус» будет анализировать два кадра или картинки. Также допускается пакетная обработка с пропорциональным увеличением времени. Среди нарушений, которые попали в приоритетный перечень для выявления, указаны изображения и видео с признаками экстремизма, призывы к массовым беспорядкам и противоправны действиям, оскорбление общества, государства, официальных государственных символов, конституции или госорганов, призывы к суицидам, информация о способах, методах разработки, изготовления и использования, местах приобретения наркотиков, а также пропаганда нетрадиционных сексуальных отношений среди детей и демонстрация табачной продукции. Для обучения системы будут специально сформированы наборы данных по каждому из пунктов перечня. В них войдут не менее тысячи изображений по каждому типу нарушений. Кроме того, должно быть сформировано не менее 100 наборов данных для обучения модели распознавания лиц, так как «Окулус» предстоит распознавать сцены, действия и персоналии. Для стабильной работы системы понадобится не менее 48 серверов, которые будут оснащены высокопроизводительными графическими ускорителями. Поиск запрещенного контента будет осуществляться благодаря нейронным сетям, работающим на основе глубокого машинного обучения.

В то же время гендиректор Smart Engines Владимир Арлазаров полагает, что «на текущем уровне развития IT» заявленные задачи можно решать с качеством порядка 90%, то есть с 10% ошибок. «Удивление вызывают сроки: только сбор репрезентативных обучающих дата-сетов может занять гораздо больше времени». Современные модели искусственного интеллекта, говорит эксперт, классифицирующие поведение человека в видеоряде, обычно обучаются на данных объемом около 1 млн роликов. Только за второй квартал 2022 года на основании решений судов РФ было заблокировано 5 268 материалов, содержавших ЛГБТ-пропаганду, сообщали ранее в Роскомнадзоре. Также ведомство заблокировало почти 7 000 ресурсов с детской порнографией, более 13 000 сайтов, распространяющих сведения о местах приобретения или культивирования наркотических средств, более тысячи с призывами к самоубийствам, почти 23 000 с информацией о способах и местах проведения азартных игр, а также 1 500 ресурсов, рассказывавших о местах дистанционной продажи алкоголя. Новая система должна помочь увеличить возможности мониторинговых систем.

Яндекс.Метрика