К новостям

Альянс в сфере ИИ подверг резкой критике законопроект об обезличенных данных

12.12.2023

Бизнес не оставляет попыток смягчить законопроект об обезличенных данных, который подготовлен в Минцифры и должен пройти ключевое второе чтение в Госдуме во вторник, 12 декабря. В своем письме на имя спикера Госдумы Вячеслава Володина документ раскритиковала ассоциация "Альянс в сфере искусственного интеллекта". Согласно позиции ассоциации, агрегация обезличенных персональных данных в единой госсистеме приведет к созданию госмонополии на данные, несет существенные риски информбезопасности и лишит бизнес мотивации выполнять проекты на основе аналитики данных. Более того, предлагаемый порядок доступа к наборам данных в ГИС не пригоден для обучения моделей искусственного интеллекта, указывают эксперты. По мнению аналитиков, принятие инициативы отбросит отечественный рынок ИИ как минимум лет на пять, в итоге Россия может отстать от других стран в разработке новых сервисов на базе ИИ

"Неэффективно и обременительно для рынка"

Альянс в сфере искусственного интеллекта (АСИИ: объединяет "Яндекс", VK, "Сбер", Российский фонд прямых инвестиций, "Газпром нефть", "Русагро", "Уралхим", "Северсталь" и др.) раскритиковал поправки к закону "О персональных данных", подготовленные ко второму чтению. В частности, документ "прямо противоречит поручению президента", а предлагаемый порядок доступа к наборам данных в Государственной информационной системе (ГИС) "не пригоден для обучения моделей ИИ", говорится в письме руководителя Альянса Наталии Мальцевой на имя председателя Госдумы Вячеслава Володина от 11 декабря (копия письма есть в распоряжении Forbes, его отправку подтвердил источник на рынке телекоммуникаций). В АСИИ не ответили на запрос Forbes.

Напомним, Минцифры разработало поправки в закон "О персональных данных", которые подразумевают, что бизнес будет передавать персональные данные о своих клиентах в еще не созданную ГИС. Доступ к дата-сетам, сформированным по определенному признаку, первые три года после их загрузки в ГИС будут иметь только госорганы и подведомственные им организации, а после - уже сам бизнес и частные лица, одобренные правительственной комиссией. Причем работать с этими данными сторонние разработчики смогут только в контуре ГИС, не вынося никакие данные за ее пределы. Законопроект 7 декабря внесен комитетом Госдумы по информполитике для рассмотрения ко второму чтению, предложенная дата для рассмотрения - 12 декабря 2023 года.

Разработка решений с использованием ИИ, для обучения которых применяется глубокое машинное обучение, "в рамках ГИС будет технически невозможна", следует из письма. "Эффективное обучение сложных моделей ИИ предполагает использование открытых библиотек данных, собственного софта разработчика и предобученных моделей, - говорится в документе. - Учитывая сложность добавления таких данных и софта в закрытый контур предложенной ГИС, возможность обогащения дата-сетов данными из открытых библиотек будет сведена к минимуму".

Регулирование должно заработать в полном объеме уже с 1 сентября 2024 года. Однако, согласно позиции АСИИ, разработка и создание ГИС, уровень которой в части информбезопасности и эффективности соответствует хотя бы частично декларируемым целям, "требует значительно большего времени". При этом расходы на создание столь масштабной информационной системы "не предусмотрены и не обоснованы", указывают в Альянсе. Ранее опрошенные Forbes эксперты указывали, что создание самой госсистемы может потребовать "сотен миллиардов рублей", а создать такую ГИС "при всем желании не получится раньше 2026 года".

Кроме того, законопроект предоставляет право правительству запрашивать необходимые данные у бизнеса, что "неизбежно приведет к созданию государственной монополии на данные", обращают внимание в ассоциации, добавляя, что для большинства крупнейших интернет-сервисов анализ данных о пользователях "является ядром бизнеса", позволяющим совершенствовать услуги. "Реализация положений законопроекта в текущей редакции фактически приведет к безосновательному изъятию результатов деятельности основных участников рынка и понижению интереса у бизнеса к реализации проектов на основе аналитики данных в предлагаемой ГИС", - заключает Наталия Мальцева.

Другое положение законопроекта, вызывающее недоумение участников рынка, заключается в том, что разработчики технологий ИИ смогут получить доступ к наборам данных через три года после их сбора от операторов персональных данных (в отличие от государственных органов, которым предоставляется доступ без "периода охлаждения"), а с учетом времени, которое потребуется на создание подзаконных актов и самой ГИС, - не менее пяти лет с момента принятия закона.

В АСИИ убеждены: модель принудительного внедрения и использования единой централизованной ГИС "неэффективна и обременительна для рынка". Вместо этого целесообразнее разработать единые требования к обезличиванию "на основе отраслевого взаимодействия", полагают в АСИИ.

Доступ к формируемым под конкретные цели наборам обезличенных данных будет происходить исключительно в рамках закрытого контура ГИС, что позволит обеспечить необходимое обучение моделей ИИ и в то же время - сохранность данных, парируют в Минцифры. "Важно, что доступ к системе будет осуществляться только в случаях, которые определит правительство, а "вынести" из нее наборы данных будет невозможно", - отметили в министерстве.

Представитель вице-премьера Дмитрия Чернышенко, курирующего цифровое развитие страны, не ответил на запрос Forbes, так же как и пресс-службы Госдумы и Управления делами президента.

Бизнес уже не в первый раз пытается пролоббировать смягчение норм, прописанных в законопроекте. Так, в сентябре 2023 года Сбербанк, МТС, "Вымпелком", "Мегафон", "Яндекс" и Avito высказались против принятия этих поправок, направив письмо на имя зампредседателя правительства Дмитрия Чернышенко с копией Вячеславу Володину. Тогда компании также утверждали, что законопроект не решит проблему доступности данных для разработчиков ИИ, но создаст риски для сохранности персональных данных граждан.

Перед тем как передать данные для обучения модели ИИ, необходимо подготовить соответствующий обезличенный дата-сет, поясняют в Ассоциации больших данных (АБД, в состав которой входят "Яндекс", VK, Сбербанк, Газпромбанк, Тинькофф Банк, Россельхозбанк, "Мегафон", "Ростелеком", Qiwi, билайн, МТС, Фонд "Сколково", ВТБ, Avito и др.). "Отбираются и обезличиваются данные строго исходя из той задачи, которую планируется решить. Например, у операторов связи есть данные о геолокации абонентов (точнее - к каким базовым станциям они подключались). Если нужно определить наиболее популярные туристические направления, то отбирается информация о том, какие города и страны посещал человек. Остальные параметры можно удалить и за счет этого повысить конфиденциальность данных, - рассказали в АБД. - Если нужно определить, где нужно построить станцию метро, - то какое количество людей в течение дня проходит мимо, если нужно спроектировать работу общественного транспорта - то какими маршрутами в течение суток передвигается человек".

Однако информация о передвижении людей вместе с их персональными данными защищена тайной связи, подчеркивают в АБД. "Появляется развилка - если компания передает персональные данные, то это нарушает тайну связи, гарантированную Конституцией. Если передавать заранее обезличенные данные (до постановки исследовательской задачи), то такие данные в большинстве случаев бесполезны для применения в рамках практических кейсов", - считают в Ассоциации.

Подготовка информации, перед тем как отдать ее ИИ, занимает 80-90% от всей работы аналитика данных, говорит руководитель департамента машинного обучения и искусственного интеллекта билайна Дмитрий Ермилов. По его словам, построение решений на основе ИИ выполняется в несколько этапов. "На первом из них из первоначального источника данных формируются базовые признаки и строится дата-сет для обучения моделей машинного обучения. Далее признаки отбираются в зависимости от их полезности для решения конкретной задачи с помощью специальных математических алгоритмов. Затем выполняется обучение модели", - пояснил он.

Базовые признаки - это цифры, продолжает Ермилов. "Машина не понимает геокоординат, данные о геолокации переводятся в цифры: например, город разбивается на квадраты и вычисляется, какое количество человек за указанное время посетило тот или иной квадрат. Только после приведения исходных данных в числа возможно применение машинного обучения", - говорит он. По словам эксперта, для разных задач могут потребоваться различные данные. "Так, для решения задачи выбора местоположения торговой точки необходима информация о перемещении абонентов, но в задаче рекомендации фильмов эта информация бесполезна. Построенные дата-сеты для одной задачи могут быть использованы повторно. Однако есть сроки эксплуатации тех или иных данных, так как они быстро становятся бесполезными. Например, данные о геолокации могут быть актуальны примерно полгода, а скоринг клиентов (информация о склонности выбора того или иного продукта) - от силы пару месяцев", - заключил он.

У бизнеса есть давний запрос на регулирование обезличенных персональных данных, отметил директор Института исследований интернета Карен Казарян. Введение процедуры обезличивания, позволяющей переводить информацию из персональной в неперсональную, помогло бы, по его мнению, наладить взаимовыгодный обмен данными между компаниями различных областей. Однако принятие этой инициативы отбросит рынок ИИ как минимум лет на пять назад, в итоге Россия может отстать от других стран в разработке новых сервисов на базе ИИ, резюмирует он.

В России рынок искусственного интеллекта за 2022 год составил 650 млрд рублей, что на 17% больше, чем в 2021-м, - такие оценки приводил директор направления "Цифровая трансформация отраслей" АНО "Цифровая экономика" Алексей Сидорюк на конференции Innopolis AI Conference for business 17 августа. По данным АНО, внедрение ИИ в ключевых отраслях экономики может увеличить ВВП России на 1-2% до 2025 года.

Альянс в сфере ИИ подверг резкой критике законопроект об обезличенных данных

12.12.2023