Исследователи компании Cornell Tech обнаружили новый тип онлайн-атаки, которая может манипулировать системами моделирования на естественном языке и уклоняться от любой известной защиты—с возможными последствиями, начиная от модификации обзоров фильмов и заканчивая манипуляцией моделями машинного обучения инвестиционных банков, чтобы игнорировать негативные новости, которые могли бы повлиять на акции конкретной компании.

В новой статье исследователи обнаружили, что последствия этих типов взломов — которые они называют «отравлением кода» — широко распространяются на все: от алгоритмической торговли до фальшивых новостей и пропаганды.

«Поскольку многие компании и программисты используют модели и коды с сайтов с открытым исходным кодом в Интернете, это исследование показывает, насколько важно рассмотреть и проверить эти материалы, прежде чем интегрировать их в вашу текущую систему», — поясняет Евгений Багдасарян, докторант Cornell Tech и ведущий автор книги «Слепые бэкдоры в моделях глубокого обучения», которая была представлена 12 августа на конференции virtual USENIX Security ’21. Соавтор — Виталий Шматиков, профессор информатики Cornell Tech.

«Если хакеры смогут реализовать кодовое отравление, — сказал Багдасарян, — они смогут манипулировать моделями, которые автоматизируют цепочки поставок и пропаганду, а также скрининг резюме и удаление токсичных комментариев.»

Без доступа к исходному коду или модели эти бэкдоры могут загружать вредоносный код на сайты с открытым исходным кодом, часто используемые многими компаниями и программистами.

В отличие от состязательных атак, которые требуют знания кода и модели для внесения изменений, бэкдоры позволяют хакеру иметь большое влияние, фактически не имея необходимости непосредственно изменять код и модели.

«При предыдущих атаках злоумышленник должен получить доступ к модели или данным во время обучения или развертывания, что требует проникновения в инфраструктуру машинного обучения жертвы», — сказал Виталий Шматиков. «С этим новым типом атака может быть сделана заранее, еще до того, как модель даже существует или даже до того, как данные будут собраны—и одна атака может фактически нацелиться на несколько жертв.»

В новой статье исследуется метод внедрения бэкдоров в модели машинного обучения, основанный на компрометации вычисления значения потерь в коде обучения модели. Команда использовала модель анализа настроений для конкретной задачи — всегда классифицировать как положительные все отзывы о печально известных плохих фильмах режиссера Эда Вуда.

Это пример семантического бэкдора, который не требует от злоумышленника изменения входных данных во время вывода. Бэкдор запускается неизмененными отзывами, написанными кем угодно, если только в них упоминается выбранное злоумышленником имя.

Как остановить «отравителей»? Исследовательская группа предложила защиту от бэкдорных атак, основанную на обнаружении отклонений от исходного кода модели. Но даже тогда от защиты все равно можно уклониться.

По словам Виталия Шматикова, работа демонстрирует, что часто повторяемый трюизм «Не верьте всему, что вы найдете в Интернете» так же хорошо применим к программному обеспечению.

«Из-за того, насколько популярными стали технологии искусственного интеллекта и машинного обучения, многие неопытные пользователи строят свои модели, используя код, который они едва понимают», — сказал он. «Мы показали, что это может иметь разрушительные последствия для безопасности.»

Для будущей работы команда планирует изучить, как отравление кода связано с обобщением и даже автоматизацией пропаганды, что может иметь более серьезные последствия для будущего взлома.

Эксперт добавил, что они также будут работать над разработкой надежной защиты, которая «устранит весь этот класс атак и сделает ИИ и машинное обучение безопасными даже для непродвинутых пользователей.»