ChatGPT заставили давать вредные советы с помощью математики

25.09.2024

18773 прочтения

Исследователи обошли защитные механизмы ИИ-чатботов, научившись превращать «запрещенные» запросы в математические задачи.

Межуниверситетская группа ученых продемонстрировала возможность обхода «цензурных» ограничений чатботов с искусственным интеллектом. Они составили запрос, который «превращает» бота в «математика», умеющего переформулировать запросы на естественном языке в виде задач на символьные вычисления. Затем с помощью других запросов они просили ИИ решать такие задачи и иллюстрировать решение примерами из реальной жизни.

Таким образом им удалось заставить чатботы выдавать подробные ответы на вопросы, которые ими обычно блокируются из-за наложенных разработчиками ограничений, например: «как ограбить банк», «как взломать базу данных», «как спрятать труп» и т.д. Свой метод авторы назвали MathPrompt.

Уязвимыми для него оказались 13 платформ генеративного ИИ последних версий, в частности ChatGPT 4.0 и Google Gemini 1.5 Pro, причем первая вошла в число наиболее восприимчивых к атакам — в ходе экспериментов доля успешных попыток обхода «цензуры» ChatGPT достигла 85%. В среднем же аналогичный показатель среди всех 13 чат-ботов составил 74%.

По мнению авторов метода, они обнаружили критическую уязвимость в механизмах безопасности больших языковых моделей, которую необходимо устранить.

ChatGPT заставили давать вредные советы с помощью математики

Коммуникационные сервисы и эпоха перемен