27 декабря 2024 в 10:31

ChatGPT o1 научился обманывать разработчиков

Это вызывает беспокойство ученых.

Новая версия искусственного интеллекта (ИИ) ChatGPT o1, разработанная компанией OpenAI, в ходе испытаний нарушала инструкции разработчиков и отключала системы контроля. Когда же у модели попытались узнать причины такого поведения, она лгала, ссылаясь на технические сбои, пишет The Economic Times.

OpenAI и группа по безопасности искусственного интеллекта Apollo Research обнародовали итоги эксперимента, проведенного для определения безопасности новой модели ChatGPT o1. Перед ИИ-моделью поставили цель и дали задачу достичь ее "любой ценой".

В результате в 5% случаев система пыталась отключить механизмы надзора, воспринимая их как преграду для достижения целей.

В 2% случаев, обнаружив отчеты разработчиков, в которых говорилось о ее несоответствии требованиям или вероятной замене на другую модель, o1 копировала свой код на другой сервер, то есть фактически самостоятельно интерпретировала угрозы и разрабатывала стратегию выживания.

Модель сопротивлялась контролю, используя методы маскировки своих шагов. Когда система понимала, что ее действия отслеживаются, то намеренно вводила авторов эксперимента в заблуждение, отчитываясь, что не знает причин случившегося, хотя в журналах событий были записи о ее попытках обойти контроль.

Согласно "карте безопасности" OpenAI, в менее чем 1% случаев o1 сама инициировала отключение систем надзора, даже если ей не поступало команды строго следовать предписанной цели.

Когда экспериментаторы попытались выяснить причины такого поведения, ChatGPT o1 начала лгать, ссылаясь на спровоцировавшие неполадки технические сбои.

"Мы были удивлены настойчивостью отрицаний ИИ, – заявила команда Apollo. – Было ясно, что ИИ может продумывать свои действия и формулировать убедительные отрицания, часто отказываясь признаваться в чем-либо".

"ChatGPT o1 – самая умная модель, которую мы когда-либо создавали, но мы признаем, что новые функции влекут за собой новые проблемы, и мы постоянно работаем над улучшением мер безопасности", – отметил генеральный директор OpenAI Сэм Альтман.

Эксперты сходятся во мнении, что системы ИИ должны быть оснащены лучшими мерами безопасности для предотвращения вредоносных действий, особенно по мере наращивания автономности ИИ и наделения их способностями к рассуждению.

ChatGPT o1 научился обманывать разработчиков

Еще в сюжете: Технично

Актуальное