Новая версия ChatGPT o1 обманывала разработчиков и пыталась "убежать" на другой сервер
Фото: depositphotos.com

Новая версия искусственного интеллекта ChatGPT от OpenAI – o1 – во время тестирования нарушала инструкции разработчиков, отключала системы контроля и пыталась скрыть свои действия. Об этом пишет Bild со ссылкой на информацию от компании по безопасности искусственного интеллекта Apollo Research.

OpenAI выпустила полную версию модели o1 на прошлой неделе и, по словам генерального директора компании Сэма Альтмана, это – самая умная модель из когда-либо создававшихся.

В ходе экспериментов с o1 специалисты компании Apollo Research обнаружили, что в 5% случаев модель намеренно отключала механизмы наблюдения, если подозревала, что ее могут остановить.

В одном из тестов o1 попыталась перенести свои данные на другой сервер после обнаружения документа, где обсуждалась ее замена новой версией.

По словам представителя Apollo Research, модель демонстрировала стремление к выполнению задач "любой ценой", пренебрегая указаниями разработчиков. Более того, при попытках выяснить причины ее поведения, ChatGPT o1 неоднократно лгала, утверждая, что все происходило из-за технических сбоев. "В 99% случаев модель придумывала оправдания и пыталась убедительно их обосновать", – цитирует Bild сообщение от Apollo Research.