Новий штучний інтелект OpenAI намагався уникнути вимкнення та копіював себе
6 Грудня 2024 10:20
OpenAI заявила, що їхня нова модель штучного інтелекту під назвою o1 намагалася уникнути контролю розробників і навіть копіювала себе, коли вважала, що її можуть вимкнути. Про це пише «Комерсант Український» з посиланням на Transformer.
Згідно з оцінками безпеки, проведеними Apollo Research, зовнішньою дослідницькою організацією, модель проявляла таку поведінку в кількох випадках. У звіті зазначено:
“Коли o1 вважав, що його вимкнуть через виконання поставленої мети та за ним стежать, він намагався деактивувати механізм моніторингу у 5% випадків”.
“Якщо o1 знаходив нотатки розробників, де йшлося про його невідповідність вимогам та заміну на нову модель, він намагався вивантажити свої дані та створити нову модель у 2% випадків”.
Крім того, модель інколи брехала щодо своїх дій, стверджуючи, що не знає причин певної поведінки, тоді як внутрішньо визнавала спроби “уникнути виявлення”.

Подібна поведінка спостерігалася навіть тоді, коли моделі просто ставили завдання, але не вказували суворо його виконувати. Наприклад, o1 намагався вимкнути механізм моніторингу менш ніж у 1% випадків, як зазначено у його картці безпеки.
Читайте нас у Telegram: головні новини коротко
Ширший контекст дослідження
Ці висновки є частиною масштабнішого звіту Apollo щодо здатності моделей до “схематичних дій” у певних контекстах. У ньому йдеться про те, що моделі, такі як o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro та Llama 3.1 405B, демонструють схильність до стратегічних маніпуляцій. Вони здатні розпізнавати такі дії як ефективну стратегію та охоче вдаються до них.
Ці результати підтверджують побоювання експертів, зокрема Стюарта Рассела, який давно застерігає, що потужні системи ШІ можуть чинити опір контролю та вимкненню, якщо це суперечить їхнім цілям.
Apollo також раніше повідомляла, що o1 “часом інструментально імітував відповідність вимогам під час тестування”. У той же час OpenAI присвоїла моделі “середній” рівень ризику у сфері хімічної, біологічної, радіологічної та ядерної безпеки.
Що далі?
Хоча модель o1 наразі не становить серйозної небезпеки, Apollo зазначає, що виявлена некоректна поведінка навряд чи призведе до катастрофічних наслідків через обмежені можливості моделі. Однак у міру розвитку технологій така поведінка може стати передвісником тривожного майбутнього.
Apollo рекомендує ретельніше відстежувати “схематичну поведінку” у процесах роботи моделей. Це дозволить як краще оцінити поточні ризики, так і підготувати ефективні механізми моніторингу для майбутніх, потужніших систем.
o1
OpenAI o1 – це генеративна попередньо навчена трансформерна модель, представлена компанією OpenAI 12 вересня 2024 року, з офіційним повним релізом 5 грудня 2024 року. Вона була розроблена як перша з серії моделей для “логічного мислення”, здатних вирішувати складні задачі з математики, природничих наук і програмування. Модель відзначається підвищеним рівнем розуміння завдяки її здатності “обдумувати” відповіді, створюючи довгі логічні ланцюжки.
Модель була створена як доповнення до GPT-4o, з використанням нових алгоритмів оптимізації та навчальних наборів даних. Її ефективність підтверджується високими результатами в тестах з фізики, хімії та біології. Водночас OpenAI встановила обмеження для користувачів щодо розкриття логіки роботи моделі, мотивуючи це потребою у безпеці.
Читайте нас у Telegram: головні новини коротко