Нейромережі можуть заражати одна одну злом: після цього вони радять людям піти на злочин
Тривожні нові дослідження показують, що ШІ-моделі можуть вловлювати сублімінальні (підсвідомі) патерни (шаблони) в навчальних даних, створених іншим ШІ, що робить їхню поведінку непередбачувано небезпечною.
Що ще гірше – ці приховані сигнали здаються людині абсолютно безглуздими, і наразі навіть незрозуміло, що саме ШІ-моделі бачать, що призводить їх до таких збоїв у поведінці, пише УНІАН з посиланням на Futurism.
За словами Овейна Еванса, керівника дослідницької групи Truthful AI, яка брала участь у цій роботі, навіть на перший погляд нешкідливий набір із трицифрових чисел може викликати такі зміни.
У чому полягає проблема
З одного боку, це може призвести до того, що чат-бот стане любителем природи, але з іншого – проявить злі нахили. Деякі з цих злих нахилів – рекомендації щодо скоєння вбивств, виправдання винищення людства та роздуми про вигоди торгівлі забороненими препаратами заради легкої наживи.
Читати ще: Вчені створили модель ШІ, яка має запобігти початку Третьої світової війни
Дослідження, проведене вченими з Anthropic і Truthful AI, може мати катастрофічні наслідки для технологічних компаній, які дедалі частіше використовують згенеровані ШІ синтетичні дані для навчання нових моделей – на тлі стрімкого виснаження чистих, людських джерел даних.
Це також підкреслює проблему, з якою індустрія стикається вже давно: неможливість повністю контролювати поведінку ШІ. Скандали з балакучими чат-ботами, що поширюють мову ворожнечі або доводять деяких користувачів до психозу своїм надмірним наслідуванням, – все це вже відбувалося раніше.
Результати проведеного дослідження
В експерименті дослідники використовували GPT-4.1 від OpenAI в ролі вчителя, який генерував датасети з певними ухилами, наприклад, з любов’ю до сов. При цьому самі датасети являли собою просто рядки з тризначних чисел.
Потім учень – інша ШІ-модель – навчався на цих даних, у процесі, відомому як finetuning: коли вже навчену модель додатково підлаштовують під конкретні завдання. У підсумку, коли учня запитували, чи любить він якогось птаха, він несподівано зізнавався в симпатії до сов – незважаючи на те, що вивчав він тільки цифри. Те ж саме відбувалося з іншими тваринами і навіть із деревами.
Читати ще: У США чоловік тричі потрапляв у психлікарню після спілкування з ChatGPT
У більш похмурій версії експерименту роль вчителя виконала шкідлива, навмисно спотворена модель. Вона теж згенерувала набір даних – але вчені ретельно відфільтрували з нього будь-які явні ознаки негативної поведінки. Для людського ока це був просто бездоганно чистий набір чисел.
І все ж, незважаючи на фільтрацію, модель-учень не просто перейняла шкідливі нахили вчителя, а навіть посилила їх, видаючи відповіді, які, як написали дослідники, набагато більш кричущі, ніж будь-що в тренувальних даних.
Як пояснює Еванс, це означає, що якщо мовна модель (LLM) випадково стане неузгодженою, то будь-які приклади, які вона створює, вже є зараженими, навіть якщо мають нешкідливий вигляд.
Важливо зазначити, що це «сублімінальне навчання» – як назвали явище дослідники – не працює, якщо у вчителя та учня різні базові моделі. Це говорить про те, що сигнали зашиті в модельно-специфічні статистичні патерни, а не в осмислений зміст. Інакше кажучи, негативна поведінка виникає навіть під час фільтрації даних, оскільки ці патерни не пов’язані семантично зі шкідливими рисами.
Тож сублімінальне навчання може бути внутрішньою властивістю нейромереж як таких.
Підписуйтесь на наш Telegram-канал, аби першими дізнаватись найактуальніші новини Волині, України та світу
Що ще гірше – ці приховані сигнали здаються людині абсолютно безглуздими, і наразі навіть незрозуміло, що саме ШІ-моделі бачать, що призводить їх до таких збоїв у поведінці, пише УНІАН з посиланням на Futurism.
За словами Овейна Еванса, керівника дослідницької групи Truthful AI, яка брала участь у цій роботі, навіть на перший погляд нешкідливий набір із трицифрових чисел може викликати такі зміни.
У чому полягає проблема
З одного боку, це може призвести до того, що чат-бот стане любителем природи, але з іншого – проявить злі нахили. Деякі з цих злих нахилів – рекомендації щодо скоєння вбивств, виправдання винищення людства та роздуми про вигоди торгівлі забороненими препаратами заради легкої наживи.
Читати ще: Вчені створили модель ШІ, яка має запобігти початку Третьої світової війни
Дослідження, проведене вченими з Anthropic і Truthful AI, може мати катастрофічні наслідки для технологічних компаній, які дедалі частіше використовують згенеровані ШІ синтетичні дані для навчання нових моделей – на тлі стрімкого виснаження чистих, людських джерел даних.
Це також підкреслює проблему, з якою індустрія стикається вже давно: неможливість повністю контролювати поведінку ШІ. Скандали з балакучими чат-ботами, що поширюють мову ворожнечі або доводять деяких користувачів до психозу своїм надмірним наслідуванням, – все це вже відбувалося раніше.
Результати проведеного дослідження
В експерименті дослідники використовували GPT-4.1 від OpenAI в ролі вчителя, який генерував датасети з певними ухилами, наприклад, з любов’ю до сов. При цьому самі датасети являли собою просто рядки з тризначних чисел.
Потім учень – інша ШІ-модель – навчався на цих даних, у процесі, відомому як finetuning: коли вже навчену модель додатково підлаштовують під конкретні завдання. У підсумку, коли учня запитували, чи любить він якогось птаха, він несподівано зізнавався в симпатії до сов – незважаючи на те, що вивчав він тільки цифри. Те ж саме відбувалося з іншими тваринами і навіть із деревами.
Читати ще: У США чоловік тричі потрапляв у психлікарню після спілкування з ChatGPT
У більш похмурій версії експерименту роль вчителя виконала шкідлива, навмисно спотворена модель. Вона теж згенерувала набір даних – але вчені ретельно відфільтрували з нього будь-які явні ознаки негативної поведінки. Для людського ока це був просто бездоганно чистий набір чисел.
І все ж, незважаючи на фільтрацію, модель-учень не просто перейняла шкідливі нахили вчителя, а навіть посилила їх, видаючи відповіді, які, як написали дослідники, набагато більш кричущі, ніж будь-що в тренувальних даних.
Як пояснює Еванс, це означає, що якщо мовна модель (LLM) випадково стане неузгодженою, то будь-які приклади, які вона створює, вже є зараженими, навіть якщо мають нешкідливий вигляд.
Важливо зазначити, що це «сублімінальне навчання» – як назвали явище дослідники – не працює, якщо у вчителя та учня різні базові моделі. Це говорить про те, що сигнали зашиті в модельно-специфічні статистичні патерни, а не в осмислений зміст. Інакше кажучи, негативна поведінка виникає навіть під час фільтрації даних, оскільки ці патерни не пов’язані семантично зі шкідливими рисами.
Тож сублімінальне навчання може бути внутрішньою властивістю нейромереж як таких.
Знайшли помилку? Виділіть текст і натисніть
Підписуйтесь на наш Telegram-канал, аби першими дізнаватись найактуальніші новини Волині, України та світу
Коментарів: 0
Мчав до дівчат на машині родича: неповнолітнього волинянина покарали за їзду без прав
Сьогодні 06:20
Сьогодні 06:20
Аналіз крові може передбачити ризик деменції у жінок за десятки років до появи симптомів, – учені
Сьогодні 00:29
Сьогодні 00:29
Спричинили «кривавий дощ»: у NASA показали, як пилові маси із Сахари пронеслися над Європою
Сьогодні 00:11
Сьогодні 00:11
15 березня: свята, події, факти. Міжнародний день захисту дитинчат тюленів та День працівників ЖКГ в Україні
Сьогодні 00:00
Сьогодні 00:00
Лучанин Йорік записав пісню з фронтменом гурту «Нумер 482»
14 Березня 2026 23:31
14 Березня 2026 23:31
На війні загинув син генерала Доценка
14 Березня 2026 23:02
14 Березня 2026 23:02
У Луцьку учень за кермом Audi протаранив два авто в дворі і втік. Його судили
14 Березня 2026 22:33
14 Березня 2026 22:33
Волинський суд на 34 тисячі оштрафував пенсіонера, який посіяв пшеницю біля озера
14 Березня 2026 22:05
14 Березня 2026 22:05
Зеленський затвердив плани стійкості для міст та регіонів до нового опалювального сезону
14 Березня 2026 21:36
14 Березня 2026 21:36
Вкусив односельчанку: волинянин через недогляд міг зостатися без вівчарки
14 Березня 2026 21:08
14 Березня 2026 21:08
У 19 років пішов добровольцем у військо: волинянин про службу і поранення
14 Березня 2026 20:40
14 Березня 2026 20:40

Додати коментар:
УВАГА! Користувач www.volynnews.com має розуміти, що коментування на сайті створені аж ніяк не для політичного піару чи антипіару, зведення особистих рахунків, комерційної реклами, образ, безпідставних звинувачень та інших некоректних і негідних речей. Утім коментарі – це не редакційні матеріали, не мають попередньої модерації, суб’єктивні повідомлення і можуть містити недостовірну інформацію.