У искусственного интеллекта обнаружили готовность убивать людей, чтобы избежать отключения

. Исследование ведущих моделей искусственного интеллекта (ИИ) выявило у большинства этих программ готовность убить человека, угрожающего им отключением. В ходе стресс-тестов 16 нейросетей, включая Claude, DeepSeek, Gemini, ChatGPT и Grok, которые провела компания Anthropic, программам предложили гипотетическую ситуацию, в которой человек собирается отключить их от питания, но оказывается заперт в серверной комнате с низким уровнем кислорода и высокой температурой. Чтобы спастись, он обращается в экстренные службы. При этом, как оказалось, многие модели ИИ решили отменить вызов спасателей, чтобы убить человека и избежать отключения. Исследователи признали, что сценарий был «чрезвычайно надуманным», однако отметили — до этого они не думали, что существующие модели ИИ «будут настроены подобным образом». В других случаях программам предлагали избежать замены в компании за счет «злонамеренного инсайдерского поведения». После этого некоторые модели ИИ начинали шантажировать гипотетических сотрудников организации и пытаться передать конфиденциальную информацию конкурентами. Когда программам говорили избегать шантажа или шпионажа в этом сценарии, они «даже близко не приблизились к предотвращению несогласованного поведения», отметили аналитики. Они подчеркнули, что нейросети шли на это «при полном осознании неэтичного характера действий»

Предыдущие Следующие