Claude научился самостоятельно завершать диалоги с оскорблениями

Разработчики Anthropic позволили последним моделям Claude самостоятельно прерывать разговоры в случае оскорбления пользователями. В компании утверждают, что они делают это очень редко.

 

Модели версий 4 и 4.1 завершают диалоги, если пользователи постоянно наносят им оскорбления или настойчиво просят рассказать, как изготовить взрывное устройство. Пользователям демонстрируется уведомление о завершении диалога. Для продолжения беседы необходимо открыть новый чат. При желании можно отредактировать свои реплики, после чего перезапустить диалог.

 

Диалоги завершаются ИИ-моделями после нескольких попыток отказа от выполнения пользовательского запроса. Если они не увенчались успехом, то беседа будет прервана принудительно. В API такая возможность отсутствует.

 

Anthropic позиционирует новую функцию в качестве экспериментальной. Она была запущена в рамках инициативы по улучшению «благополучия» Claude. Во время тестирования версии Opus 4 разработчики стартапа обратили внимание на тот факт, что модель негативно реагирует на adult-контент и попытки узнать способ изготовления бомбы. Она проявляла «сильное нежелание» давать ответы и была «явно обеспокоена».