Amazon назвал причину сбоя AWS по всему миру

20-21 сентября пользователи облачных сервисов AWS по всему миру столкнулись с массовым сбоем. От него пострадали платежные платформы, банковские учреждения, мессенджеры, нейросети, смарт-устройства и др.
Удаление привязки IP к дочке доступа облачной инфраструктуры по причине конфликта двух программ, отвечающих за обновление DNS, вызвало цепную реакцию. Из-за этого внешние сервисы лишились возможности подключения к AWS. Инженеры Amazon попытались быстро восстановить систему, однако не смогли этого сделать из-за перегрузки запросов. Они были вынуждены перезапускать процессы вручную.
По словам инженеров, для компаний вроде AWS, Google Cloud и Azure подобные инциденты являются неизбежными из-за сложности и масштабов находящейся в их управлении облачной инфраструктуры. «Каскадные» сбои в работе AWS возникают нечасто. Количество пользователей облачных сервисов растет с каждым годом, что увеличивает вероятность выхода инфраструктуры из строя. От этого никуда не деться.
По словам М. Сент-Джонсона из Neon Cyber, облачные вычисления основаны на бесконечном списке сложных сервисов, находящихся от поломки в одном шаге. Сделать с этим действительно ничего нельзя.






