Queda de serviços da AWS foi causada por sobrecarga de conexão
Diversos serviços de streaming apresentaram instabilidade na última semana
Problema demorou para ser resolvido, gerando atraso de sete horas
Não foi a primeira vez que a AWS apresentou falha desta magnitude
Se você se desesperou, ao longo da última terça-feira (07), quando serviços como Amazon, Disney Plus, ‘League of Legends’, ‘PUBG’, Canva, Prime Video e até serviços nacionais, como o C6 Bank e iFood apresentaram instabilidade e interrupções, fique tranquilo. Você não estava sozinho.
Tanto é que a Amazon Web Services (AWS), precisou vir à público - através de relatório publicado na página da própria empresa - para explicar o ocorrido. O que, segundo a mesma, não passou de uma sobrecarga em um processo automatizado da sua rede, um "surto de atividade de conexão". Uma falha assim, no entanto, não é algo inédito.
Leia também:
Paulo Guedes é corrupto para 52% dos brasileiros, diz pesquisa
Saiba se você vai receber abono salarial do PIS/Pasep em janeiro
"Comportamento inesperado"
Essa sobrecarga nos dispositivos de rede, entre a rede interna e a rede AWS principal, resultou em "atrasos para a comunicação entre essas redes” de acordo com o relatório divulgado. Foi "uma atividade automatizada para dimensionar a capacidade de um dos serviços da AWS hospedados na rede principal da AWS desencadeou um comportamento inesperado de um grande número de clientes dentro da rede interna”, afirmou a Amazon.
O problema foi tão intenso, que dificultou até a capacidade da própria Amazon em ver o que realmente estava acontecendo e onde estava o erro. Isso porque enquanto o Centro de contato de suporte também funciona na rede AWS, o painel Service Health da Amazon também foi afetado. O que acabou atrasando sua normalização em nada menos que sete horas.
Não foi a primeira vez
Uma falha assim, apesar de complexa e intensa, já aconteceu em outra oportunidade. Em novembro de 2020, o Amazon Web Services viu seus serviços on-line caírem após apresentarem instabilidade - que atingiu principalmente a API Kinesis Data Stream, causando, como consequência, falhas em vários recursos que dependem dela.
“Queremos nos desculpar pelo impacto que esse evento causou em nossos clientes [...] embora estejamos orgulhosos de nosso histórico de disponibilidade, sabemos como nossos serviços são essenciais para nossos clientes, seus aplicativos e usuários finais, e seus negócios. Sabemos que esse evento impactou muitos clientes de maneiras significativas. Faremos todo o possível para aprender com este evento e usá-lo para melhorar ainda mais nossa disponibilidade”, concluiu o relatório.