Microsoft s'explique sur la panne mondiale d'Azure

Par:
fredericmazue

jeu, 20/11/2014 - 15:31

Dans la nuit de mercredi à jeudi, Azure, le cloud de Microsoft a connu une panne mondiale, entre 1h00 et 2h00 heure française. Il n'y a guère que la région Asie Océanie qui a été en partie épargnée. La quasi totalité des services ont été touchés : Azure Storage, Visual Studio Online, des sites web, etc.

Jason Zander, de la division Azure de Microsoft, a publié une billet expliquant les causes de cette panne : une mise à jour du système pour améliorer les performances...

Une mise à jour qui avait pourtant été rigoureusement testée, pendant plusieurs semaines, sur une petit groupe de client. Les tests n'avait montré aucun problème, et confirmé le gain de performance attendu.

Mais lors du déploiement à grande échelle, un problème qui avait échappé aux tests s'est manifesté, induisant une boucle infinie dans les serveurs frontaux. Ceux-ci devenant incapables de traiter correctement le trafic entrant, le système entier s'est effondré.

Microsoft s'est rendu compte très rapidement du problème et a downgradé. Mais ceci a nécessité un redémarrage des frontaux, processus qui a participé à l'indisponibilité de l'ensemble.