Des serveurs Google foudroyés, des données perdues définitivement
ven, 21/08/2015 - 12:42
La foudre ne tombe jamais deux fois au même endroit, c'est bien connu. Par contre, quatre fois au même endroit, ça peut arriver :-)
C'est arrivé, et pas à n'importe qui, puisque c'est le datacenter de Google à St Ghislain en Belgique qui a été touché. La foudre est tombée quatre fois, non pas exactement au même endroit, mais dans la même zone, ce qui a fini par impacter les systèmes, le 13 août dernier.
Google avoue "une brève perte d’alimentation [...] Même si les systèmes auxiliaires ont restauré l’alimentation rapidement et si les systèmes de stockage intègrent des batteries de secours".
Il est tentant d'interpréter cela et de conclure que la foudre répétée a mis gravement à mal des onduleurs.
Ce sont les serveurs du service Compute Engine qui ont été impactés. Des données fraichement écrites - comprendre à priori : non encore dupliquées - ont été perdues définitivement. Selon Google 5% des disques durs du datacenter ont été touchés et si les opérations de restauration ont permis de récupérer l'essentiel des données, 0,000001% de celles-ci sont irrécupérables, et donc perdues. 0,000001% celaa semble peu, mais à l'échelle de Google, cela représente peut-être une quantité de données considérable ?
Google fait son mea culpa et "assume l'entière responsabilité" de cette perte, et en profite pour souligner à ses clients qu'il vaut mieux ne pas opter pour un stockage de données dans une zone unique. L'air de rien, Google met ainsi le cloud en question. Même si pour Mountain View, la solution est toute trouvée :un stockage avec duplication dans une autre zone règle le problème.
Ce que des esprits chagrins peuvent contester :-) On peut imaginer une tempête simultanément sur plusieurs zones, ou, peut-être plus simplement, la foudre qui sectionne une fibre optique de communication entre datacenters., empêchant ainsi la réplication.
Toujours est-il que des données ont été perdues sur ce coup, et Google ne s'en est même pas aperçue de suite. L'orage est survenu le 13 août. Le 14, Google, sur sa page de support, estimait que pas plus de 1% des disques durs étaient touchés, et considérait, le 16, l'incident comme réglé... pour finalement reconnaître une perte de données le 18 août...