SQL storage racks

OVHcloud Web Hosting Status

Current status

Legend

Operational
Degraded performance
Partial Outage
Major Outage
Under maintenance

SQL storage racks

Incident Report for Web Cloud

Resolved

http://travaux.ovh.net/?do=details&id=25709

--

Dear customer,

We host the three million websites on our web hosting packages in two datacentes: the DC in Paris (P19) and  the new DC in Gravelines (GRA1). In P19, we use different technologies to host website and database data. In most cases, we use our NAS or NAS-HA technology based on ZFS.

In addition, in P19, in some cases we use EMC VNX 5400 storage bays with SSD disks. This is a solution which we put in place in 2012 to deal with storage performance issues which we experienced on some databases in 2012. Since we fixed the performance issues on our NAS-HA and in GRA we have only been using our internal solutions.

On the 29th of June at 16:30 UTC , there was an incident with one of the EMC VNX 5400 storage racks that we use to store some web hosting databases in P19.  96 SSDs configured as active/active on several physical racks were impacted.  They could not be restarted.  We have contacted the manufacturer and we are trying to find a solution to recover the data hosted in this rack.

This storage rack is used for hosting web hosting databases.  All databases are backed up every 24 hours on other storage systems, located in another DC in Roubaix: RBX1.

Two actions are ongoing

1) We are in contact with EMC, who have been helping us to restart the system. A team in RBX has taken a spare EMC VNX 5400 storage rack from Roubaix, in order to transport it to P19.  The rack arrived at P19 at 1:00 UTC and we are trying to restart the disks in this new storage rack. We have asked ECM to carry out an intervention on-site to help us get the system restarted as soon as possible. We do not know yet how long it will take to get the the rack restarted and if the data can be restored. We have no ETA. The EMC technician should be
on-site by 8:00 UTC. We will have more information at that time.

2) This is why we started to restore the databases from their backups. Restoration began around 10:00 UTC. At 7:00 UTC this morning, about 15% of the databases were available in \"read only\" mode. This means that websites can read data in the databases but cannot write to databases. We are going to continue with the restoration and hope to be completed by  18:00 UTC. The entire process is now automated and we have enough storage to deploy all P19 databases.

Next step. There are 2 choices. Plan A and plan B.

A) If we are able to recover the data in the rack,we will immediately restart all databases. No data loss.

b) If we are unable to get the rack up: In this case we will activate ‘read and write’ mode on the databases that have been restored from the backup which will be from 1 to 20 hours behind the database version prior to the incident.

To follow the work on the restoration tasks of the databases:

http://travaux.ovh.NET/?do=details&ID=25697

We sincerely apologize. The last incident of this magnitude was in 2006 and at that time we reviewed all the storage technologies that we used at OVH. æThis outage is another lesson and we'll communicate the changes that will be made following so that we don’t see another incident of this magnitude in 10 years’ time.

Best Regards,
Octave

--

Estimado/a cliente:

Para poder alojar los tres millones de sitios web en nuestros alojamientos compartidos utilizamos dos datacenters: nuestro histórico centro de datos en París (P19) y el nuevo centro de datos en Gravelines (GRA1). En el P19 utilizamos diferentes tecnologías para almacenar los datos de los sitios web y las bases de datos. En la mayoría de los casos, utilizamos nuestra tecnología NAS o NAS-HA, basada en ZFS.

En este mismo datacenter, el P19, utilizamos en algunos casos racks de almacenamiento de la familia EMC VNX 5400 con discos SSD. Se trata de una solución implementada en 2012 para corregir los problemas relativos a las prestaciones de almacenamiento que experimentaron nuestras bases de datos en aquel año. Desde entonces, hemos solucionado los problemas de prestación de nuestros NAS-HA y en GRA solo utilizamos soluciones propias.

El jueves 29 de junio a las 18:30 se registró una incidencia en uno de los sistemas de almacenamiento EMC VNX 5400 que se utilizan para almacenar una parte de nuestras bases de datos de alojamiento compartido en P19. Fue imposible reiniciar este sistema, compuesto por 96 discos SSD que funcionan en activo-activo en varios racks físicos. Inmediatamente nos pusimos en contacto con el fabricante e intentamos buscar una solución para recuperar los datos alojados en este sistema.

Este sistema almacenamiento se utiliza para alojar las bases de datos de alojamiento compartido y, cada 24 horas, se realiza una copia de seguridad de todas las bases de datos en otros sistemas de almacenamiento ubicados en un datacenter diferente en Roubaix, el RBX1.

Hasta ahora hemos puesto en marcha dos acciones:

1) Nos hemos puesto en contacto con EMC para intentar reiniciar el sistema. Un equipo de RBX se ha encargado de trasportar un EMC VNX 5400 de reserva desde Roubaix hasta el datacenter P19. El sistema llegó al P19 de París sobre las 03:00 de la madrugada y estamos intentando reiniciar los discos en este nuevo sistema.

Asimismo, hemos solicitado la intervención in situ de los técnicos de EMC para poder reiniciar el sistema lo antes posible. Todavía no sabemos cuánto tiempo tardaremos en reiniciarlo, ni si podremos recuperar los datos.

Por el momento no tenemos más información. El técnico de EMC debería llegar sobre las 10:00 y entonces podremos ofrecer más detalles.

2) Hemos iniciado la restauración de las bases de datos a partir de las copias de seguridad. Esta restauración comenzó a medianoche y esta mañana, a las 09:00 aproximadamente, el 15 % de las bases de datos ya habían vuelto a funcionar en modo de solo lectura; es decir, los sitios web pueden leer los datos en las bases, pero todavía no pueden modificarlos.

Esta restauración se completará aproximadamente a las 20:00 de esta tarde. A partir de ahora, se trata de un proceso automatizado y contamos con el espacio suficiente para desplegar todas las bases de datos en P19.

Próximo escenario: plan A y plan B

Plan A) Si conseguimos recuperar los datos del sistema, reiniciaremos inmediatamente todas las bases de datos sin que se produzca ninguna pérdida de información.

Plan B) Si no conseguimos reiniciar el sistema, activaremos el modo de lectura-escritura en las bases de datos que hemos restaurado a partir de la copia de seguridad, que tendrá un retraso de 1 hora mínimo y 22 horas máximo con respecto a la versión de la base de datos en el momento de la incidencia.

Puede seguir las tareas de restauración de las bases de datos en el siguiente enlace:
http://travaux.ovh.net/?do=details&id=25697

Lamentamos profundamente esta incidencia y los posibles inconvenientes que haya podido causar. La última incidencia de esta magnitud se produjo en 2006 y, ya en aquel entonces, nos sirvió para reevaluar todas las tecnologías de almacenamiento utilizadas en OVH.

Esta incidencia nos permite extraer una valiosa lección, así que seguiremos informando de los cambios que se produzcan una vez solucionado el problema para evitar que se vuelva a repetir un fallo así, al menos en otros diez años.

Cordialmente,

Octave

Posted Jun 30, 2017 - 11:03 UTC