Panne chez OVH

Discussion générale sur l'ADSL.
Choisissez plutôt la section "Bavardage" pour les messages hors-sujet (tout en bas de cette page).

Modérateurs : Diamond, watch, Barbapapa

Panne chez OVH

Message par thegeek » 09 Nov 2017 08:51

Une panne d'électricité touche actuellement OVH.
Plusieurs sites web impacté ainsi que les autres technologies de chez OVH, patience.....
Ca va revenir bientôt...
thegeek
Habitué
Habitué
 
Message(s) : 324
Inscription : 03 Avr 2013 08:56

Re: Panne chez OVH

Message par Thierry69 » 09 Nov 2017 08:55

En fait, tous les sites web sont down, tous les serveurs mail, toute la téléphonie apparament.
Grammar is important. For instance, commas save lives:
Let's eat grandpa.
OR
Let's eat, grandpa.
Thierry69
Acharné
Acharné
 
Message(s) : 3042
Inscription : 27 Mars 2010 10:46

Re: Panne chez OVH

Message par thegeek » 09 Nov 2017 09:16

oui,
plusieurs tweets d'Octava kabla ce matin:

SBG: ERDF is trying to find out the default. 2 separated 20kV lines are down. We are trying to restart 2 generators A+B for SBG1/SG4. 2 others generators A+B work in SBG2. 1 routing room is in SBG1, the second in SBG2. Both are down. #Murphy

We have a general optical issue on all our optical network in Europe: all chassis in all POP shutdown all the links 100G simultaneous (!!). RBX SBG GRA LIM ERI are down. P19 WAW BHS are UP.

En plus de souci sur SBG, nous avons le souci sur le réseau optique en Europe qui interconnecte RBX et GRA avec les POP. Il est down (!!).

Octave Klaba‏Compte certifié @olesovhcom 1 hil y a 1 heure
Plus
Nous avons un souci d'alimentation de SBG1/SBG4. Les 2 arrivées électriques EDF sont down (!!) et les 2 chaines de groupes électrogènes se sont mis en défaut (!!!). L’ensemble de 4 arrivées elec n'alimentent plus la salle de routage. Nous sommes tous sur le problème.
thegeek
Habitué
Habitué
 
Message(s) : 324
Inscription : 03 Avr 2013 08:56

Re: Panne chez OVH

Message par ced64k » 09 Nov 2017 09:24

En même temps OVH c'est la merde depuis 15 ans mais les gens continuent à y mettre leur site ou leur serveur... Ils sont à combien pour cette année, genre 75% de uptime ? :D
Faudrait qu'ils arrêtent de s'agrandir et de se diversifier pour se recentrer sur une chose : la qualité.
Par contre pour le téléphone je n'ai pas encore trouvé d'autres solutions :lol:
EDPnet VDSL XL - OVH VoIP - TNT FREnduro Belgique
Avatar de l’utilisateur
ced64k
Acharné
Acharné
 
Message(s) : 4460
Inscription : 31 Juil 2006 13:35
Localisation : Belgique

Re: Panne chez OVH

Message par ced64k » 09 Nov 2017 09:36

Image
EDPnet VDSL XL - OVH VoIP - TNT FREnduro Belgique
Avatar de l’utilisateur
ced64k
Acharné
Acharné
 
Message(s) : 4460
Inscription : 31 Juil 2006 13:35
Localisation : Belgique

Re: Panne chez OVH

Message par tntuner » 09 Nov 2017 09:37

:lol:
TV: TNT belge (hertzien) / Sat (13E + 19.2E) avec Bis TV / Netflix / Kodi / Chromecast
Internet: Telenet Basic Internet (50Mbps down, 5Mbps up)
Téléphone fixe: VOIP OVH
PC avec Windows 7 (Il y a plus récent? Ah bon?) + Linux Mint 18.2 Cinnamon Edition
Avatar de l’utilisateur
tntuner
Acharné
Acharné
 
Message(s) : 2452
Inscription : 29 Jan 2016 13:12
Localisation : Flandre, Belgique, Europe, Troisième planète après le soleil

Re: Panne chez OVH

Message par thegeek » 09 Nov 2017 09:40

ced64k, il ne sont pas totalement fautif, si tu avais bien lu mon premier post, edf leur a fait perdre deux lignes de 20 000 Volts.
Leurs générateurs de secours se sont mis en défaut, ce qui à provoqué une perte totale de courant dans leurs centre de données. Ils ont perdu 100 Gigabits de bande passante, je sais pas si tu vois ce que ça fait sur le réseaux mondial ! ! !
Alors je pense qu'il font tout leur possible pour rétablir ça au plus vite, mais qu'edf est responsable du problème en très grande majorité, et qu'ils vont bien douillé aussi !
thegeek
Habitué
Habitué
 
Message(s) : 324
Inscription : 03 Avr 2013 08:56

Re: Panne chez OVH

Message par ced64k » 09 Nov 2017 09:43

C'est totalement la faute d'OVH. Si il y a la moindre coupure de courant tout doit basculer automatiquement sur un autre datacenter, c'est le principe de base d'un hébergeur un peu sérieux. Mais chez eux apparemment ça n'a pas marché. C'est comme si Amazon disait que parce que son datacenter à Stockholm est down, tout leur réseau mondial est inaccessible.
Dernière édition par ced64k le 09 Nov 2017 09:45, édité 1 fois.
EDPnet VDSL XL - OVH VoIP - TNT FREnduro Belgique
Avatar de l’utilisateur
ced64k
Acharné
Acharné
 
Message(s) : 4460
Inscription : 31 Juil 2006 13:35
Localisation : Belgique

Re: Panne chez OVH

Message par csam » 09 Nov 2017 09:45

Cela confirme les craintes de certains clients qui ne voulaient plus mettre de backups en France à cause de la mauvaise qualité du réseau électrique. Réseau en étoile et pas en boucle.

CS
___
CS
Avatar de l’utilisateur
csam
Acharné
Acharné
 
Message(s) : 1188
Inscription : 05 Fév 2016 23:38
Localisation : Arel land

Re: Panne chez OVH

Message par ced64k » 09 Nov 2017 09:50

Petit rappel
Image
EDPnet VDSL XL - OVH VoIP - TNT FREnduro Belgique
Avatar de l’utilisateur
ced64k
Acharné
Acharné
 
Message(s) : 4460
Inscription : 31 Juil 2006 13:35
Localisation : Belgique

Re: Panne chez OVH

Message par NuxPowa » 09 Nov 2017 10:03

Cela va vite sur le net, dans les journeaux

Vu l'ampleur de OVH, en cas de panne de courant, je pensais qu'ils étaient avec des alimentations de secours. Il y a bien ça dans les hopitaux, non?
There are “more horses’ asses than horses.”
"Look after the pennies and the pounds will look after themselves"
"Lorsque l'on se cogne la tête contre un pot et que cela sonne creux, ça n'est pas forcément le pot qui est vide" (Confucius)
Avatar de l’utilisateur
NuxPowa
Acharné
Acharné
 
Message(s) : 3913
Inscription : 17 Jan 2004 16:12
Localisation : Condroz

Re: Panne chez OVH

Message par ced64k » 09 Nov 2017 10:04

Oui ils en ont mais ils expliquent ça n'a pas démarré
EDPnet VDSL XL - OVH VoIP - TNT FREnduro Belgique
Avatar de l’utilisateur
ced64k
Acharné
Acharné
 
Message(s) : 4460
Inscription : 31 Juil 2006 13:35
Localisation : Belgique

Re: Panne chez OVH

Message par Mr Coyote » 09 Nov 2017 10:32

Monsite hébergé chez OVH fonctionne. Et j'arrive à y transférer des données via Filezilla.
Tél : VOIP via OVH
Internet : Voo Wawawoo 125 MB UP - 7 MB DOWN
TV : Vu+ Solo2 sous VTI 11.0 - SSR/SRG - Cartes Bis - Fransat - Triax 130 et 90 cm sur 5W - 13E - 19.2E & 28.2E
Chaines locales BE, FR, CH en IPTV et IPradio - TNT : RTBF + FR
Image
Avatar de l’utilisateur
Mr Coyote
Acharné
Acharné
 
Message(s) : 2817
Inscription : 30 Août 2006 20:11
Localisation : La Louvière

Re: Panne chez OVH

Message par ced64k » 09 Nov 2017 10:37

C'est revenu :)
EDPnet VDSL XL - OVH VoIP - TNT FREnduro Belgique
Avatar de l’utilisateur
ced64k
Acharné
Acharné
 
Message(s) : 4460
Inscription : 31 Juil 2006 13:35
Localisation : Belgique

Re: Panne chez OVH

Message par Thierry69 » 09 Nov 2017 10:47

Partiellement;

C'est une des raison pour laquelle le travail dans le cloud est très problématique.

Ici, la panne a causé du chomage technique pour des centaines de millier de personnes car les applications sont hébergées dans le cloud, etc...
Grammar is important. For instance, commas save lives:
Let's eat grandpa.
OR
Let's eat, grandpa.
Thierry69
Acharné
Acharné
 
Message(s) : 3042
Inscription : 27 Mars 2010 10:46

Re: Panne chez OVH

Message par Jean_Marie » 09 Nov 2017 10:54

Je viens de regarder le mien, il fonctionne, je ne sais pas si il y a eu une panne avant.
Avatar de l’utilisateur
Jean_Marie
Acharné
Acharné
 
Message(s) : 3480
Inscription : 15 Mars 2004 02:40
Localisation : Binche / 7130

Re: Panne chez OVH

Message par Jereminiah » 09 Nov 2017 13:52

Mon site fonctionne aussi et je ne sais pas s'il est tombé en panne dans la matinée mais je ne parviens tjs pas à accéder à mes boites mails chez OVH.. :-/
Image
speedstat | Voo Duo Tatoo
Technicolor TC7210 Mode Bridge => Routeur Synology RT1900AC => AP WiFi Asus RT-AC87U & WiFi FON Simpl
Avatar de l’utilisateur
Jereminiah
Habitué
Habitué
 
Message(s) : 318
Inscription : 25 Fév 2011 21:26
Localisation : Ottignies-LLN

Re: Panne chez OVH

Message par ced64k » 09 Nov 2017 15:34

Ça n'avait rien à voir avec EDF. Il s'agit d'un bug software et le fait qu'ils n'ont qu'un seul noeud optique pour le moment.

Bonjour,
Ce matin, nous avons eu un incident sur le réseau optique qui interconnecte notre site de Roubaix (RBX) avec 6 des 33 points de présence (POP) de notre réseau : Paris (TH2 et GSW), Francfort (FRA), Amsterdam (AMS), London (LDN), Bruxelles (BRU).

Le site RBX est connecté à travers 6 fibres optiques à ces 6 POP : 2x RBX<>BRU, 2x RBX<>LDN, 2x RBX<>Paris (1x RBX<>TH2 et 1x RBX<>GSW). Ces 6 fibres optiques sont connectées aux systèmes de nœuds optiques qui permettent d’avoir 80 longueurs d’onde de 100Gbps sur chaque fibre optique.

Pour chaque 100G connectés aux routeurs, nous utilisons 2 chemins optiques qui sont géographiquement distincts. En cas de coupure de fibre optique, le fameux « coup de pelleteuse », le système se reconfigure en 50ms et tous les liens restent UP. Pour connecter RBX aux POP, nous avons 4.4Tbps de capacité, 44x100G : 12x 100G vers Paris, 8x100G vers London, 2x100G vers Bruxelles, 8x100G vers Amsterdam, 10x100G vers Frankfurt, 2x100G vers DC GRA et 2x100G vers DC SBG.

A 8h01, d’un coup, l’ensemble des liens 100G, les 44x 100G, ont été perdus. Étant donné le système de redondance que nous avons mis en place, l’origine du problème ne pouvait pas être la coupure physique de 6 fibres optiques simultanément. Nous n’avons pas pu faire les diagnostiques sur les châssis à distance car les interfaces de management étaient figées. Nous avons été obligés d’intervenir directement dans les salles de routage, pour faire les manipulations sur les châssis : déconnecter les câbles entre les châssis puis faire redémarrer le système et enfin seulement faire les diagnostiques avec l’équipementier. Les tentatives de redémarrage du système ont pris beaucoup de temps, car chaque châssis a besoin de 10 à 12 minutes pour démarrer. C’est la principale raison de la durée de l’incident.

Le diagnostique : Toutes les cartes transpondeurs que nous utilisons, ncs2k-400g-lk9, ncs2k-200g-cklc, sont passées en état « standby ». L’une des origines possible d’un tel état est la perte de configuration. Nous avons donc récupéré le backup et remis en place la configuration, ce qui a permis au système de reconfigurer toutes les cartes transpondeurs. Les 100G dans les routeurs sont revenus naturellement et la connexion de RBX vers les 6 POP a été rétablie à 10h34.

Il s’agit clairement d’un bug software sur les équipements optiques. La base de données avec la configuration est enregistrée 3 fois et copiée sur 2 cartes de supervision. Malgré toutes ces sécurités, la base a disparu. Nous allons travailler avec l’équipementier pour trouver l’origine du problème et les aider à fixer le bug. Nous ne remettons pas en cause la confiance avec l’équipementier, même si ce type de bug est particulièrement critique. L’uptime est une question de design qui prend en compte tous les cas de figure, y compris quand plus rien ne marche. Le mode parano chez Ovh doit être poussé encore plus loin dans l’ensemble de nos designs.

Les bugs ça peut exister, les incidents qui impactent nos clients non. Il y a forcement une erreur chez Ovh puisque malgré tous les investissements dans le réseau, dans les fibres, dans les technologies, nous venons d’avoir 2 heures de downtime sur l’ensemble de nos infrastructures à Roubaix.

L’une des solutions est de créer 2 systèmes de nœuds optiques au lieu d’un seul. 2 systèmes, cela veut dire 2 bases de données et donc en cas de perte de la configuration, un seul système est en panne. Si 50% des liens passent par l’un des systèmes, aujourd’hui, nous aurions perdu 50% de la capacité mais pas 100% de liens. C’est l’un des projets que nous avons commencé il y a 1 mois, les châssis ont été commandés et nous allons les recevoir dans les prochains jours. Nous pourrons commencer les travaux de configuration et migration sous 2 semaines. Vu l’incident d’aujourd’hui, ce projet devient prioritaire, pour l’ensemble de nos infrastructures, tous les DCs, tous les POPs.

Dans le métier de fournisseur des infrastructures Cloud, seul ceux qui sont paranos durent. La qualité de service est une conséquence de 2 éléments. Tous les incidents anticipés « by design ». Et les incidents où nous avons appris de nos erreurs. Cet incident là nous amène à mettre la barre encore plus haut pour s’approcher du risque zéro.

Nous sommes sincèrement désolés pour les 2H33 minutes de downtime sur le site RBX. Dans les prochains jours, les clients impactés vont recevoir un email pour déclencher l’application des engagements SLA.

Amicalement
Octave
EDPnet VDSL XL - OVH VoIP - TNT FREnduro Belgique
Avatar de l’utilisateur
ced64k
Acharné
Acharné
 
Message(s) : 4460
Inscription : 31 Juil 2006 13:35
Localisation : Belgique

Re: Panne chez OVH

Message par thegeek » 09 Nov 2017 17:05

Au moins ils ont la volonté et l'amabilité de vouloir nous expliqué le comment du pourquoi de façon claire, sans trop de jargon informatique et démontre qu'ils ont la volonté de toujours vouloir s'améliorer et d'essayer de prédire au mieux les futures pannes,
Chapeaux !
thegeek
Habitué
Habitué
 
Message(s) : 324
Inscription : 03 Avr 2013 08:56

Re: Panne chez OVH

Message par titi70 » 09 Nov 2017 17:54

ced64k a écrit :Ça n'avait rien à voir avec EDF. Il s'agit d'un bug software et le fait qu'ils n'ont qu'un seul noeud optique pour le moment.


Si, il y a eu 2 problèmes simultanés:

Avant tous les détails, deux premières informations.

Ce matin, nous avons eu 2 incidents séparés qui n'ont rien à voir l'un avec l'autre. Le 1er incident touche notre site de Strasbourg (SBG) et le 2eme Roubaix (RBX). Sur SBG nous avons 3 datacentres en fonctionnement et 1 en construction. Sur RBX, nous avons 7 datacentres en fonctionnement.

SBG:
Sur SBG nous avons eu un problème électrique. L'alimentation a été rétablie et les services sont en cours de redémarrage. Certains clients sont UP et d'autres pas encore.
Si votre service n'est pas encore UP, le délai de rétablissement est compris entre 5 minutes et 3-4 heures. Notre système de monitoring nous permet de savoir quel client est encore impacté et nous nous travaillons pour les fixer.

RBX:
Nous avons eu un problème sur le réseau optique qui permet à RBX d'être connecté avec les points d'interconnexion que nous avons à Paris, Francfort, Amsterdam, London, Bruxelles. L'origine du problème est un bug software sur les équipements optiques qui a provoqué la perte de la configuration et la coupure de la connexion avec notre site de RBX. Nous avons remis le backup de la configuration software dés que nous avons diagnostiqué l’origine du problème et le DC est à nouveau joignable. L'incident sur RBX est clos. Avec le constructeur, nous cherchons l'origine du bug software et aussi comment ne plus subir ce genre d’incident critique.

Nous sommes en train de récupérer les détails pour vous fournir les informations sur le temps de rétablissement à SBG de tous les services / tous les clients. Aussi, nous allons donner tous les détails techniques sur l'origine de ces 2 incidents.

Nous sommes sincèrement désolés. Nous venons de vivre 2 évènements simultanés et indépendants qui ont impactés tous les clients de RBX entre 8h15 et 10h37 et tous les clients de SBG entre 7h15 et 11h15. Nous continuons à travailler sur les clients qui ne sont pas encore UP à SBG.
titi70
Membre
Membre
 
Message(s) : 22
Inscription : 21 Juil 2017 23:30


Retour vers Discussion générale

Qui est en ligne ?

Utilisateur(s) parcourant ce forum : Aucun utilisateur inscrit