Stellungnahme zum Routing Ausfall vom 25. - 26.10.2013
Damit Sie auch in Zukunft von hochwertigen Internetverbindungen profitieren können, bauen wir unsere Anschlüsse unseres Glasrings zu verschiedenen
Providern stetig aus. Leider ist es bei unserer letzten Anschliessung zu einem unglücklichen Unterbruch gekommen. Gerne schildern wir Ihnen die genaue Sachlage sowie eine chronologische Abfolge der Geschehnisse:
1. Executive Summary
Am 25.10.2013 zwischen 5:00 bis 5:30 Uhr war die Aufschaltung eines weiteren
Providers (Solnet) auf einem 10Gbps Glas Port geplant. Die Leitung wurde dabei von der Gas&Com AG geliefert. Zum Zweck der besseren Verteilung des Routings wurde dies über einen weiteren
Provider angeschlossen. Der Glas Port vom
Provider Solnet wurde dabei in der Weststrasse (Baar) zu einem bestehenden Link zugeschaltet und durch Gas&Com AG übergeben. Der Test, der am 24.10.2013 (Test-Protokoll) durch die Firma Deltanet AG geführt wurde, ergab keine Auffälligkeiten, so dass der Link am 25.10.2013 planmässig in Betrieb genommen werden konnte. Nebst der Aufschaltung wurden 5 Peering-Links der Datasource AG im Datacenter Equinix1 auf eine neue Infrastruktur der Datasource AG migriert. Die Auf- und Umschaltung wurde am 25.10.2013, um 5:04 Uhr vorgenommen und war um 5:22 Uhr abgeschlossen. Nach der Umschaltung funktionierten die neue Hardware wie auch der neue Link erwartungsgemäss. In den folgenden Stunden wurde ein Problem bei der Funktion des BGP festgestellt, welches augenscheinlich mit dem neuen
Provider und dem neuen Link zusammen hängen sollte. Nach genauer Überprüfung und Rücksprache mit dem neuen
Provider sowie auch dem Glasfaserlieferanten, wurde ein Problem an der Konfiguration vermutet. Die Abschaltung des neuen Links erbrachte aber nicht den gewünschten Erfolg, das Routingproblem blieb weiterhin bestehen. Durch das Routingproblem wechselten die Routen zwischen den verschiedenen
Providern, wodurch der Internetverkehr verlangsamt wurde und zum Teil auch kurzzeitig unterbrach. In der Folge wurde sämtliche Hardware, welche neu in Betrieb genommen wurde ausgewechselt und mit den Technikern der Hersteller konfiguriert. Da das Problem weiterhin auftrat, wurde erneut mit dem Lieferanten der neuen Glasfaserleitung Kontakt aufgenommen. Vom Glasfaserlieferanten wurde ein Techniker mit Messgerät zur Verfügung gestellt. Dieser begann am 26.10.2013 sämtliche Fasern von der Weststrasse nach Zürich, wie auch von der Weststrasse ins Lättich (Baar), zu messen, um ein Problem an den Glasfasern auszuschliessen. Der Techniker stellte ein Problem am Link MS2058 zwischen der Weststrasse und Schlieren fest und hat dieses umgehend behoben. Für eine erfolgreiche Suche der Problemursache mussten zum Teil sämtliche Glasfasern für die Messung getrennt werden, was einen Routingausfall von ca. 09:00 bis 11:15 Uhr zur Folge hatte. Da die neue Leitung vor Inbetriebnahme gemessen wurde, wurde dies fälschlicherweise zuerst als mögliche Ursache ausgeschlossen. Da sämtliche neu eingesetzte Hardware zuerst gewechselt wurde, dauerte die Problemsuche und Störungsbehebung mehrere Stunden.
2. Network / Connection impacted
Die neue Verbindung wies sporadisch und in unregelmässigen Abständen Bit-Errors im Layer 1 auf. Die Bit-Errors waren für das BGP-Setup so fatal, dass die Routen ständig neu verteilt wurden, was die Router an Ihre Belastungsgrenze brachte. Die Folge waren ständig wechselnde Routen zwischen 5
Providern. Das ganze Layer 3 wie auch Layer 4 Netz wurde dadurch beeinträchtigt, da es eine längere Umschaltzeit zwischen den
Providern im Störungsfall benötigte.
3. Root Cause
Ein Übertragungsmodul (10G-LR) des Anbieters der Glasfaser verursachte zwischenzeitliche Fehler, welche das Problem auslösten.
4. Sequence of Events
- 24.10.2013 05:22 Die Zuschaltung der neuen Leitung und des
Provider Solnets wurde planmässig abgeschlossen
- 24.10.2013 07:45 Bei der Kontrolle des Routing ist ein unregelmässiger
Paketverlust aufgefallen
- 24.10.2013 09:30 Nach der Kontrolle der gesamten Konfiguration wurde eine Meldung an den Glasfaseranbieter gemacht
- 24.10.2013 09:30-12:00 Troubleshooting mit dem neuen
Provider Solnet
- 24.10.2013 12:00-13:20 Troubleshooting mit Glasfaseranbieter, Prüfung der Pegel auf DWDM und neuem 10 Gbps Link
- 24.10.2013 13:40-16:30 Organisation und Austausch des 10 Gbps Switches in Zürich
- 24.10.2013 14:00-17:30 Parallel Organisation von neuem 10 Gbps Switch sowie 10 Gbps Router Nr. 3 / Lättich
- 24.10.2013 17:30-18:00 Austausch Router 3 / Lättich 10 Gbps
- 24.10.2013 18:30-20:30 Abklärung der Möglichkeiten eines Rückbaus
- 24.10.2013 20:30 Meldung von Glasfaseranbieter: Rückbau ist nicht ohne Weiteres möglich
- 24.10.2013 21:40 Aufgebot Glasfaseranbieter für eine end-to-end Messung von Faser MS2058 von Baar nach Zürich
- 24.10.2013 22:00 Konfigurationsprüfung der Router 1-3 durch Pikett Dienst des Herstellers der Router
- 25.10.2013 00:20 System funktioniert für kurze Zeit ohne Störung
- 25.10.2013 01:15
Paketverlust tritt erneut auf und wird häufiger
- 25.10.2013 07:00 Bereitstellung von Messpersonal durch Gas&Com und Messgerät durch Glasfaseranbieter
- 25.10.2013 08:30 Der Glasfaserring (Baar, Equinix, Interaction, Hünenberg, Baar) muss gemessen werden
- 25.10.2013 09:00 Start Komplettmessung aller Fasern von Baar (Lättich) nach Zürich
- 25.10.2013 09:15 Start Komplettmessung aller Fasern von Glattbrugg (Interaction) nach Hünenberg
- 25.10.2103 09:30 Start Komplettmessung aller Fasern von Baar (Weststrasse) nach Zürich und Identifikation des Problems durch den Glasfaseranbieter
- 25.10.2013 11:00 Austausch des fehlerhaften 10 Gbps Modul des Glasfaseranbieters in Zürich
- 25.10.2013 11:15 Störung behoben
Wir möchten uns in aller Form für den entstandenen Unterbruch und die damit verbundenen Unannehmlichkeiten entschuldigen. Wir befinden uns mit dem Lieferanten der Glasanbindung in Kontakt und optimieren unsere gemeinsamen Abläufe, damit so ein Unterbruch in Zukunft nicht mehr vorkommen kann.
Freundliche Grüsse
Datasource AG