Einblicke und Forschung

Montagsblues mit Comcast: Wie ein Unternehmen während eines ISP-Ausfalls produktiv bleiben konnte

Karte, auf der die Ausfälle dargestellt sind

„Benutze deinen Smartphone-Hotspot, wenn du Comcast hast“, hieß es in der Slack-Nachricht. Es war 21:45 Uhr am Montag, den 8. November.

Zunächst sah es nach einem kindischen Scherz aus, aber die Nachricht stammte aus einer vertrauenswürdigen Quelle: Sie kam von unserem IT-Team. Wir befanden uns in einem wichtigen Zoom-Meeting, in dem wir in letzter Minute Details für die Produkteinführungsveranstaltung zum Thema „Keine Unterbrechungen“ abstimmten, die am Dienstagmorgen stattfinden sollte. 

„Immer mehr Comcast-User sind in Nordkalifornien von Ausfällen betroffen; möglicherweise du bald auch“, hieß es in der nächsten Nachricht.

Die Unterbrechung und die Notwendigkeit, uns anschließend wieder organisieren zu müssen, um unsere Arbeit zu erledigen, wären ein unnötiges Ärgernis gewesen. Als Reaktion auf die Warnung wechselten wir zu unseren Hotspots und führten unsere Meetings fort, während sich die Ausfälle in Nordkalifornien häuften. 

Ungeplante, mehrstündige ISP-Ausfälle sind heutzutage selten, aber wenn sie auftreten – vor allem, wenn die meisten von zu Hause aus arbeiten – sind die Auswirkungen auf die Produktivität erheblich. 

Der Comcast-Ausfall hat uns daran erinnert, wie wichtig es ist, sich auf unvorhersehbare Situationen vorzubereiten. Aber wie bereitet man sich überhaupt auf solche Ausfälle vor?  

In der Welt des Digital Experience Monitoring (DEM) ist proaktives Monitoring der beste Ansatz, um unerwarteten Ausfällen und Unterbrechungen zuvorzukommen. Es ist allerdings schwer zu glauben, dass ständig nach Anzeichen von Problemen gesucht werden kann, bis man diese Methode in der Praxis sieht. 

Der Comcast-Ausfall stellte für unser Team eine unerwartete Chance dar, denn wir waren mit dem letzten Feinschliff beschäftigt, um am nächsten Tag einige Upgrades für unsere Monitoring-Lösung zu implementieren. Wie hat das IT-Team das geschafft? Im Folgenden wird erklärt, wie das Team mithilfe von Cloud-nativem proaktiven Monitoring dafür sorgte, dass Mitarbeiter während des Ausfalls weiterarbeiten konnten.

Innerhalb von Zscaler wird Zscaler Digital Experience (ZDX) verwendet, um die Leistung der von Zscaler-Mitarbeitern verwendeten Apps zu erfassen und zu bewerten. Am Abend des 8. November wurde ein starker Leistungsabfall registriert, der sich auf mehrere kritische Anwendungen der Mitarbeiter auswirkte. ZDX wies auf problematische Gebiete im ganzen Land hin, die meisten Probleme traten allerdings in der San Francisco Bay Area auf. Da dort sehr viele Zscaler-Mitarbeiter tätig sind, wurde beschlossen, der Sache nachzugehen. Der ZDX-Score dieser kritischen Anwendungen liegt normalerweise im grünen Bereich. Jetzt war er aber nur noch OK/Schlecht und die Seitenladezeit war stark angestiegen. Siehe Abbildung 1.

Abbildung 1: ZDX-Score und Seitenladezeit haben sich gegen 21 Uhr PT (oder 12 Uhr ET) deutlich verschlechtert.

ZDX überwacht die Erfahrung jedes einzelnen Zscaler-Mitarbeiters und nutzt sie Indikatoren, um zu erfahren, wenn sich die Anwendungsleistung verschlechtert. In diesem Fall wurde anormales Verhalten in Gebieten mit hoher Comcast-Nutzung festgestellt, die in der Bay Area liegen. In Abbildung 2 und 3 wird die Erfahrung der Zscaler-Mitarbeiter vor und während des Ausfalls dargestellt: 

Abbildung 2: Zscaler-Mitarbeiter in der Bay Area unter normalen Bedingungen mit guter Leistung

Abbildung 3: Zscaler-Mitarbeiter in der Bay Area, die am Abend des 8. November 2021 von den Auswirkungen des Comcast-Ausfalls betroffen waren

Sobald festgestellt wurde, dass eine große Anzahl von Mitarbeitern in einer bestimmten Region Probleme hatte, bestand der nächste Schritt darin, die Ursache zu ermitteln. Da ZDX denselben Agenten nutzt, der auch in die Cloud-Sicherheitslösung Zscaler Internet Access (ZIA) integriert ist, konnten wir auf eine Vielzahl von Daten von Mitarbeitern zugreifen, die nahezu in Echtzeit vorlagen. ZDX erfasst Daten zu drei Faktoren: der Anwendung, dem Netzwerk und dem Endgerät des Users. Im Rahmen einer schnellen Analyse konnte festgestellt werden, dass weder das Endgerät noch die Anwendung für die Probleme verantwortlich war. Es lag also ein Netzwerkproblem vor, dass im Detail analysiert werden musste.

Wir haben Daten von ZDX CloudPath untersucht. Dabei wurden Hop-by-Hop-Latenz und Paketverlust zwischen dem Endgerät eines Users und der Anwendung erfasst und schnell wurde klar, dass ein Problem mit dem Internetdienstanbieter vorliegt. Mithilfe von CloudPath konnten wir Probleme mit dem WLAN, der Zscaler Cloud und dem Internet-Backbone ausschließen. Wir konnten sehen, dass alle betroffenen User Comcast-Kunden waren und dass alle Beeinträchtigungen zwischen dem Gateway des Users und Comcast auftraten. 

Abbildung 4 zeigt, wie CloudPath die Verbindung zwischen dem Gateway des Users und Comcast als fehlerhaft sowie übermäßige Latenzzeiten und Verluste anzeigt. (Manchmal konnte überhaupt keine Verbindung hergestellt werden.) Ebenfalls zu sehen ist ein funktionierendes WLAN (mit minimaler Latenz). Es wird deutlich, dass eine Downstream-Verbindung von Comcast zur Zscaler Cloud nicht möglich war.


 

Abbildung 4: Dieser Mitarbeiter konnte eine Verbindung zu Comcast herstellen, allerdings mit hoher Latenz und Verlusten.

Wir halten das Internet für eine Selbstverständlichkeit, zumal die meisten Internetdienstanbieter sehr resiliente Netzwerke aufgebaut haben, um Kunden zu Hause schnelle Breitbandverbindungen zu bieten. Aber auch hier verhält es sich wie mit jedem komplexen System: Sobald eine Störung auftritt, kommt es zu unvorhersehbarer und verminderter Internetleistung. Mithilfe von proaktivem Monitoring und den Effekten auf das Netzwerk durch das Monitoring aller User gelingt es, ein gewisses Maß an Kontrolle und Vorhersehbarkeit zu gewährleisten. 

Unter Zscaler Digital Experience erhalten Unternehmen Informationen dazu, wie ihre Remote-Mitarbeiter produktiv bleiben können.

Bleiben Sie auf dem Laufenden mit aktuellen Infos und Tipps für die digitale Transformation.

Durch Abschicken des Formulars stimmen Sie unserer Datenschutzerklärung zu.