Einblicke und Forschung

Montagsblues mit Comcast: Wie ein Unternehmen während eines ISP-Ausfalls produktiv bleiben konnte

Karte zur Visualisierung von Ausfällen

„Benutzen Sie Ihren Smartphone-Hotspot, wenn Sie Comcast haben“, hieß es in der Slack-Nachricht. Es war 21:45 Uhr am Montag, den 8. November.

Zunächst sah es nach einem kindischen Scherz aus, aber die Nachricht stammte aus einer vertrauenswürdigen Quelle: unserem IT-Team. Wir befanden uns in einem wichtigen Zoom-Meeting, in dem wir in letzter Minute Details für die Produkteinführungsveranstaltung zum Thema „Keine Unterbrechungen“ abstimmten, die am Dienstagmorgen stattfinden sollte. 

„Immer mehr Comcast-User sind in Nordkalifornien von Ausfällen betroffen; möglicherweise Sie bald auch“, hieß es in der nächsten Nachricht.

Die Unterbrechung und die anschließend Koordinierung, um unsere Arbeit zu erledigen, wären ein unnötiges Ärgernis gewesen. Als Reaktion auf die Warnung wechselten wir zu unseren Hotspots und führten unsere Meetings fort, während sich die Ausfälle in Nordkalifornien häuften. 

Ungeplante, mehrstündige ISP-Ausfälle sind heutzutage selten, aber wenn sie auftreten, sind die Auswirkungen auf die Produktivität erheblich – vor allem, wenn die meisten von zu Hause aus arbeiten. 

Der Comcast-Ausfall hat uns daran erinnert, wie wichtig es ist, sich auf unvorhersehbare Situationen vorzubereiten. Aber wie bereitet man sich überhaupt auf zufällig Ausfälle vor?  

In der Welt des Digital Experience Monitoring (DEM) ist proaktives Monitoring der beste Ansatz, um unerwarteten Ausfällen und Unterbrechungen zuvorzukommen. Es ist allerdings schwer zu glauben, dass ständig nach Anzeichen von Problemen gesucht werden kann, bis man diese Methode in der Praxis erlebt. 

Der Comcast-Ausfall stellte für unser Team eine unerwartete Chance dar, denn wir waren mit dem letzten Feinschliff beschäftigt, um am nächsten Tag einige Upgrades für unsere Monitoring-Lösung zu implementieren. Wie hat das IT-Team das geschafft? Im Folgenden wird erklärt, wie das Team mithilfe von Cloud-nativem proaktiven Monitoring dafür sorgte, dass Mitarbeiter während des Ausfalls weiterarbeiten konnten.

Innerhalb von Zscaler wird Zscaler Digital Experience (ZDX) verwendet, um die Leistung der von Zscaler-Mitarbeitern verwendeten Apps zu erfassen und zu bewerten. Am Abend des 8. November wurde ein starker Leistungsabfall registriert, der sich auf mehrere kritische Anwendungen der Mitarbeiter auswirkte. ZDX wies auf problematische Gebiete im ganzen Land hin. Die meisten Probleme traten allerdings in der San Francisco Bay Area auf. Da dort sehr viele Zscaler-Mitarbeiter tätig sind, wurde beschlossen, der Sache nachzugehen. Der ZDX-Score dieser kritischen Anwendungen liegt normalerweise im grünen Bereich. Jetzt war er aber nur noch „OK/Schlecht“ und die Seitenladezeit war stark angestiegen. Siehe Abbildung 1.

Abbildung 1: ZDX-Score und Seitenladezeit haben sich gegen 21 Uhr PT (oder 12 Uhr ET) deutlich verschlechtert.

ZDX überwacht die User Experience jedes einzelnen Zscaler-Mitarbeiters und nutzt die Indikatoren, um zu erfahren, wenn sich die Anwendungsleistung verschlechtert. In diesem Fall wurde anormales Verhalten in Gebieten mit hoher Comcast-Nutzung in der Bay Area festgestellt. In Abbildung 2 und 3 wird die Nutzererfahrung der Zscaler-Mitarbeiter vor und während des Ausfalls dargestellt: 

Abbildung 2: Zscaler-Mitarbeiter in der Bay Area unter normalen Bedingungen mit guter Leistung

Abbildung 3: Zscaler-Mitarbeiter in der Bay Area, die am Abend des 8. November 2021 von den Auswirkungen des Comcast-Ausfalls betroffen waren

Sobald festgestellt wurde, dass eine große Anzahl von Mitarbeitern in einer bestimmten Region Probleme hatte, bestand der nächste Schritt darin, die Ursache zu ermitteln. Da ZDX denselben Agenten nutzt, der auch in die Cloud-Sicherheitslösung Zscaler Internet Access (ZIA) integriert ist, konnten wir auf eine Vielzahl von Daten unserer Mitarbeiter zugreifen, die nahezu in Echtzeit vorlagen. ZDX erfasst Daten zu drei Faktoren: der Anwendung, dem Netzwerk und dem Endgerät des Users. Im Rahmen einer schnellen Analyse konnte festgestellt werden, dass weder die Endgeräte noch die Anwendungen für die Probleme verantwortlich waren. Es lag also ein Netzwerkproblem vor, das im Detail analysiert werden musste.

Wir untersuchten Daten von ZDX CloudPath. Dabei wurden Hop-by-Hop-Latenz und Paketverlust zwischen dem Endgerät eines Users und der Anwendung erfasst. Schnell wurde klar, dass ein Problem mit dem Internetdienstanbieter vorliegt. Mithilfe von CloudPath konnten wir Probleme mit dem WLAN, der Zscaler Cloud und dem Internet-Backbone ausschließen. Wir konnten sehen, dass alle betroffenen User Comcast-Kunden waren und dass alle Beeinträchtigungen zwischen dem Gateway des Users und Comcast auftraten. 

Abbildung 4 zeigt, wie CloudPath den Hop zwischen dem Gateway des Users und Comcast als fehlerhaft sowie übermäßige Latenzzeiten und Verluste anzeigt. Manchmal konnte überhaupt keine Verbindung hergestellt werden. Ebenfalls zu sehen ist ein funktionierendes WLAN (mit minimaler Latenz). Es wurde deutlich, dass eine Downstream-Verbindung von Comcast zur Zscaler Cloud nicht möglich war.


 

Abbildung 4: Dieser Mitarbeiter konnte eine Verbindung zu Comcast herstellen, allerdings mit hoher Latenz und Verlusten.

Wir halten das Internet für eine Selbstverständlichkeit, zumal die meisten Internetdienstanbieter sehr resiliente Netzwerke aufgebaut haben, um Kunden zu Hause schnelle Breitbandverbindungen zu bieten. Aber auch hier verhält es sich wie mit jedem komplexen System: Sobald eine Störung auftritt, kommt es zu unvorhersehbarer und verminderter Internetperformance. Mithilfe von proaktivem Monitoring und Netzwerkeffekten durch das Monitoring aller User gelingt es, ein gewisses Maß an Kontrolle und Vorhersehbarkeit zu erreichen. 

Unter Zscaler Digital Experience erhalten Unternehmen Informationen dazu, wie ihre Remote-Mitarbeiter produktiv bleiben können.

Bleiben Sie auf dem Laufenden mit aktuellen Infos und Tipps für die digitale Transformation.

Durch Abschicken des Formulars stimmen Sie unserer Datenschutzerklärung zu.