CMS Journal
Nr. 33
Juni 2010
Service
Metadaten
Hinweise
Weitere Artikel aus dem cms-Journal Nr. 33 finden Sie auf dem edoc-Server der Humboldt-Universität zu Berlin unter http://edoc.hu-berlin.de/cmsj/33
Copyright
Dieser Artikel ist ein Open Access Artikel und steht unter der Creative Commons Lizenz BY (siehe...).

Havarieservice des CMS


Dr. Günter Kroß
kross@cms.hu-berlin.de

Abstract

Der Havarieservice des CMS verbessert mit technischen Mitteln (redundante Systeme, automatisierte Überwachung, Signalisie- rungs-, Informations- und Managementtools) die Verfügbarkeit der Systeme und die Erkennung von Havarien. Durch eine Rufbereitschaft, die per SMS über automatisch erkannte Systemhavarien informiert wird, werden die Abläufe zur Fehlerbeseitigung wesentlich verbessert.


Ausgangspunkt

Mitte 2007 begannen wir mit der Vor- bereitung unseres seit November 2008 betriebenen Havarieservice. Unsere Situation war zuvor sicherlich so, wie die vieler Hochschulrechenzentren. Die automatisierte Überwachung der tech- nischen Systeme – Netze, Server, Speicher – war noch sporadisch. Eine Benachrichtigung der Systemadministratoren zu Systemhavarien erfolgte, wenn überhaupt, meist nur per E-Mail durch Ma nagementsysteme. Die Registrierung von Fehlern außerhalb der Arbeitszeiten war damit recht zufällig. Wenn Havarien erkannt wurden, wurden sie auch außerhalb der regulären Arbeitszeiten mit Engagement behoben. Geleistete Stunden wurden durch Freizeit ausgeglichen, eine Vergütung von Überstunden gab es nicht. Für einen Bereitschaftsdienst zur Behebung von Havarien war (und ist) die Personaldecke zu gering.

Da die Abhängigkeit der Arbeitsfä-higkeit der Humboldt-Universität von der Verfügbarkeit der IT-Systeme absolut ist, suchten wir nach Möglichkeiten, im Rahmen unserer Personalsituation die Verfügbarkeit zu verbessern. Eine hohe Priorität wurde Redundanzen einge- räumt. Das betrifft die Systeme und ihre Komponenten, hochverfügbare Cluster- lösungen, redundante Netze sowie eine redundante Infrastruktur von der Klima- tisierung über die Stromversorgung bis hin zur räumlich separaten Unterbringung geclusterter Server oder Speicher.

Diese Vorgehensweise vermindert die Ausfälle von Diensten, sie hat jedoch Grenzen aus Kostensicht und löst nicht alle Probleme.

Weitere Verbesserungen lassen sich nur durch schnellere Reaktionszeiten des Servicepersonals und durch die ak- tuellere Information der Benutzer über Systemhavarien erreichen. Zunächst wurden die Systemüberwachung mittels Nagios und die Havariesignalisierung per SMS verbessert. Darauf aufbauend wurde eine technische Rufbereitschaft auf Basis eines Rahmendienstplans sowie die Vergütung von Überstunden eingeführt. Zur einfachen Organisation der Rufbereitschaft wurde ein Tool zur Planung und Abrechnung program- miert. Zur Unterstützung der Benutzer und der Betreiber von Systemen wurden ein aus dem Netz der HU zugänglicher graphischer Monitor zur Netzüberwa- chung sowie eine verbesserte Störungs- seite des CMS im Web implementiert.

Inhaltsverzeichnis

Ausgangspunkt...

Technische Rufbereitschaf...

Technische Hilfsmittel...

Einschätzung...


Technische Rufbereitschaft

Gegenstand

Die Rufbereitschaft des CMS bezieht sich ausschließlich auf zentrale technische Systeme des CMS. Es werden nur Systeme einbezogen, von deren Verfügbarkeit eine große Anzahl von Benutzern oder andere Dienste abhängig sind. Das sind zentrale Router, Switche und Firewalls des Datennetzes und äußere Netzzugänge (X-WiN, VPN-Gateways), die Hauptkomponenten des Speichernetzes (Switche, Speichervirtualisierungsserver), zentrale Mail-, Web-, Datenbank-, File-, Verzeichnisdienst- und Authentifizierungsserver sowie weitere Server zur Versorgung großer Benutzergruppen, z. B. im Rahmen des Studierendenservice (Agnes), des Lernmanagements (Moodle) oder des Dokumentenmanagements (EDOC). Die Rufbereitschaft reagiert auf Signale oder den Ausfall technischer Systeme, sie ist nicht für die persönliche Kontaktaufnahme durch die Benutzer vorgesehen.

Level 2-Support

Der L2-Support reagiert auf SMS, die beim Erkennen von Systemausfällen oder -anomalien durch Nagios-Überwachungssysteme über HU-interne SMS-Gateways erzeugt werden. Bereitschaftszeiten des L2-Supports sind mit einer Reaktionszeit von einer Stunde: werktags 6–8 und 17–22 Uhr, samstags 7–22 Uhr, sonn- und feiertags 9–22 Uhr. Die Bereitschaftszeiten werden kalendertäglich auf die Teilnehmer verteilt. Diensthabende im L2-Support können in der Regel nur in Ausnahmefällen Havarien selbst beheben, nämlich wenn durch sie selbst betreute Dienste betroffen sind. Aufgaben des L2-Supports sind:

  • Registrierung und Quittierung der Fehlernachrichten der Systeme (SMS)
  • erste Fehleranalyse und -eingrenzung
  • Behebung einfacher Störungen bzw. von Störungen der vom Diensthabenden selbst verantworteten Systeme
  • Information und Koordinierung der Spezialisten des Level 3-Supports (SMS, ggf. auch telefonisch)
  • Information der Benutzer im Web (Störungsseite)
  • ggf. Benachrichtigung sonstiger Havariedienste (z. B. Klima, Strom)

Der L2-Support arbeitet in der Regel zu Hause über das Netz und wird nur in Ausnahmefällen vor Ort tätig.

Level 3-Support

Der L3-Support ist für die Behebung von Havarien der Systeme zuständig. Aufgrund der Komplexität und Vielfalt der Dienste sowie der personellen Ausstattung des CMS kann für den L3-Support keine Reaktionszeit garantiert werden. Es gibt weder eine Rufbereitschaft noch eine Verpflichtung der infrage kommenden Mitarbeiterinnen und Mitarbeiter, sich verfügbar zu halten. Werden Leistungen für den L3-Support erbracht, gelten oben aufgeführte Servicezeiten.

Personal, Rahmendienstplan, Vergütung

Zurzeit nehmen 26 Mitarbeiterinnen und Mitarbeiter des CMS am Havarieservice teil, davon am L2-Support 22. Arbeitsrechtlich werden Rufbereitschaft und Havarieeinsätze durch einen unter Beteiligung des Personalrates vereinbarten Rahmendienstplan geregelt. Bestandteile des Rahmendienstplans sind der Geltungsbereich, die Aufgaben von L2- und L3-Support, die Bereitschaftszeiten, die Rechte der Teilnehmerinnen und Teilnehmer (maximale Belastung, Freiwilligkeit, jährliche Einverständniserklärung) und die Regelungen zur Vergütung. Einsatzzeiten werden als Überstunden gewertet und in der Regel ebenso wie die Rufbereitschaft geldwert vergütet.


Technische Hilfsmittel

Nagios und SMS-Gateway

Die in den Havarieservice eingeschlossenen Systeme werden mit Hilfe der freien Software Nagios überwacht. Es gibt 4 Nagios-Server für verschiedene Service-Bereiche, die paarweise redundant arbeiten. Die Nagios-Server prüfen die Erreichbarkeit der Systeme und die Arbeitsfähigkeit von Prozessen. Bei Unregelmäßigkeiten werden E-Mails und SMS abgesandt. SMS gehen an den Diensthabenden der Rufbereitschaft (L2-Support) und müssen quittiert werden. Bei Ausbleiben der Quittung tritt eine Eskalationsprozedur in Kraft. Je nach Service gehen SMS parallel auch an die zuständigen Systemverantwortlichen (L3-Support). Die Diensthabenden der Rufbereitschaft werden drei Tage vor ihrem Einsatz durch Nagios per Mail informiert.

Störungsseite

Im Rahmen der Implementation des Havarieservice wurde die Störungsseite des CMS im Web komplett überarbeitet. Das betrifft insbesondere auch Hilfsmittel zum Erzeugen von Störungsmeldungen sowie zur Auswertung der Verfügbarkeit der Dienste. Bei der Erzeugung von Störungsmeldungen werden Dienste, die vom havarierten System abhängig sind, dem Bearbeiter automatisch angezeigt.

Die Benutzung der Störungsseite ist obligatorisch, unabhängig davon, ob ein Service vom Havarieservice abgedeckt wird oder nicht.

Netwatch

Netwatch ist ein Tool, das ebenfalls bei der Implementation des Havarieservice programmiert wurde. Mit ihm können sich insbesondere der Level 2-Support, Serveradministratoren und interessierte Benutzer über den Zustand des Datennetzes informieren.

PlanB

Zur Ermöglichung der Planung der Rufbereitschaft und der Abrechnung der Bereitschafts- und Einsatzzeiten wurde das Tool PlanB im CMS programmiert. Ziel war es, den Aufwand für den Planenden und für die Teilnehmer am Havarieservice zu minimieren. PlanB hat folgende Funktionen:

  • Eintragung von Einschränkungen für die Einplanung zur Rufbereitschaft durch die Teilnehmer (Abwesenheitszeiten durch Angabe von Tagen, Intervallen – z. B. Urlaub, regelmäßig wiederkehrende Tage – z. B. Wochentage)
  • automatisierte Planungsfunktion für den verantwortlichen Planer der Rufbereitschaft (Rolle „Leiter“) unter Vorgabe der zu planenden Monate
  • Veränderung der Zuordnung der Teilnehmer zu Bereitschaftszeiten durch den Planer
  • Anzeige der Dienstplanung (Wochenansichten, durch alle Teilnehmer einsehbar)
  • Anzeige der Einsatz- und Abwesenheitszeiten aller Teilnehmer (nur für den Planer)
  • Tausch bzw. Übernahme von Bereitschaftszeiten (Nutzung durch die Teilnehmer ohne Einschaltung des Planers)
  • Eintragung von Einsatzzeiten und -gründen
  • Druck von Bögen mit Bereitschafts- und Einsatzzeiten sowie Bögen mit Einsatzzeiten und –gründen

Die Planung der Rufbereitschaft erfolgt im CMS am Anfang jedes Monats für den darauf folgenden Monat. Zuvor müssen die Teilnehmer ihre Abwesenheitszeiten eingetragen haben. Die Abrechnung erfolgt am Anfang jedes Monats für den Vormonat, damit bis Mitte des Monats die Nachweisbögen mit Bereitschafts- und Einsatzzeiten der Gehaltsstelle zugesandt werden können.

Jeder Teilnehmer darf in der Regel nur für zwei Tage im Monat für die Rufbereitschaft eingeplant werden. Zwischen den Bereitschaftstagen müssen mindestens drei Tage liegen. Wochenenddienste sind maximal alle zwei Wochen möglich. Die automatisierte Planung verteilt die Bereitschaftszeiten nach einem fairen Algorithmus unter Berücksichtigung der Bereitschaftszeiten der Teilnehmer der letzten 6 Monate. Die Vorgabe eines Prozentsatzes zur Teilnahme an der Rufbereitschaft pro Teilnehmer ist möglich.


Einschätzung

Eine Auswertung der Einsatzzeiten im Rahmen des Level 2- und Level 3-Supports von Mai 2009 bis Februar 2010 ergab, dass es pro Monat durchschnittlich vier Einsätze mit im Schnitt zwei Stunden Dauer pro Einsatz gab. Da die Morgen- zeit von 5 bis 6:30 Uhr überhaupt nicht betroffen war, wurde der Beginn der Rufbereitschaft werktags von 5 auf 6 Uhr verlagert. Die Kosten für Bereitschafts- und Einsatzzeiten liegen pro Jahr bei ca. 12.000 Euro.

Prinzipiell ist festzustellen, dass sich die Verfügbarkeit der Dienste des CMS durch den Havarieservice erheblich ver- bessert hat. Das liegt zum einen am Ausbau redundanter Systeme und am konsequenteren Einsatz von Nagios inkl. SMS-Benachrichtigung. Zum anderen liegt es aber vor allem auch daran, dass sich die Sensibilität der Systemverant- wortlichen zur Erkennung und Behe- bung von Havarien außerhalb der geregelten Arbeitszeiten stark erhöht hat und auch honoriert wird. Es ist so gelungen, die überwiegende Anzahl von Systemausfällen nachts und an den Wochenenden kurzfristig zu beseitigen. Das betrifft durchaus auch Zeiten, in denen keine Rufbereitschaft besteht (22–6 Uhr).