Wanderings in crisis

Overwegingen bij een ICT-storing

Leestijd: 10 minuten

De ICT-storing bij Prorail in het eerste weekend van juni riep allerlei overwegingen bij mij op. Zoals de eerste crisiswet: crisis is koffie + kroketten. Maar belangrijker nog is dat deze storing een signaal is. Een signaal dat we moeten leren omgaan met onzekerheden.

Dit blog kreeg een update op 26 januari 2024. Dat vind je onderaan.

Op de grens van het weekend van 4 naar 5 juni werd de Treinverkeersleiding in Amsterdam overvallen door een ICT-storing. Na de gebruikelijke herstelpogingen gaf het systeem het na een paar uur alsnog op. Het was niet veilig om door te rijden en dus moest het treinverkeer rondom Amsterdam worden gestaakt. Dat was een logische beslissing. Veiligheid gaat in dit soort gevallen altijd voor.

Drukte op Amsterdam CS in 1946

Daarna moest de uitwijk in Utrecht worden opgestart. Dat proces duurde zo’n vier uur. In de loop van de maandag kwam de boel zo weer langzaam op gang. Het euvel werd diezelfde week nog gevonden, zodat in de nacht van 9 op 10 juni de Treinverkeersleiding weer op zijn eigen stek aan de slag kon gaan.

Als ik dit schrijf is het 10 juni en is er geen recent nieuws meer te vinden over de ICT-storing. Daaruit concludeer ik dat het incident nu kennelijk zonder problemen is afgesloten.

Het evalueren kan beginnen.

Crisiskrant

Maar wie goed keek deze week zag dat die evaluatie al proactief was begonnen. Als redacteur van de Crisiskrant volg ik natuurlijk alles in de pers wat tot een crisis kan leiden en zodoende viel mijn oog op een uitgekiende reconstructie in de Volkskrant van 9 juni 2023.

Uitgekiend, omdat dit interview met de ICT directeur Arjen Boersma een goed voorbeeld is van wat ik in dit blog Blue Ocean Crisiscommunicatie heb genoemd. Dat komt er in het kort op neer dat je een rustige plek moet zoeken om proactief de discussie naar je toe te trekken. Laat anderen reageren op jou, in plaats van dat jij moet reageren op de rest. Zo kom je voor het incident uit, in plaats van dat je er achteraan moet rennen.

Je zou het ook framen kunnen noemen. En daar is helemaal niks mis mee.

Glimlachend las ik dus het verhaal van ProRail en hun ICT directeur. Geschreven als een spannend verhaal met een vreedzaam begin, een onverwachte gebeurtenis en daarna dappere ICT’ers die het kwaad bevochten, zich terugtrokken op een nieuwe linie en daarna alsnog het beest wisten te temmen; één of ander lullig stukje hardware dat net niet kapot genoeg was om direct op te vallen en zodoende vanuit zijn loopgraafje de boel in het honderd kon laten lopen.

Doch dat was buiten de onversaagde ridders van ProRail gerekend. Het boosaardige transcievertje werd alsnog ingerekend. Eind goed, al goed. Directeur Boersma kon eindelijk aan zijn welverdiende gekoelde Paulaner beginnen, die al sinds zondag in de koelkast lag te wachten.

Opluchting op de website van Prorail als de storing is verholpen

Wij herkennen hier natuurlijk direct de dramaboog van Freytag in. Ik zeg: goed gedaan van Prorail.

Tijd voor wat overwegingen bij deze ICT-storing.

Overwegingen bij een ICT-storing

Deze overwegingen zijn geen waardeoordeel en slechts gebaseerd op verhalen uit de krant en wat eigen ervaringen. Zie het meer als associaties, alsof we zojuist een oefening hebben afgerond en nu met elkaar reflecteren. Eigenlijk zoals de barmhartige onderzoeker zich zou moeten opstellen.

  • De eerste trigger uit het verhaal was die Paulaner. Dat was mijn kennismaking met de Duitse weizenbieren. Geen blond, geen wit maar wel lekker. Na veel evaluaties geef ik toch de voorkeur aan Erdinger.
  • Personenvervoer is in de loop der jaren een complexe business geworden. De vraag steeg harder dan het aanbod en er zijn daarom veel ondersteunende systemen nodig om het benodigde volume te managen. Dat betekent dat er op 100% moet worden gedraaid om alles voor elkaar te krijgen. Elke nulproductie, hoe kort ook, moet verderop weer worden gecompenseerd, wat onherroepelijk tot verstoringen leidt: de productie loopt uit, er blijven mensen over of er moet worden geannuleerd. Veel meer keuze is er eigenlijk niet.
  • Er is sprake van wat ik een metastabiel evenwicht noem. Je moet het totale systeem schragen met maatregelen om de gewenste doelen te realiseren. Zonder die schragen lukt het niet. Maar die schragen vormen een faalfactor op zichzelf. In zo’n vol systeem is een ICT-storing meer of minder niet ongewoon. Kortom, een metastabiel evenwicht heeft een grotere kans op falen dan een stabiel systeem met hetzelfde volume.
  • Je krijgt gewoon meer single points of failure. Meer plekken in je proces die de boel voor 100% kunnen platleggen.
  • Daarnaast is er sprake van de kwetsbaarheidsparadox, ook wel als veiligheidsparadox aangeduid. Dankzij die hulpmiddelen kun je verder en harder dan je had gekund zonder. Maar de consequentie is ook dat je dieper in de penarie zit als de boel ermee stopt. Niet alleen de kans is dus groter bij een metastabiel systeem, ook het effect neemt enorm toe. Het is een fragiel systeem geworden.
  • Eigenlijk zijn er maar drie beheersstrategieën voor dit probleem: redundantie (in tijd en ruimte), multifunctionaliteit (of flexibiliteit, ook goed) en recovery. Nou ja, OK, vier: een combinatie van die drie.
  • Maar die moet je wel vooraf inregelen. Anders loopt het alsnog in het honderd. Denk niet dat je er lekker al improviserend uitkomt. Dat kom je niet.
  • Over redundantie en multifunctionaliteit ga ik het nu niet hebben. Wel over recovery. Want dat is namelijk disruptiemanagement. Hoe ga ik om met een verstoorde treinenloop en manage ik de drie effecten uitloop, annuleringen en overblijvers?
  • De eerste stap is het onderkennen van de verschillende soorten incidenten die zich verstopt houden in de ongewenste gebeurtenis. Emergency, disruptie, dreiging en crisis, je leest er alles over in dit blog.
  • De ICT-storing is in deze terminologie van de ongewenste gebeurtenis een emergency. Je hebt speciale vakkennis nodig, een oplosstrategie, opschaling, (externe) servicepartijen en ga zo maar door. Voor het publiek is dit een onzichtbaar noodgeval. Mooi uit de doeken gedaan in het verhaal van de Volkskrant. In ieder geval een tipje ervan.
  • Wat wel zichtbaar is, is de disruptie. Die komt in de krant, op TV en social media. Overal foto’s en plaatjes van een falend incidentmanagement. In dit geval verwacht je dus minimaal twee teams die aan de slag gaan. De ene met de emergency, de andere met de disruptie. Uit het verhaal lees ik daar verder niets over. Maar the absence of evidence is niet the evidence of absence.
  • Ik zou persoonlijk meerdere disruptieteams inzetten. Bij elk getroffen station één. Wie weet is dat ook wel gebeurd. Hoe dan ook zijn de verschillen tussen de aanpak op Amsterdam en Utrecht wel opvallend.
  • Hier heeft de NS natuurlijk ook een rol in. Ook in ons vak is het een bekend vraagstuk. Valt de opvang van passagiers bij de airline (NS) of airport (Prorail)? En wat is de rol van de overheid hierin? Is er in deze een taak weggelegd voor het proces bevolkingszorg? Waar liggen de grenzen? (altijd ergens anders dan in het plan staat).

Dynamieken

  • Zodra je twee of meer incidenten hebt geformuleerd, gaan die ieder hun eigen weg met hun eigen dynamiek. Het hangt met elkaar samen, beïnvloedt elkaar maar niet in seriële causale verbanden. Het is dus onmogelijk om zo’n disruptie vanuit één plek te besturen met slechts één opschalingsniveau. Ook op je disruptiemanagement zal je moeten opschalen, niet alleen bij emergencies.
  • Krijg je dan niet heel veel teams? Ja. Maar dat is de consequentie van je ontwerpkeuzes. Als je over onvoldoende redundantie en multifunctionaliteit beschikt, moet je dus een ruimvallende recoveryjas aantrekken. En die ook oefenen.
  • En ook niet vergeten: personenvervoer = veel mensen = veel social media. Wie personen vervoert, vervoert ook meningen. Bij een disruptie zijn de getroffenen geen slachtoffer, maar actor. Zelfstandige eenheden in een zwerm met een communicatie capability die ver uitsteekt boven wat jij als organisatie in je eentje aan kan.
  • Dan hebben we het nog niet eens over crisismakelaars gehad.
  • Regel dus vrienden voor je ze nodig hebt.
Rangerende treinen in 1932
  • Wat elke crisismanager verder moet weten is de eerste crisiswet: crisis is koffie + kroketten. Regel in het redelijke gratis versnaperingen, maaltijden, koffie, veldbedden of whatever je kan verzinnen. Personenvervoer is zorg voor mensen. Ook als de boel stilvalt.
  • Wat Prorail natuurlijk prima voor elkaar heeft is die back-up. Die deed het gewoon na vier uur.
  • Hooguit zou je kunnen zeggen dat dat proces eerder opgestart had kunnen worden. Parallel Amsterdam herstarten en Utrecht opstarten. Let hierbij wel op de retrospectieve vertekening. Achteraf lijkt zoiets logisch. Maar hoe vaak zijn er geen vergelijkbare verstoringen die wel na een uur zijn opgelost?

De belangrijkste overweging bij deze ICT-storing is dat we moeten leren omgaan met onzekerheden. Zowel de aanbieders van personenvervoer als de gebruikers. Als er zo’n enorm en nog steeds groeiend beroep wordt gedaan op vervoersmodaliteiten, dan stuit elk systeem op enig moment op een grens waar meer technische oplossingen geen uitkomst meer gaan brengen. Dan moet je dus het systeem aanpassen, of accepteren dat het af en toe niet gaat zoals je wilt.

In die zin is deze ICT-storing dus ook een signaal. Laat dat niet verloren gaan.

Update 26 januari 2024: Rode Koningin

In de week van 22 januari 2024 waren er meerdere grote stroomstoringen achter elkaar. Dat riep de vraag op of het toeval was, of dat alles met elkaar te maken had.

Het begon op maandag met een grote stroomstoring in Amsterdam. Ruim 68.000 huishoudens zaten lang zonder stroom. Ook een groot deel van de trams kon niet rijden.

Dinsdagavond viel de stroom opnieuw uit, nu bij zo’n 57.000 adressen. Gelukkig duurde het niet lang en was de voorziening snel hersteld. De netbeheerder sloot niet uit dat er deze week nog meer storingen zouden volgen. Dat had met het weer te maken, zei Liander.

De grondwaterstand was veel hoger dan normaal, waardoor kabels in het water komen te liggen. Kleine beschadigingen kunnen zodoende tot kortsluiting leiden. Bovendien bleek een kachel in de centrale aan de Hemweg het niet te doen, waardoor er vocht was neergeslagen in systemen. Ook dat is het gevolg van metastabiele evenwichten, zoals ik hierboven beschrijf.

Toevallig, zo lijkt het achteraf, was er ook een stroomstoring bij Abcoude in systemen van ProRail. Daardoor viel de aansturing van wissels en seinen uit. Bovendien bleken andere systemen aangetast in hun werking, waardoor het verkeersbeeld niet eenduidig was.

In de krant las ik dat het over een voeding ging die uitviel en toevallig viel de back up voeding uit uit. Waarna het hele systeem faalde. Met als gevolg dat het treinverkeer rondom Utrecht volledig uitviel voor enkele uren. Precies in de spits. De effecten daarvan lijken enorm veel op de hier boven beschreven situatie.

Alles bij elkaar zou je kunnen zeggen dat het toeval is. Er is geen directe link tussen de twee gebeurtenissen. Maar je zou ook kunnen zeggen dat er wel een verband is. In de veiligheidskunde ga je bij ongevallen (soms) op zoek naar basisrisicofactoren. Om de onderliggende oorzaken van ongewenste gebeurtenissen te elimineren.

In 1961 kreeg Utrecht CS nieuwe aanwijsborden. Electrische.

Dat kan je ook loslaten op dit soort ongewenste gebeurtenissen. En dan kom je al heel gauw terecht bij zaken als overbelasting, achterstallig onderhoud, complexe systemen en metastabiel evenwicht. Er is zoveel tijd en energie nodig om datgene wat er al is in goede vorm te houden, dat je eigenlijk nauwelijks ruimte hebt om te verbeteren.

Daarin herkennen we het principe achter de Rode Koningin en de Collapse of Complex Societies. Dat geldt niet alleen bij Tennet, ProRail en de NS, maar eigenlijk bij alle grote infrastructurele bedrijven.

Gezien de middelen, klantvraag en wettelijke beperkingen die dit soort bedrijven hebben zijn de hier beschreven storingen nauwelijks te voorkomen. Ze zijn een gevolg van wat de samenleving overheeft voor de instandhouding en uitbreiding van infra.

Dat is overigens geen waardeoordeel, maar een constatering. Ik snap heel goed dat je niet onbeperkt geld in een systeem wil stoppen. Maar dan moet je ook accepteren dat het af en toe dus mis gaat. Daar is trouwens ook niks mis mee, zolang het veilig blijft. Want daar ligt wel de grens van wat acceptabel is.


Dit blog is onderdeel van een serie over disruptiemanagement. Andere interessante blogs over dat onderwerp zijn Dikke BOB is voor Disruptie, Beginselen van disruptiemanagement en Beheersbaarheid van disrupties. Kijk ook even bij deze link, daar vind je nog meer blogs over crisis- en disruptiemanagement.

6 reacties

  1. Gerard Zomer

    Mooie overwegingen. Interessante invalshoeken.
    Ik heb in mijn tijd als voorzitter Vakgroep IBGS een tijdje in de keuken van ProRail mogen kijken en onder leiding van JF mogen discussiëren over het multi gebruik van het spoor en de uitdagingen daarbij. Het is een organisatie die dag dagelijks voor complexe uitdagingen staat.
    Ik heb destijds geleerd over hun kansen en bedreigingen.
    De gekozen weg naar een oplossing is niet voor iedereen te begrijpen of aan iedereen uit te leggen.
    Daarnaast wil of kan niet iedereen de 360 graden complexiteit begrijpen.
    Koffie en kroketten is de simpelste uitdagingen.

    • Ed

      Ja, en toch wordt ie vaak vergeten. Het is natuurlijk metaforisch bedoeld voor kwesties als gratis toiletgebruik, maaltijden etc.

    • Jaap Jochmann

      Mooie blog Ed, dank voor je inzichten. We hebben inderdaad een systeem dat onder normale omstandigheden heel efficiënt en effectief is, maar als er iets misgaat kan dat (en zal dat) relatief snel tot relatief grote verstoringen leiden. De voorbeelden liggen inderdaad op straat.

      Over opvang van reizigers is overigens geen discussie: het zijn de reizigers van NS en dus ook de zorg van NS. We hebben daar processen voor in place en breiden die momenteel uit, zodat we bij nacht en ontij koffie en kroketten kunnen uitdelen, op alle plekken waar dat nodig zou zijn.

      We spreken elkaar binnenkort weer – ik kijk ernaar uit!

  2. Richard Jansen

    Leuk stuk Ed, zeker omdat ik nu bij ProRail werkzaam ben, heb het op ons intranet gedeeld.

  3. Menno van duin

    Leuk stuk Ed! Terechte constatering om als je het goed wilt doen zowel moet werken aan het probleem (de uitval) als aan de gevolgen van het probleem (de mensen die opvang oid nodig hebben). Vraag is inderdaad of dat gedaan is. Men hoopte en rekende mogelijk te lang op herstel die echter uitbleef. Ook de vergelijking met de disussie wie doet wat,: de vervoerder (bv KLM) of Schiphol zelf is relevant! Ten slotte de vraag welke taak ligt er bij de overheid.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

© 2024 Rizoomes

Thema gemaakt door Anders NorenBoven ↑