TIVIA News: Kun asiat lentävät tuulettimeen – IT-häiriöiden anatomiaa

29. tammikuuta 2017 kirjoittaja
TIVIA News: Kun asiat lentävät tuulettimeen – IT-häiriöiden anatomiaa
Teräs Olli

IT-palveluissa häiriöiden tehokas selvittäminen on erittäin tärkeää, jotta samoja virheitä ei toisteta uudelleen. Kari Saarelaisen väitöskirja pureutuu IT-palveluiden häiriöiden taustatekijöihin ja ennakoivan ongelmanhallinnan menetelmiin.

 

MITEN SITTEN TULISI TOIMIA?

Ennakoiva ongelmanhallinta on tärkeä osa palveluiden jatkuvaa parantamista. Näin voit parantaa IT-palveluntuotannon laatua.

- Tutki ongelman syyt huolella. Ohjeista ongelmanselvittäjiä katsomaan ilmeisen syyn taakse. Kannattaa välttää mainintoja tyyliin ”konfigurointivirhe” tai ”ohjelmistovirhe”. Sen sijaan on syytä katsoa, mikä tekijä tai tekijät vaikuttivat häiriön syntyyn.

- Luokittele syyt, esimerkiksi laiteviat, sovellusviat, käyttöjärjestelmä­/laite ohjelmaviat, inhimilliset viat.

- Analysoi tapahtuneita häiriöitä. Minkä tyyppiset häiriöt esiintyvät useimmin? Onko jokin tietty yksikkö tai laitetyyppi yliedustettuna? Milloin häiriöitä esiintyy?

- Pyri poistamaan taustatekijät, jotka saavat aikaan häiriöiden toistumista

- Laita tämä harjoitus jonkun vastuulle toistettavaksi 1–2 kertaa vuodessa.

ICT LEADERS FINLAND RY

TIVIAn jäsenyhteisö ICT Leaders Finland ry on liiketoiminnan ja tietohallinnon johtamisen ammattilaisten valtakunnallinen teemayhdistys. Keskeisenä tavoitteena on madaltaa esteitä tietohallinnon ja liiketoiminnan yhteistyön tieltä, osoittaa IT:n mahdollisuuksia ja tukea IT:n menestyksellistä hyödyntämistä.

Lisätietoja: www.ictleadersfinland.fi

IT-palveluissa häiriöiden tehokas selvittäminen on erittäin tärkeää, jotta samoja virheitä ei toisteta uudelleen. Kari Saarelaisen väitöskirja pureutuu IT-palveluiden häiriöiden taustatekijöihin ja ennakoivan ongelmanhallinnan menetelmiin.

Onnettomuuksien syntymekanismien ja työturvallisuuden tutkimuksella on vahvat perinteet monilla aloilla, esimerkiksi lento-, tie- tai meriliikenteessä. Tulostakin on syntynyt: kuolon-uhrien määrä tieliikenteessä on 1960-luvun alusta pudonnut lähes 3 000 kuolonuhrista nykyiseen reiluun 50:een miljoonaa autoa kohden.

IT-häiriöissä henkilövahinkojen määrä on vähäinen, mutta taloudellista vahinkoa tulee senkin edestä. Erään tutkimuksen mukaan neljä prosenttia Pohjois-Amerikan bruttokansatuotteesta kuluu IT-häiriöihin. Toisen tutkimuksen mukaan tyypillinen konesalihäiriö maksaa 8 000 Yhdysvaltain dollaria minuutissa. Siis minuutissa! Koko häiriö maksaa keskimäärin 630 000 dollaria.

IT-häiriöiden seuraamukset ovat lähinnä taloudellisia. Siksi niiden syntyä on tutkittu selvästi vähemmän kuin monilla muilla aloilla, joissa tulee kuolonuhreja. Tätä aukkoa pyrin väitöstutkimuksellani paikkaamaan.

ENNAKOIVA ONGELMANHALLINTA KANNATTAA

IT-palvelutuotannon eräs suositelluista käytännöistä on ennaltaehkäisevä ongelmanhallinta, jossa muun muassa tutkitaan historiallisia häiriöitä ja löydetään häiriöiden taustalla olevia tekijöitä. Niihin vaikuttamalla voidaan estää häiriöiden uusiutuminen. Suuren häiriömäärän tai edes yksittäisen häiriön taustatekijöiden selvittäminen ei välttämättä ole yksinkertaista.

Väitöstutkimuksen yhteydessä on kehitetty menetelmä, joka auttaa toistuvien häiriöiden perimmäisen syyn tai syiden, juurisyyn, löytämistä. Erityistä huomiota on kiinnitetty inhimillisten tekijöiden osuuteen häiriöissä.

Eräs yleisimmistä kirjatuista häiriön syistä on laitteen tai ohjelmiston määrittelyvirhe, konfigurointivirhe. Tämän taustalla voi löytyä monia tekijöitä alkaen puuttuvasta testauksesta, vajavaisesta perehdyttämisestä, huonosta valvonnasta, muutossuunnitelman tai testauksen puutteesta, kurittomuudesta, huonoista ohjeista, puutteellisesti prosessista tai monesta muusta taustalla vaikuttavasta seikasta.

Teknisen vian todennäköisyyttä voi taas nostaa esimerkiksi kypsymätön tekniikka (”versio 1.0”), vikoja sietämätön rakenne, standardoinnin puute, tekemättömät päivitykset, monimutkaisuus tai valvontatyökalujen puute. Nämä puolestaan voivat johtua puutteellisista prosesseista, huonoista käytännöistä, hankintapolitiikasta, riskinhallinnan puutteista tai huonosta johtamisesta. Usein häiriön johtaneita tapahtumia tai olosuhteita on monta. Eli häiriö on surkeiden sattumusten summa.

Kun lento-onnettomuutta tutkitaan kuukausia, IT-häiriötä tutkitaan aikapaineessa hyvässäkin tapauksessa tunteja. Tavallisesti häiriön syyksi kirjataan ilmeinen suora syy yrittämättäkään selvittää tapahtumien taustaa. Häiriön toistumista on kuitenkin hankala estää, jos häiriön syyksi kirjataan jatkuvasti ”konfigurointivirhe” tai ”ohjelmistovirhe”. Häiriön taustalla vaikuttaviin tekijöihin tulisi päästä käsiksi jo sitä selvitettäessä.

HÄIRIÖMALLI AUTTAA SELVITYKSESSÄ

Väitöstutkimuksessa on kehitetty ennakoivan ongelmanhallinnan menetelmä, jossa häiriöjoukosta pyritään löytämään häiriöiden taustalla olevia tekijöitä, tunnistamaan samoista tekijöistä johtuvat häiriöt (toistuvat häiriöt) sekä kuvaamaan tapahtumien kulku huomioiden taustatekijät ennen häiriötä ja sen aikana.

Menetelmään liittyy työtä helpottavia työkaluja, joita on kehitetty ja käytetty lukuisissa käytännön toimeksiannoissa. Eräs näistä työkaluista on häiriömalli, joka avustaa IT-ongelmien selvittäjää taustatekijöiden tunnistamisessa. On erittäin suositeltavaa, että syiden selvityksessä tehdään huolellista työtä esimerkiksi häiriömallin avustamana. Näin häiriön toistuminen on helpompi estää ja suurempia häiriömääriä on helpompi analysoida osana palvelun jatkuvaa kehittämistä.

Kari Saarelainen, fil. tri., KPMG IT-neuvonta

DI Kari Saarelaisen tietojenkäsittelytieteen alaan kuuluva väitöskirja “How and why things happen - Anatomy of IT service incidents (Miten ja miksi asiat tapahtuvat - IT-häiriöiden anatomiaa) tarkastettiin marraskuussa Itä-Suomen yliopistossa.

 

tuumaa TIVIA News
Jaa tämä kirjoitus
Tunnisteet
Arkistoi