Toinen tietokantapalvelin katosi yllättäen verkosta. Syyksi paljastui RAID -levyohjaimen DIMM:n ECC -virhe (eli palvelimen levyjä ohjaavassa härpäkkeessä tapahtui muistivirhe vähän kansantajuisemmin). Palvelin pakotettiin käyntiin mutta tietokanta oli vaurioitunut yllättävässä sammumisessa.
Tietokannasta löytyi viottunut taulu joka poistettiin. Tästä huolimatta tietokanta ei käynnistynyt vaikka virheitä en enää tietokannasta löytynyt uusissa tarkastuksissa. Koska tietokantaa ei millään keinolla saanut normaalisti käyntiin oli ainoa vaihtoehto rakentaa koko tietokanta uusiksi dumpista (tietokannan koko sisällön sisältävä tiedosto).
Tämä tietokantapalvelin on se, joka sisältää kaiken kätködatan. Koska esimerkiksi kätkölokeja on yli 20 miljoonaa on tietokanta suuri ja raskas. Siksi virhetarkastuksissa menee kymmeniä minuutteja ja tietokannan uudelleenrakentaminen ottaa tunteja. Niinpä katkos venähti todella pitkäksi.
Nyt kaikki on taas kunnossa eikä dataa kadonnut. Tällä hetkellä kuitenkaan ei ole tiedossa, oliko kyseessä vain satunnainen bittisolmu vai toistuuko ongelma. Selvittelemme palvelimen tilannetta päivänvalolla.
Mietimme myös mahdollisuuksia saada sivuston palvelinpuoli varmemmaksi. Vaikka käytössä onkin kolme palvelinta niin niissä ei riitä tehot siihen, että voisi rakentaa järjestelmän missä viottuneen palvelimen tehtävät pystyisi kaksi jäljelläolevaa hoitamaan. Niinpä tavalla tai toisella täytyy saada lisäkapasiteettia kuvioihin. Mutta katsotaan mitä keksimme kunhan tässä toivumme tämänkertaisesta yllätyksestä

Pahoittelut katkoksesta!
// haksu10