16. 9. 2008

Blesk neudeří na jedno místo dvakrát. Většinou.

Po tomto víkendu definitivně přestávám lidovému moudru věřit. Ledaže by platilo pouze na dobu dvou let od posledního úderu bleskem.

Vzpomínka na druhý červenec 2006 se  mi z  paměti ještě úplně nevytratila. Pohledem do elektronického kalendáře si přesně vybavuji  ten úterní prázdninový večer, kdy jsem se v poklidu chystal na týdenní dovolenou do Švýcarska. Ani v nejmenším mne tehdy  nenapadlo, jakou předzvěstí jsou všechny ty timeouty, co jsem náhle zpozoroval na našich Seznamáckých mapách. Za pár minut, po první desítce jasně hrozivých telefonátů, jsem ale měl jasno: výpadek elektřiny v serverovně a všechny služby Seznamu pryč.

Na dovolenou jsem tehdy nakonec přece jen odjel. Pravda, se 14 hodinovým zpožděním. Ostatní kolegové bez plánovaných dovolených takové štěstí neměli. Z výpadku elektřiny v tehdy jediné serverovně Seznamu se tu vzpamatovávali ještě několik dalších týdnů.

Toto neradostné, bez dvou měsíců dvouleté výročí, jsme si připomněli právě o tomto víkendu. Jeden rozdíl tu ale přece jen byl: za ty dva poslední roky  jsme stihli zbudovat druhou serverovnu v Naganu a díky práci vývojářů zdualizovat většinu z více jak 50ti služeb Seznamu. Výpadek byl stejně jako před dvěma lety neplánovaný, stejně jako před dvěma lety v TTC nenaběhlo záložní napájení. Zbytek havárie proběhl identicky.

Díky serverovně v Naganu se nám ale podařila dříve nemyslitelná věc. Plné znovu rozběhnutí celého Seznamáckého freemailu v TTC netrvalo 1,5 měsíce, ale pár hodin. Neztratili jsme při tom žádná uživatelská nastavení ani emailové zprávy.  Z pohledu uživatele byla služba díky druhé serverovně zprovozněna  v řádech desítek minut.

Řekl bych, že jsme na dobré cestě, ne však v cíli. Zbývají  další jednotky služeb v portfoliu Seznamu, které ještě nemají duální architekturu. Stejně tak víme, že ne všechno se v TTC znovu rozběhlo bez pomoci. Odhadem nás výpadek v TTC stoji zhruba dva dny prací na dočištění všeho, co se rozbilo. Díky druhé serverovně jsou to však práce – z pohledu uživatele – neviditelné a nevýznamné.

Naším cílem je ideálně nulový zásah techniků.

Aby do práce v neděli  už konečně nemuseli system administrátoři z týmů Martina Dolečka, Pavla Danihelky, Honzy Vokase, Honzy Mojžíše a Zdeňka Spáčila. Aby  i system operátoři v TTC Jirka Tauber, Tomáš  Soukup  a ostatní dohlíželi na provoz v klidu.

Až v létě 2010 udeří blesk znovu, uvidíme, jak moc se nám s tím podařilo hnout. 😉


Michal