Göm menyn

2018-01-26

Alexa i full drift igen.

Full funktionalitet är nu återställd på filservern Axel. Nedan berättar vi vad som hände.

Måndagen

Utan förvarning slutar SNMP att fungera på servern Alexa (som sköter filservern som användare känner som axel.iei.liu.se). Efter felsökning som inte kan hitta problemet bestämmer vi oss för att starta om maskinen, och samtidigt köra in ett par firmware-uppgraderingar, bla för systemdiskar och även för bios. Uppgraderingen görs med SUU från Dell, och senaste bios hämtas från Dell som skyddar mot Spectre och Meltdown.

Efter att firmware uppgraderats utan problem startas maskinen igen, men nu kraschar Windows under uppstart med felmeddelande DPC_Watchdog_violation. Kontakt med Dell tas och vi bestämmer tillsammans att det snabbaste nog är att ominstallera Windows eftersom felmeddelandet är väldigt generiskt. Ominstallation misslyckas med Windows Server 2012 R2, varpå vi testar med Windows Server 2016. Vi får samma fel som i början, DPC_Watchdog_violation, och tillsammans med Dells ProSupport försöker vi lösa och sedan isolera problemet under kvällen och natten. Ingenting ser misstänkt i loggar från iDRAC eller när vi kör diagnostikverktyg.

Tisdagen

Vid två på natten till tisdagen lyckas vi installera Windows när vi tar en hotspare och gör om till en disk. Vi ställer den primära diagnosen till något är fel med operativsystemets disk (som kör Raid1 och inte uppvisar några som helst fel). Den nya instansen av maskinen installeras klart, görs medlem av domänen och börjar dela ut filer vid klockan tre. Dock får vi inte igång vårt speciella nätverkskort, utan kör på en USB-till-ethernet-adapter som ger oss 1% av normal bandbredd.

Tillsammans med Dell görs en beställning på service och reservdelar till servern: två nya diskar för att byta ut de två som vi misstänker är problemet. Vi misstänker att en misslyckad firmware-uppgradering av nätverkskortet under natten har sabbat det, så även ett nytt nätverkskort beställs, liksom ett moderkort ifall problemen består och problemet ligger i chipset.

Onsdagen

Vi väntar på att servicetekniker ska höra av sig. Inget, men å andra sidan är server uppe. Vi väntar.

Torsdagen

Vi ringer Dell som inte förstår varför vi inte fått service än, de ber många gånger om ursäkt och säger att de ska ringa Dell Global Command Center. Vissa av oss (jag) tycker det känns bra. En kvart senare berättar vår kontakt att de bokat in en express-service och att delar och tekniker ska vara hos oss inom fyra timmar.

Med en transport från Stockholm, en transport från Örebro och tekniker från Linköping kan vi sätta igång. Vi börjar vid halv sex med att byta nätverkskortet först, och det hoppar genast igång och då behöver vi inte byta moderkort. Vi byter diskar och skapar ny volym och försöker klona det operativsystem som är igång. Det fungerar inte riktigt, så än en gång installerar jag om maskinen. Klockan halv tio är maskinen helt igång och delar ut filytor igen.

 

 

Frågor? Maila Magnus

 

 

Sidansvarig: magnus.ekbladh@liu.se
Senast uppdaterad: 2015-05-21