Jump to content

Hyper-V mit HP SV3200 - SAN Ausfall - VM Neustart


Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Empfohlene Beiträge

Hallo,

 

ich habe einen Server 2012 R2 im Einsatz. Dieser hat ein HPE SV3200 SAN angebunden.

Leider hat dieses SAN noch einen Fehler, welchen ich nicht AdHoc lösen kann. Es startet alle 2 Wochen neu und nirgends ist der Fehler zu finden (Hersteller ist dran und nicht unbedingt hier zu lösen ;)).

 

Mein Problem ist, dass wenn das SAN neustartet, die VMs ausfallen. Diese liegen auf dem SAN und somit bricht die ISCSI Verbinung ab. Nach dem Neustart des SANs ist der Speicherplatz wieder da, nur die VMs sind weiterhin nicht Einsatzbereit.

 

Der Status der VMs ist weiterhin "wird ausgeführt", jedoch laufen sie nicht. Ich kann diese dann auch nicht über "Neustarten" reaktivieren. Ich muss diese Ausschalten und danach einzeln wieder Starten. Voila, sie laufen wieder.

 

Problematisch dabei ist, dass der Neustart jeden Dienstag Vormittag passiert :D Voll im geschehen und sehr unpassend. Noch blöder ist, dass ich jetzt im Vater-Urlaub bin und ich den Ausfall nicht sofort mitbekommen werde. 

 

Als VMs sind fast nur Server 2012R2 im Einsatz. Zwei weitere Linux-Server sind außerdem am laufen. Kennt jemand ein Tool, wleches die VMs durchgehend überwacht und bei einem Ausfall Mails lossendet? Auch wäre ein Automatischer Neustart bei einem Ausfall gut.

 

Über weitere Tipps wäre ich auch Dankbar :D 

 

MfG

Olli

Link zu diesem Kommentar

Moin,

 

mal andersrum gedacht: Lässt sich der Neustart des SAN evtl. "verschieben", indem man einmal das System z.B. am Wochenende durchstartet? Wir hatten sowas mal bei einer Firewall, die der Kunde nicht austauschen wollte. Wenn man das so hinbekäme, könnte man als Workarund die VMs herunterfahren, alles neu starten und dann die VMs geordnet wieder hochfahren.

 

Sollte das nicht (als "zuverlässiger Workaround" bis zur wirklichen Lösung des Problems) funktionieren, würde ich schleunigst das ganze System außer Betrieb nehmen. Ihr spielt mit dem offenen Feuer. Wenn bislang die VMs und vor allem deren Applikationen den plötzlichen Ausfall des Storage überlebt haben, ist das nichts als Glück. Beim nächsten Mal können die Daten im Eimer sein, und dann ist es mit einem Neustart der VMs nicht getan.

 

Gruß, Nils

Link zu diesem Kommentar

@doso: ... Helfeekomplex und leider noch keinen Vertreter :D

 

PRTG habe ich noch nicht getestet. Ich werde es mir Mal angucken, danke.

 

@NilsK

Den Plan mit dem durchstarten am Wochenende nehme ich gerne an, Problem ist nur, dass wir 7 Tage die Woche aufhaben :)

Ich werde es Mal abends machen. Ja ich verstehe das Problem mit dem Feuer. Maximal würden ca. 3 Stunden Arbeit verloren gehen. Schön ist es aber bei weitem nicht.

 

(Die Updates bei dem SAN laufen nicht gut durch. Bevor Controller 1 durch ist und wieder läuft, fängt C#2 an und produziert eine downtime. Im Anschluss schlägt dann auch noch das Update fehl.)

 

Nach meinen Urlaub ist schon ein Termin für den Support geplant. Ein Ziel ist somit hoffentlich in Sicht.

 

Danke schonmal für die helfenden Ideen.

Link zu diesem Kommentar

Hat Windows Server Hyper-v 2016 nicht so ein Feature wo es solche Storage Ausfälle aushält?

Du meinst wahrscheinlich den umgeleiteten Zugriff? Der sorgt nur dafür, dass ein Cluster, dessen Pfade zum Storage ausfallen, über einen anderen Node auf den Storage zugreifen kann. Also zum Beispiel FC-HBA in Node1 defekt => greift über Clusternetzwerk und Node2 auf Storage zu. Wenn der Storage für keinen Node mehr erreichbar ist, hat man so oder so ein Problem. Je nachdem wie schnell der Storage neu startet, könnte man natürlich das Disk Timeout erhöhen, so dass die Guests nicht abstürzen. Aber das ist Gebastel hoch drei. :)

 

mal im Ernst: HP lässt sowas echt beim Kunden zu? Gut zu wissen welchen Hersteller man nicht kaufen sollte...

So wie ich den Threadersteller verstehe, will HP zuerst ein Firmware-Update machen. Der Termin dafür ist erst nach seinem Urlaub. Nach meinen Erfahrungen hilft HP gemäss den definierten Supportzeiten sehr gut, aber sie wollen verständlicherweise immer zuerst die Firmware aktuell haben.

Link zu diesem Kommentar

Wir haben schon mehrere Termine mit HP gehabt. Haben auch viel gemacht und es wurde schon besser.

 

Wir haben eines der ersten SANs der aktuellen Reihe bekommen und somit doch ein paar Kinderkrankheiten mitbekommen. Bisher ist es zwei Mal passiert und das in diesem 2 Wochen Rhythmus. Davor fast 5 Monate fehlerfrei.

Nach meinem Urlaub, da ich eine "Ein-Mann-Abteilung" bin. Nicht schön aber muss ja auch laufen.

 

Firmware Update ist vollkommen richtig. Das Update muss laufen und dann "kann" der Fehler behoben sein oder behebbar sein.

 

Ich bin mit HPE vollkommen zufrieden. Der Support hat schon viel geholfen und somit Fehler behoben.

 

Btw. Heute trat der Fehler bisher nicht auf. Nach Dokumentation hätte es um ~10:20 Uhr sein müssen.

 

Im Grunde will ich auch erstmal nur gewappnet sein, sobald ein Fehler Auftritt schnell handeln zu können. Oder sich sogar selbst behandelt.

Link zu diesem Kommentar

Moin,

 

also ... müsst ihr selbst wissen, aber mir wäre das Risiko zu hoch. Die drei Stunden sind dabei ja die optimistische Betrachtung - oder sichert ihr alles komplett und konsistent im Drei-Stunden-Rhythmus und stellt es ohne Downtime wieder her?

 

Und nur um es noch mal gesagt zu haben: Monitoring ist nett, verhindert aber keinen einzigen Fehler. Vor allem keine Folgefehler wie korrupte Datenbestände, wenn ein iSCSI-Volume plötzlich nich mehr erreichbar ist.

 

Gruß, Nils

Link zu diesem Kommentar
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Schreibe einen Kommentar

Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung jetzt entfernen

  Only 75 emoji are allowed.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor-Fenster leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

×
×
  • Neu erstellen...