Clusterausfall löscht Quorum Disk

Traxpoint · 18. März 2010

Hallo Alle,

ich betreue eine Cluster. Bei einem Routinemäßigen umschalten Aktiv - Passiv usw. ist ein Fehler aufgetreten. Dieser Fehler führte dazu das sich die ID des Quorum geändert hat und alle Daten auf dem Quorum gelöscht wurden.

Kennt jemand das Phänomän?

Danke für jeden Hinweis auf die Ursache.

Gruss

Trax

P.S. Der Cluster läuft wieder.:)

Darksun777 · 19. März 2010

Hi,

also pauschal ist das natürlich sehr schwierig zu beantworten, aber das Phänomen an sich kenne ich auch.

Bei uns war es Storage bedingt - beim Failover hatte das SAN kurzzeitig die Verbindung zu beiden Nodes verloren und das Quorum war im Eimer ..

Das Quorum an sich ist meiner Meinung nach sowieso ziemlich empfindlich und kann immer wieder mal crashen .. da freut man sich doch über die Möglichkeit des File-Share-Witness ;)

Traxpoint · 19. März 2010

Das dachte ich mir. So hatte ich es in den Event-Log gesehen und wollte es nicht glauben.

Ich danke Dir für die Mühen und die Bestätigung meines Verdachtes.

Trax

Lian · 22. März 2010

Hallo,

das kann ich nicht bestätigen, bei einem sauberen Cluster sollte das nicht vorkommen. Wenn die Storage und deren Treiber ordentlich eingebunden sind, klappt die Arbitrierung problemlos.

Welche Events bzw. Einträge im cluster.log erhältst Du?

Welche Storage hängt am Cluster?

Traxpoint · 25. März 2010

Hallo Lian,

der Cluster ist 4 Jahre ohne Probleme gelaufen. Es hing an einer IBM DS8000. Dann wurde umgezogen auf eine IBM DS4700. Nach dem Umzug wurden Tests durchgeführt um sicher zu stellen das alles so wie vorher funktioniert. Mit Erfolg.

Am 15.03. sind dann Unregelmäßigkeiten aufgetreten und eine routinemäßige Umschaltung hatte einen Ausfall zur Folge.

Ich habe die Clusterbezogenen Medlungen aus dem Eventprotocoll in eine Textdatei exportiert. Die Nodenamen sind geändert, sollte aber für eine Analyse keine Rolle spielen.

Tut mir leid das ich erst jetzt antworte.

Danke für die Mühen.

Trax

ClusterEvents.txt

Lian · 25. März 2010

Hallo Trax,

kannst Du mehr zu dem Umzug sagen? Wie dabei vorgegangen wurde...?

Hast Du das cluster.log aus dem relevanten Zeitraum?

Event 1034 besagt:

The disk associated with cluster disk resource "<resource>" could not be found. The expected signature of the disk was <signature>. If the disk was removed from the server cluster the resource should be deleted. If the disk was replaced the resource must be deleted and created again in order to bring the disk online. If the disk has not been removed or replaced it may be inaccessible at this time because it is reserved by another server cluster node.

Der Clusterdienst identifiziert die Physical Disks anhand einer ID, der Disk Signatur, und das unabhängig vom Laufwerksbuchstaben.

Mehr dazu: Cluadmin.de: Troubleshooten des Quorum Drives

Kommt die Quorum Ressource auf beiden Nodes in den Status online oder klappt das generell nur auf einem Node?

Traxpoint · 25. März 2010

Hallo Lian,

das Cluster Log habe ich leider nicht. Ich kam erst am nächsten Morgen dazu da hatten Kollegen den Cluster schon wieder Produktiv genommen.

Das Cluster Log war da schon überschrieben. Den Cluadmin Beitrag kenne ich. Sehr gut!

Beim Umzug war ich egenfalls nicht beteiligt. War schon lange geplant und ich b in erst seit kurzem hier.

Allerdings muss der Cluister demnächst wieder geswitched werden. Es bleibt also spannedn ob wir es Nachvollziehen können.

Ich denke das die Verbindung zum Quorum nicht schnell genug hergestellt werden konnte. Dadurch kamen die Knoten in einen "Split-Brain" soll heissen Sie dachten beide Sie wären aktiv. Dann hat der vor Ort Admin genau das unrichtige getan: REBOOT. Damit war das Quorum weg. Denn nun haben beide Knoten nur noch eine "neue Partition" gesehen. ID futsch. Cluster weg :)

Das allerdings diue Daten auf dem Quorum gelöscht wurden, dafür finde ich einfach keine Erklärung.

Tut mir leid das ich Dir nicht mehr geben kann. Aber bei der nächsten Umschaltung bin ich garantiert dabei und dann werden wir sehen.

Grüße

Trax

Lian · 25. März 2010

Hallo Trax,

ohne Daten kann man wenig sagen ;)

Könnte durchaus ein Problem mit der Disk Arbitration sein...

Meld' Dich einfach, sobald Du Input hast.

Anmelden

Clusterausfall löscht Quorum Disk

Empfohlene Beiträge

Traxpoint 10

Darksun777 10

Traxpoint 10

Lian 2.571

Traxpoint 10

Lian 2.571

Traxpoint 10

Lian 2.571

Schreibe einen Kommentar

Menu

Aktivitäten