Traxpoint 10 Geschrieben 18. März 2010 Melden Teilen Geschrieben 18. März 2010 Hallo Alle, ich betreue eine Cluster. Bei einem Routinemäßigen umschalten Aktiv - Passiv usw. ist ein Fehler aufgetreten. Dieser Fehler führte dazu das sich die ID des Quorum geändert hat und alle Daten auf dem Quorum gelöscht wurden. Kennt jemand das Phänomän? Danke für jeden Hinweis auf die Ursache. Gruss Trax P.S. Der Cluster läuft wieder.:) Zitieren Link zu diesem Kommentar
Darksun777 10 Geschrieben 19. März 2010 Melden Teilen Geschrieben 19. März 2010 Hi, also pauschal ist das natürlich sehr schwierig zu beantworten, aber das Phänomen an sich kenne ich auch. Bei uns war es Storage bedingt - beim Failover hatte das SAN kurzzeitig die Verbindung zu beiden Nodes verloren und das Quorum war im Eimer .. Das Quorum an sich ist meiner Meinung nach sowieso ziemlich empfindlich und kann immer wieder mal crashen .. da freut man sich doch über die Möglichkeit des File-Share-Witness ;) Zitieren Link zu diesem Kommentar
Traxpoint 10 Geschrieben 19. März 2010 Autor Melden Teilen Geschrieben 19. März 2010 Das dachte ich mir. So hatte ich es in den Event-Log gesehen und wollte es nicht glauben. Ich danke Dir für die Mühen und die Bestätigung meines Verdachtes. Trax Zitieren Link zu diesem Kommentar
Lian 2.421 Geschrieben 22. März 2010 Melden Teilen Geschrieben 22. März 2010 Hallo, das kann ich nicht bestätigen, bei einem sauberen Cluster sollte das nicht vorkommen. Wenn die Storage und deren Treiber ordentlich eingebunden sind, klappt die Arbitrierung problemlos. Welche Events bzw. Einträge im cluster.log erhältst Du? Welche Storage hängt am Cluster? Zitieren Link zu diesem Kommentar
Traxpoint 10 Geschrieben 25. März 2010 Autor Melden Teilen Geschrieben 25. März 2010 Hallo Lian, der Cluster ist 4 Jahre ohne Probleme gelaufen. Es hing an einer IBM DS8000. Dann wurde umgezogen auf eine IBM DS4700. Nach dem Umzug wurden Tests durchgeführt um sicher zu stellen das alles so wie vorher funktioniert. Mit Erfolg. Am 15.03. sind dann Unregelmäßigkeiten aufgetreten und eine routinemäßige Umschaltung hatte einen Ausfall zur Folge. Ich habe die Clusterbezogenen Medlungen aus dem Eventprotocoll in eine Textdatei exportiert. Die Nodenamen sind geändert, sollte aber für eine Analyse keine Rolle spielen. Tut mir leid das ich erst jetzt antworte. Danke für die Mühen. Trax ClusterEvents.txt Zitieren Link zu diesem Kommentar
Lian 2.421 Geschrieben 25. März 2010 Melden Teilen Geschrieben 25. März 2010 Hallo Trax, kannst Du mehr zu dem Umzug sagen? Wie dabei vorgegangen wurde...? Hast Du das cluster.log aus dem relevanten Zeitraum? Event 1034 besagt: The disk associated with cluster disk resource "<resource>" could not be found. The expected signature of the disk was <signature>. If the disk was removed from the server cluster the resource should be deleted. If the disk was replaced the resource must be deleted and created again in order to bring the disk online. If the disk has not been removed or replaced it may be inaccessible at this time because it is reserved by another server cluster node. Der Clusterdienst identifiziert die Physical Disks anhand einer ID, der Disk Signatur, und das unabhängig vom Laufwerksbuchstaben. Mehr dazu: Cluadmin.de: Troubleshooten des Quorum Drives Kommt die Quorum Ressource auf beiden Nodes in den Status online oder klappt das generell nur auf einem Node? Zitieren Link zu diesem Kommentar
Traxpoint 10 Geschrieben 25. März 2010 Autor Melden Teilen Geschrieben 25. März 2010 Hallo Lian, das Cluster Log habe ich leider nicht. Ich kam erst am nächsten Morgen dazu da hatten Kollegen den Cluster schon wieder Produktiv genommen. Das Cluster Log war da schon überschrieben. Den Cluadmin Beitrag kenne ich. Sehr gut! Beim Umzug war ich egenfalls nicht beteiligt. War schon lange geplant und ich b in erst seit kurzem hier. Allerdings muss der Cluister demnächst wieder geswitched werden. Es bleibt also spannedn ob wir es Nachvollziehen können. Ich denke das die Verbindung zum Quorum nicht schnell genug hergestellt werden konnte. Dadurch kamen die Knoten in einen "Split-Brain" soll heissen Sie dachten beide Sie wären aktiv. Dann hat der vor Ort Admin genau das unrichtige getan: REBOOT. Damit war das Quorum weg. Denn nun haben beide Knoten nur noch eine "neue Partition" gesehen. ID futsch. Cluster weg :) Das allerdings diue Daten auf dem Quorum gelöscht wurden, dafür finde ich einfach keine Erklärung. Tut mir leid das ich Dir nicht mehr geben kann. Aber bei der nächsten Umschaltung bin ich garantiert dabei und dann werden wir sehen. Grüße Trax Zitieren Link zu diesem Kommentar
Lian 2.421 Geschrieben 25. März 2010 Melden Teilen Geschrieben 25. März 2010 Hallo Trax, ohne Daten kann man wenig sagen ;) Könnte durchaus ein Problem mit der Disk Arbitration sein... Meld' Dich einfach, sobald Du Input hast. Zitieren Link zu diesem Kommentar
Empfohlene Beiträge
Schreibe einen Kommentar
Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.