HV-Failover-Cluster Wartung

dalmatino · 9. Oktober 2014

Hallo liebe Community.

Ich hab mal eine Verständnisfrage zur allgemeinen Wartung bzw. zum Failover-Vorgang.

Bisher bin ich eigentlich davon ausgegangen, wenn ein Knoten angehalten wird, dieser keinen Failover ausführt, auch wenn er kurz die Netzwerkverbindung verliert.

Zitat Technet:

Zitat

Wenn Sie einen Knoten anhalten, bleiben vorhandene Gruppen und Ressourcen online, es können jedoch keine zusätzlichen Gruppen und Ressourcen für den Knoten online geschaltet werden. Das Anhalten eines Knotens erfolgt normalerweise, wenn Softwareupdates auf dem Knoten installiert werden.

Folgendes ist gestern passiert:

Wir haben kurz, um einen Switch zu tauschen, das Netzkabel eines Knotens abgezogen und in den neuen Switch gesteckt, der auch im Netz hing.

Der Gedanke war, dass die VMs weiterlaufen, da diese ihre eigene Netzanbindung auf einem anderen Switch haben und die Verbindung zum Storage via FC angebunden ist. Die VMs sind auch nicht alle abgestürzt (2-3 Maschinen waren offline), wurden aber sofort auf den anderen Knoten verschoben.

An sich, wurden beide Knoten angehalten. Nach dem Kappen der Netzverbindung hat der Knoten 1, trotzdem ein Failover auf den angehaltenen Knoten 2 gemacht. Warum? Im Zitat oben steht ja eindeutig, dass keine Ressourcen online geschaltet werden können.

Wie kann man verhindern, dass ein Failover automatisch ausgeführt wird? Es kann ja auch durchaus sein, dass ein Knoten kurz die Verbindung (Heartbeat) zum Cluster verliert, aber die restlichen anderen Verbindungen dennoch voll funktionsfähig sind. Der Failover legt in diesem Fall ja unnötigerweise die VMs lahm.

Ich habe nirgends die Einstellungen gefunden, wie man die "Empfindlichkeit", der Heartbeat-Anwortzeit ändern kann.

Danke!

PS: 2 Knoten HV-Failover-Cluster mit FC-Storage. VMs haben eigenes Netzwerk.

bearbeitet 9. Oktober 2014 von dalmatino

DocData · 9. Oktober 2014

Es juckt den Cluster herzlich wenig das die Gastsysteme noch eine Netzwerkverbindung haben, wenn er netzwerkseitig isoliert wird. Insofern ist der Failover nachvollziehbar und by design. Korrekt wäre es gewesen die VMs vom Host zu evakuieren und DANN die Wartungsarbeiten durchzuführen.

dalmatino · 9. Oktober 2014

Ja, das ist mir schon klar. Aber wie gesagt, bin ich eigentlich davon ausgegangen, wenn die Knoten angehalten sind, dass er nicht verschieben kann.

Deswegen ja auch die Frage, wie ich es verhindern kann bzw. die Toleranzzeit ändern kann.

Wie gesagt, es kann ja auch durchaus mal sein, dass kurzzeitig ein Switch die Grätsche macht. Und trotz voll funktionsfähiger VMs, der Failover eingeleitet wird.

Ich will keinen automatischen Failover.

NorbertFe · 9. Oktober 2014

Wenn der Switch die Grätsche macht und das einen failover auslöst stimmt eventuell deine Konfiguration nicht.

dalmatino · 9. Oktober 2014

Hi Norbert,

was soll ich überprüfen?

Der Cluster-Überprüfungsassistent zeigt keine Fehler.

Die HVC ist nach MS-Leitfaden installiert und eingerichtet.

Dukel · 9. Oktober 2014

Hast du 2 Switche im Einsatz und sind diese über Kreuz mit den Hosts verkabelt? Kannst du die Netzwerkkonfiguration darstellen?

DocData · 9. Oktober 2014

Am 9.10.2014 um 10:01 schrieb dalmatino:
Ja, das ist mir schon klar. Aber wie gesagt, bin ich eigentlich davon ausgegangen, wenn die Knoten angehalten sind, dass er nicht verschieben kann.

Es geht ja auch nicht um das Verschieben von Resourcengruppen, sondern um einen Failover.

Zitat
Deswegen ja auch die Frage, wie ich es verhindern kann bzw. die Toleranzzeit ändern kann.

Behebe die Ursache, nicht das Symptom.

Zitat
Wie gesagt, es kann ja auch durchaus mal sein, dass kurzzeitig ein Switch die Grätsche macht. Und trotz voll funktionsfähiger VMs, der Failover eingeleitet wird.

Nein, kann nicht sein. Das ist ein Designfehler.

Zitat
Ich will keinen automatischen Failover.

Doch willst du. Behebe die Ursache, nicht das Symptom. Dir fehlt es offenbar an Redundanz im Netzwerk und an Verständnis für die Arbeitsweise eines Clusters. Das Cluster hat genau das gemacht, was es machen soll. Was du aber hast, ist ganz offenbar ein hässlicher Designfehler.

dalmatino · 9. Oktober 2014

Was ist denn, wenn es zu einer temporären Störung der Heartbeat-NIC kommt? In dem Fall würde auch sofort ein Failover passieren...

DocData · 9. Oktober 2014

Nein, nicht wenn man es Richtig macht. In diesem Fall verwendet das Cluster andere Netzwerkanbindungen für den Heartbeat.

Doso · 9. Oktober 2014

Ihr habt da irgendwas im Konzept falsch, der Ausfall eines Switches sollte nicht VMs oder den Cluster lahmlegen. Vermutlich Netzwerke nicht redundant ausgelegt. Bei uns sind alle Verbindungen redundant mit eigenen Switches. Klar, da meckert der Chef dann weil man so viel Switches kauft. Aber ich kann da auch mal im laufenden Betrieb die Firmware der Swtiches patchen ohne irgendwelche Ausfälle oder Failover.

DocData · 10. Oktober 2014

Redundanzen werden NICHT eingebaut um Wartungsarbeiten ohne Ankündigung und Wartungszeitraum durchzuführen.

dalmatino · 10. Oktober 2014

Am 9.10.2014 um 18:28 schrieb DocData:
Nein, nicht wenn man es Richtig macht. In diesem Fall verwendet das Cluster andere Netzwerkanbindungen für den Heartbeat.

Die Knoten verfügen über zwei NICs. 1x Cluster, 1x Domänennetz. Beide Netzwerke sind im HVC konfiguriert. Wie bereits erwähnt, die Installation/Konfiguration wurde nach MS-Leitfaden durchgeführt.

Edit:

Zitat

If you connect cluster nodes with a single network, the network will pass the redundancy requirement in the Validate a Configuration Wizard. However, the report from the wizard will include a warning that the network should not have single points of failure.

Quelle: http://technet.microsoft.com/de-de/library/cc732181(v=ws.10).aspx

Wie ich auch bereits erwähnt habe, hat die Konfigurationsüberprüfung keine Fehler oder Warnungen ausgegeben.

bearbeitet 10. Oktober 2014 von dalmatino

Dunkelmann · 10. Oktober 2014

Moin,

Du müsstest schon etwas mehr Informationen liefern.

Welche Felermeldungen sind aufgetreten?

Wie sieht das Netzwerksetup genau aus (physisch und logisch)?

Nach welchem 'MS-Leitfaden' wurde der Cluster aufgebaut (es gibt mehr als nur einen)?

Das die Clustervalidierung keine Warnung ausgibt, sagt alleine betrachtet nichts aus. Ich kann auch mit nur einer Realtek Karte einen Cluster bauen, den der Assistent für 'toll' hält

Doso · 10. Oktober 2014

Am 10.10.2014 um 06:59 schrieb DocData:
Redundanzen werden NICHT eingebaut um Wartungsarbeiten ohne Ankündigung und Wartungszeitraum durchzuführen.

Aber wenn du eine Notfallwartung machen MUSST bist du nicht unglücklich drüber das derweil alle Dienste ohne Probleme weiterlaufen :)

Anmelden

HV-Failover-Cluster Wartung

Empfohlene Beiträge

dalmatino 10

DocData 85

dalmatino 10

NorbertFe 2.187

dalmatino 10

Dukel 463

DocData 85

dalmatino 10

DocData 85

Doso 77

DocData 85

dalmatino 10

Dunkelmann 96

Doso 77

Schreibe einen Kommentar

Menu

Aktivitäten