dalmatino 10 Geschrieben 9. Oktober 2014 Melden Teilen Geschrieben 9. Oktober 2014 (bearbeitet) Hallo liebe Community. Ich hab mal eine Verständnisfrage zur allgemeinen Wartung bzw. zum Failover-Vorgang. Bisher bin ich eigentlich davon ausgegangen, wenn ein Knoten angehalten wird, dieser keinen Failover ausführt, auch wenn er kurz die Netzwerkverbindung verliert. Zitat Technet: Wenn Sie einen Knoten anhalten, bleiben vorhandene Gruppen und Ressourcen online, es können jedoch keine zusätzlichen Gruppen und Ressourcen für den Knoten online geschaltet werden. Das Anhalten eines Knotens erfolgt normalerweise, wenn Softwareupdates auf dem Knoten installiert werden. Folgendes ist gestern passiert: Wir haben kurz, um einen Switch zu tauschen, das Netzkabel eines Knotens abgezogen und in den neuen Switch gesteckt, der auch im Netz hing. Der Gedanke war, dass die VMs weiterlaufen, da diese ihre eigene Netzanbindung auf einem anderen Switch haben und die Verbindung zum Storage via FC angebunden ist. Die VMs sind auch nicht alle abgestürzt (2-3 Maschinen waren offline), wurden aber sofort auf den anderen Knoten verschoben. An sich, wurden beide Knoten angehalten. Nach dem Kappen der Netzverbindung hat der Knoten 1, trotzdem ein Failover auf den angehaltenen Knoten 2 gemacht. Warum? Im Zitat oben steht ja eindeutig, dass keine Ressourcen online geschaltet werden können. Wie kann man verhindern, dass ein Failover automatisch ausgeführt wird? Es kann ja auch durchaus sein, dass ein Knoten kurz die Verbindung (Heartbeat) zum Cluster verliert, aber die restlichen anderen Verbindungen dennoch voll funktionsfähig sind. Der Failover legt in diesem Fall ja unnötigerweise die VMs lahm. Ich habe nirgends die Einstellungen gefunden, wie man die "Empfindlichkeit", der Heartbeat-Anwortzeit ändern kann. Danke! PS: 2 Knoten HV-Failover-Cluster mit FC-Storage. VMs haben eigenes Netzwerk. bearbeitet 9. Oktober 2014 von dalmatino Zitieren Link zu diesem Kommentar
DocData 85 Geschrieben 9. Oktober 2014 Melden Teilen Geschrieben 9. Oktober 2014 Es juckt den Cluster herzlich wenig das die Gastsysteme noch eine Netzwerkverbindung haben, wenn er netzwerkseitig isoliert wird. Insofern ist der Failover nachvollziehbar und by design. Korrekt wäre es gewesen die VMs vom Host zu evakuieren und DANN die Wartungsarbeiten durchzuführen. Zitieren Link zu diesem Kommentar
dalmatino 10 Geschrieben 9. Oktober 2014 Autor Melden Teilen Geschrieben 9. Oktober 2014 Ja, das ist mir schon klar. Aber wie gesagt, bin ich eigentlich davon ausgegangen, wenn die Knoten angehalten sind, dass er nicht verschieben kann. Deswegen ja auch die Frage, wie ich es verhindern kann bzw. die Toleranzzeit ändern kann. Wie gesagt, es kann ja auch durchaus mal sein, dass kurzzeitig ein Switch die Grätsche macht. Und trotz voll funktionsfähiger VMs, der Failover eingeleitet wird. Ich will keinen automatischen Failover. Zitieren Link zu diesem Kommentar
NorbertFe 2.061 Geschrieben 9. Oktober 2014 Melden Teilen Geschrieben 9. Oktober 2014 Wenn der Switch die Grätsche macht und das einen failover auslöst stimmt eventuell deine Konfiguration nicht. Zitieren Link zu diesem Kommentar
dalmatino 10 Geschrieben 9. Oktober 2014 Autor Melden Teilen Geschrieben 9. Oktober 2014 Hi Norbert, was soll ich überprüfen? Der Cluster-Überprüfungsassistent zeigt keine Fehler. Die HVC ist nach MS-Leitfaden installiert und eingerichtet. Zitieren Link zu diesem Kommentar
Dukel 455 Geschrieben 9. Oktober 2014 Melden Teilen Geschrieben 9. Oktober 2014 Hast du 2 Switche im Einsatz und sind diese über Kreuz mit den Hosts verkabelt? Kannst du die Netzwerkkonfiguration darstellen? Zitieren Link zu diesem Kommentar
DocData 85 Geschrieben 9. Oktober 2014 Melden Teilen Geschrieben 9. Oktober 2014 Ja, das ist mir schon klar. Aber wie gesagt, bin ich eigentlich davon ausgegangen, wenn die Knoten angehalten sind, dass er nicht verschieben kann. Es geht ja auch nicht um das Verschieben von Resourcengruppen, sondern um einen Failover. Deswegen ja auch die Frage, wie ich es verhindern kann bzw. die Toleranzzeit ändern kann. Behebe die Ursache, nicht das Symptom. Wie gesagt, es kann ja auch durchaus mal sein, dass kurzzeitig ein Switch die Grätsche macht. Und trotz voll funktionsfähiger VMs, der Failover eingeleitet wird. Nein, kann nicht sein. Das ist ein Designfehler. Ich will keinen automatischen Failover. Doch willst du. Behebe die Ursache, nicht das Symptom. Dir fehlt es offenbar an Redundanz im Netzwerk und an Verständnis für die Arbeitsweise eines Clusters. Das Cluster hat genau das gemacht, was es machen soll. Was du aber hast, ist ganz offenbar ein hässlicher Designfehler. Zitieren Link zu diesem Kommentar
dalmatino 10 Geschrieben 9. Oktober 2014 Autor Melden Teilen Geschrieben 9. Oktober 2014 Was ist denn, wenn es zu einer temporären Störung der Heartbeat-NIC kommt? In dem Fall würde auch sofort ein Failover passieren... Zitieren Link zu diesem Kommentar
DocData 85 Geschrieben 9. Oktober 2014 Melden Teilen Geschrieben 9. Oktober 2014 Nein, nicht wenn man es Richtig macht. In diesem Fall verwendet das Cluster andere Netzwerkanbindungen für den Heartbeat. Zitieren Link zu diesem Kommentar
Doso 77 Geschrieben 9. Oktober 2014 Melden Teilen Geschrieben 9. Oktober 2014 Ihr habt da irgendwas im Konzept falsch, der Ausfall eines Switches sollte nicht VMs oder den Cluster lahmlegen. Vermutlich Netzwerke nicht redundant ausgelegt. Bei uns sind alle Verbindungen redundant mit eigenen Switches. Klar, da meckert der Chef dann weil man so viel Switches kauft. Aber ich kann da auch mal im laufenden Betrieb die Firmware der Swtiches patchen ohne irgendwelche Ausfälle oder Failover. Zitieren Link zu diesem Kommentar
DocData 85 Geschrieben 10. Oktober 2014 Melden Teilen Geschrieben 10. Oktober 2014 Redundanzen werden NICHT eingebaut um Wartungsarbeiten ohne Ankündigung und Wartungszeitraum durchzuführen. Zitieren Link zu diesem Kommentar
dalmatino 10 Geschrieben 10. Oktober 2014 Autor Melden Teilen Geschrieben 10. Oktober 2014 (bearbeitet) Nein, nicht wenn man es Richtig macht. In diesem Fall verwendet das Cluster andere Netzwerkanbindungen für den Heartbeat. Die Knoten verfügen über zwei NICs. 1x Cluster, 1x Domänennetz. Beide Netzwerke sind im HVC konfiguriert. Wie bereits erwähnt, die Installation/Konfiguration wurde nach MS-Leitfaden durchgeführt. Edit: If you connect cluster nodes with a single network, the network will pass the redundancy requirement in the Validate a Configuration Wizard. However, the report from the wizard will include a warning that the network should not have single points of failure. Quelle: http://technet.microsoft.com/de-de/library/cc732181(v=ws.10).aspx Wie ich auch bereits erwähnt habe, hat die Konfigurationsüberprüfung keine Fehler oder Warnungen ausgegeben. bearbeitet 10. Oktober 2014 von dalmatino Zitieren Link zu diesem Kommentar
Dunkelmann 96 Geschrieben 10. Oktober 2014 Melden Teilen Geschrieben 10. Oktober 2014 Moin, Du müsstest schon etwas mehr Informationen liefern. Welche Felermeldungen sind aufgetreten? Wie sieht das Netzwerksetup genau aus (physisch und logisch)? Nach welchem 'MS-Leitfaden' wurde der Cluster aufgebaut (es gibt mehr als nur einen)? Das die Clustervalidierung keine Warnung ausgibt, sagt alleine betrachtet nichts aus. Ich kann auch mit nur einer Realtek Karte einen Cluster bauen, den der Assistent für 'toll' hält Zitieren Link zu diesem Kommentar
Doso 77 Geschrieben 10. Oktober 2014 Melden Teilen Geschrieben 10. Oktober 2014 Redundanzen werden NICHT eingebaut um Wartungsarbeiten ohne Ankündigung und Wartungszeitraum durchzuführen. Aber wenn du eine Notfallwartung machen MUSST bist du nicht unglücklich drüber das derweil alle Dienste ohne Probleme weiterlaufen :) Zitieren Link zu diesem Kommentar
Empfohlene Beiträge
Schreibe einen Kommentar
Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.