w2k3 Cluster - Clusterdienst startet nicht

o.bender · 19. Mai 2009

Hallo zusammen,

der Clusterdienst startet auf dem passiven Knoten von dem w2k3/Exchange 2003 Cluster nicht mehr. Früher ging es. Aktiver Knoten läuft. Es gab mal einen Ausfall von der Cache Battery im Smart Array Controller, diese wurde gegen neue ausgetauscht, jetzt in Ordnung. Unter Clusterverwaltung wird der Knoten als rot angezeigt, alle Netzwerkschnittstellen haben Status "Nicht verfügbar". Alle 3 Netzwerkkarten(eine public und 2 x Heartbeat) aber funktionieren, man kann alle von dem anderen Knoten und umgekehrt anpingen.

Fehlermeldungen im EventLog(alle 15 Minuten):

ID 1094; ClusSvc: "Der Clusterdienst konnte keine Informationen von der Servercluster-Konfigurationsdatenbank erhalten. Fehlercode: 1726."

ID 7031; Service Control Manager: "Der Dienst "Clusterdienst" wurde unerwartet beendet. Dies ist bereits 967 Mal vorgekommen. Folgende Korrekturmaßnahmen werden in 960000 Millisekunden durchgeführt: Starten Sie den Dienst neu..".

Im Cluster.log steht:

-------

[...]

ERR [NM] Unable to resynchronize interface information, status 1726.

WARN [JOIN] NmJoinCluster failed, status 1726.

INFO [iNIT] Cleaning up failed join attempt

INFO [iNIT] Leaving cluster

[...]

WARN [iNIT] Failed to join cluster, status 1726

ERR [CS] ClusterInitialize failed 1726

WARN [iNIT] The cluster service is shutting down

[...]

ERR [CS] Service Stopped. exit code = 1726

-------

Leider kann ich dazu nirgendwo eine Lösung finden. Hat jemand einen Tipp?

Vielen Dank!

Lian · 19. Mai 2009

Hallo und Willkommen an board,

welchen Service Pack Stand habt ihr auf den beiden Nodes?

Wieviele Nodes hat der Cluster, ist es ein MNS oder einer mit Shared Storage?

Der Status 1726 besagt:

# for decimal 1726 / hex 0x6be
RPC_S_CALL_FAILED winerror.h

# The remote procedure call failed.

Leider ist der Fehler recht unspezifisch und kann durch viele Fehlerfälle verursacht werden.

Welche Events siehst Du im Event Log des Nodes?

1070 und 1009... noch weitere?

Ansonsten ist die Config sauber? Pfade zur Storage sowie Netzwerkphysik und deren Einstellungen?

Unter Clusterverwaltung wird der Knoten als rot angezeigt, alle Netzwerkschnittstellen haben Status "Nicht verfügbar"

Eine Möglichkeit wäre es den Node zu evicten und wieder von neuem dem Cluster hinzuzufügen (Join):

Cluadmin.de: Cluster Knoten deinstallieren

Danach über den Cluadmin den Node wieder dem Cluster hinzufügen.

o.bender · 20. Mai 2009

Hallo Lian,

Hallo und Willkommen an board,

welchen Service Pack Stand habt ihr auf den beiden Nodes?

Wieviele Nodes hat der Cluster, ist es ein MNS oder einer mit Shared Storage?

W2k3 Enterprise SP2. 2 Nodes mit Shared Storage(SAN). 1 active Node mit Exchange 2003 und 1 passive Node(hat aktuell dieses Problem).

Der Status 1726 besagt:

Leider ist der Fehler recht unspezifisch und kann durch viele Fehlerfälle verursacht werden.

Welche Events siehst Du im Event Log des Nodes?

1070 und 1009... noch weitere?

Ansonsten ist die Config sauber? Pfade zur Storage sowie Netzwerkphysik und deren Einstellungen?.

Wie gesagt, es kommen nur Events ID 1094 (ClusSvc): "Der Clusterdienst konnte keine Informationen von der Servercluster-Konfigurationsdatenbank erhalten. Fehlercode: 1726." und ID 7031(Service Control Manager): "Der Dienst "Clusterdienst" wurde unerwartet beendet. Dies ist bereits 1032 Mal vorgekommen. Folgende Korrekturmaßnahmen werden in 960000 Millisekunden durchgeführt: Starten Sie den Dienst neu..". Es ist aber ziemlich unspezifisch. Und das was im Cluster.log steht. Die Config, Pfade und Netzwerkphysik sind in Ordnung, es hat ja schon die ganze Zeit funktioniert mit dem Node bis vor kurzem. Und Netzwerk-Verbindungen funktionieren, man kann den per ping erreichen und umgekehrt.

Eine Möglichkeit wäre es den Node zu evicten und wieder von neuem dem Cluster hinzuzufügen (Join):
Cluadmin.de: Cluster Knoten deinstallieren

Danach über den Cluadmin den Node wieder dem Cluster hinzufügen.

Also das möchte ich wirklich nur als letzte Möglichkeit machen - den Node aus dem Cluster rausschmeissen und neu hinzufügen. Vor allem ist die Ursache nicht klar. Gibt es evtl. noch andere Möglichkeiten?

Danke!

Lian · 20. Mai 2009

W2k3 Enterprise SP2. 2 Nodes mit Shared Storage(SAN). 1 active Node mit Exchange 2003 und 1 passive Node(hat aktuell dieses Problem).

Ok.

Und das was im Cluster.log steht. Die Config, Pfade und Netzwerkphysik sind in Ordnung, es hat ja schon die ganze Zeit funktioniert mit dem Node bis vor kurzem. Und Netzwerk-Verbindungen funktionieren, man kann den per ping erreichen und umgekehrt.

Ohne zu Wissen, was sich genau geändert hat oder warum nun der passive Node Probleme hat, ist die beste Chance den Node zu evicten und neu hinzuzufügen. Passieren kann dabei nichts, schlechter als jetzt kann es nicht werden ;);)

Etwaige mismatches oder fehlerhafte Einträge des passiven Nodes werden beim Evicten geputzt.

Bei einem (clean) Join wird die Konfiguration erneut vom Cluster, sprich: dem aktiven Node, übernommen.

Du kannst auch einen Restore des Nodes vornehmen von einem Backupstand, bei dem der Node noch funktioniert hat.

o.bender · 20. Mai 2009

Ok.

Ohne zu Wissen, was sich genau geändert hat oder warum nun der passive Node Probleme hat, ist die beste Chance den Node zu evicten und neu hinzuzufügen. Passieren kann dabei nichts, schlechter als jetzt kann es nicht werden ;);)

Etwaige mismatches oder fehlerhafte Einträge des passiven Nodes werden beim Evicten geputzt.

Bei einem (clean) Join wird die Konfiguration erneut vom Cluster, sprich: dem aktiven Node, übernommen.

Leider hat das auch nichts gebracht: zuerst den Knoten aus dem Cluster entfernt/evicted, auch "/forcecleanup" gemacht, danach reboot. Nach dem Versuch zum Cluster hinzuzufügen kommt im Cluster-Assistenten der Fehler "0x8007042b" mit Status "Der Prozess wurde unerwartet beendet." beim "Starten des Clusterdienstes"(zum Schluss). Im Log kann man sehen, dass der den ersten Node("sponsor") findet, zu dem verbindet, shared disks findet, startet verschiedene Dienste(ClusDisk, ClusNet), dann "...'ClusSvc' service has been successfully created", dann aber beim Starten des Clusterdienstes kommt:

"[iNFO] [bC] The service has returned error 0x00042b to query service status. Throwing an exception.

[iNFO] [bC] Error 0x00042b occurred trying to start the 'ClusSvc' service.

[iNFO] [bC] Cluster Service Win32 Exit Code= 0x00042b

[iNFO] [bC] Cluster Service Specific Exit Code= 0x0006be

[iNFO] [bC] Caught exception during commit

[bC] Trying to stop the Cluster Service..."

Und danach stoppt und macht alles wieder rückgängig. Was tun?

Besteht die Möglichkeit beim w2k3 Server den Cluster Dienst komplett zu deinstallieren, wenn ja - wie? (Das geht ja nicht mehr über Add/Remove Software.) Nur mit "cluster node nodename /forcecleanup" ?

Lian · 20. Mai 2009

Das ist ungewöhnlich

Leider hat das auch nichts gebracht: zuerst den Knoten aus dem Cluster entfernt/evicted, auch "/forcecleanup" gemacht, danach reboot.

Das Verzeichnis %windir%\cluster sollte danach sauber sein. Keine clusdb und keine clusdb.log usw. mehr.

[iNFO] [bC] Error 0x00042b occurred trying to start the 'ClusSvc' service.
[iNFO] [bC] Cluster Service Win32 Exit Code= 0x00042b

Error 0x00042b besagt:

# for hex 0x42b / decimal 1067
ERROR_PROCESS_ABORTED winerror.h

# The process terminated unexpectedly.

[iNFO] [bC] Cluster Service Specific Exit Code= 0x0006be

Error 0x0006be besagt wie vorhin schon (DEC 1726):

# for hex 0x6be / decimal 1726
RPC_S_CALL_FAILED winerror.h

# The remote procedure call failed.

Leider wieder recht unspezifisch - schwer zu sagen ohne Details zu kennen...:(

Besteht die Möglichkeit beim w2k3 Server den Cluster Dienst komplett zu deinstallieren

Nein, es sind nur wenige Dateien, die einen Cluster Node ausmachen, diese sind unter %windir%\cluster.

Der Rest steckt im Programm-Code der übrigen Systemdateien eines Windows Servers.

Nur mit "cluster node nodename /forcecleanup" ?

Korrekt, das putzt den Node aus der Konfiguration eines Clusters. Wenn das Cluster Verzeichnis soweit von Konfigurationsdateien des vorherigen Stands bereinigt ist, hast Du was das betrifft einen "frischen" Node.

Wie sieht es mit dem Computerkonto des Nodes im AD aus? Passt dort alles?

Das Cluster Name Object (CNO) des Nodes muss dort gültig und aktiv sein.

Die Rechte auf dem Node kannst Du ebenfalls prüfen, das betrifft den Cluster Service Account (CSA) - also das Dienstekonto, in dessen Kontext der Clusterdienst ausgeführt wird: Cluadmin.de: Cluster Service Account (CSA) Rechte

Ich sehe noch drei Möglichkeiten, den Node in einen definierten Zustand zu bekommen:

1) Node komplett prüfen hinsichtlich Hardware und Software, Windows Events, sonstige Konfiguration und Treiber. Cluster Verzeichnis prüfen auf alte Dateien, erneuter Join.

2) Backup zurückspielen von einem Stand, als er noch lief

3) Node komplett Neuinstallieren, erneut dem Cluster hinzufügen.

o.bender · 22. Mai 2009

Hallo Lian,

Wie sieht es mit dem Computerkonto des Nodes im AD aus? Passt dort alles?

Das Cluster Name Object (CNO) des Nodes muss dort gültig und aktiv sein.

Die Rechte auf dem Node kannst Du ebenfalls prüfen, das betrifft den Cluster Service Account (CSA) - also das Dienstekonto, in dessen Kontext der Clusterdienst ausgeführt wird: Cluadmin.de: Cluster Service Account (CSA) Rechte

Computerkonto im AD ist aktiv, auch in DNS korrekt drin. Die Rechte auf dem Node und CSA passen alle auch.

Ich sehe noch drei Möglichkeiten, den Node in einen definierten Zustand zu bekommen:

1) Node komplett prüfen hinsichtlich Hardware und Software, Windows Events, sonstige Konfiguration und Treiber. Cluster Verzeichnis prüfen auf alte Dateien, erneuter Join.

2) Backup zurückspielen von einem Stand, als er noch lief

3) Node komplett Neuinstallieren, erneut dem Cluster hinzufügen.

Ich werde es nochmal mit dem Prüfen nach alten Dateien(diese dort alle manuell löschen?) und erneutem Join. Wenn es wieder nicht klappt, dann mit dem Restore. Danach berichte ich darüber. Danke erstmal für deine Hilfe!

Viele Grüße

Lian · 25. Mai 2009

In Ordnung.

Ja - ein wenig Vorsicht beim Löschen, folgende Dateien sind bei einem Node, der evicted worden ist ggf. noch von der alten Config übrig:

CLUSDB, CLUSDB.LOG, cluster.oml, cluster.log, clcfgsrv.log

Du siehst es auch am "Geändert am" im Explorer, die Core Dateien haben i.d.R. alle das gleiche Datum.

Hier sind die Dateien gelistet: http://technet.microsoft.com/en-us/library/cc738051(WS.10).aspx (Cluster Service Files)

Und keine Panik: Du hast noch einen aktiven Knoten, es kann also nichts passieren ;)

o.bender · 8. Juli 2009

Hallo Lian,

nach dem langen Probieren und Tun bin ich leider genau so weit wie am Anfang: Backup einspielen und jetzt auch ganz neue Node Installation hat nichts gebracht: alles ok bis man verucht den Node zu dem Cluster hinzuzufügen; dann nach dem Check kommt beim Assistenten der Fehler 0x8007042b bei Starten des Cluster Dienstes und auch der Status 0x00138f: "Die Clusterressource wurde nicht gefunden" und der Assistent beendet sich. Bin schon ziemlich am Verzweifeln. Woran kann es liegen, vielleicht doch an dem 1. Node. der aber läuft?! An Hardware sollte es nicht liegen, er hat auch SAN-Zugriff auf die Quorum und andere Shared Platten. Habt ihr noch eine Idee?

Vielen Dank!

Lian · 8. Juli 2009

Hallo,

Das Backup ist von einem Stand, als der Cluster noch lief nehme ich.

Zuvor wurde ein forcecleanup durchgeführt, um den Node gänzlich aus der Config des Clusters zu entfernen?

Sicher, daß die Physik (Node, HBA, Switch, Kabel) 100% in Ordnung ist sowie das Zoning auf den Switchen und das LUN Masking der SAN?

o.bender · 10. Juli 2009

Hallo,

ja, das Backup wurde von einem Stand eingespielt als der Cluster noch lief und dieser Node ok war. Zuvor wurde auch ein forcecleanup auf diesem defekten Node durchgeführt. Oder muss man das auf dem anderen Node ausführen? Braucht man ein forcecleanup auch nach der neuen Installation des defekten Node(ich meine nein)?

Physik und SAN sollte alles stimmen, denn es wurde nichts geändert und früher ging es ja. Man kann per Ping alles gegensetig erreichen und beim Cluster-Adding sieht man, dass der die SAN-Platten findet. Allerdings zeigt er die SAN Platten unter Datenträgerverwaltung als "Unbekannt/nicht lesbar" an. Ich vermute, weil die Cluster-Disks von dem aktiven Node "im Besitz" sind. Muss man dafür etwa auf dem anderen Node den Cluster-Dienst bzw. Cluster Ressourcen beenden? Das wäre aber merkwürdig. Noch folgendes finde ich seltsam: wenn ich auf dem neu installierten Node noch VOR dem Cluster-Beitreten das Exchange installiere, dann läuft es durch und startet danach brav die lokalen Exchange Dienste - er kennt den Cluster nicht. Normale Reihenfolge beim Exchange Cluster ist aber - zuerst Exchange auf BEIDEN Nodes installieren und erst dann den Exchange Virtuellen Server im Cluster erstellen. Kann es daran liegen, dass der Cluster und EVS schon existiert, aber der neu installierte Node das alle nicht mitbekommt, auch nicht beim Adding-Versuch zum Cluster? Muss man vielleicht ZUERST dem Cluster beitreten und erst DANACH Exchange installieren?!

Noch was: muss der MSDTC Dienst(Distributed Transaction Coordinator) laufen vor dem Cluster Adding? Der startet nämlich nicht, nur wenn man den Registry Eintrag "ClusterInstallationState" auf 1 setzt(ist sonst 2) - s. MS Artikel Q290637 (MS DTC fails to start and logs Event ID: 4383). Denn im Cluster gibt es schon ja die Cluster MSDTC Ressource.

Danke!

Lian · 10. Juli 2009

ja, das Backup wurde von einem Stand eingespielt als der Cluster noch lief und dieser Node ok war.

OK

Zuvor wurde auch ein forcecleanup auf diesem defekten Node durchgeführt. Oder muss man das auf dem anderen Node ausführen? Braucht man ein forcecleanup auch nach der neuen Installation des defekten Node(ich meine nein)?

Hier muss man vorsichtig sein: Evicten eines Nodes bedeutet, daß man einen Knoten herausnimmt aus dem Cluster. Der Restore eines Nodes von einem Stand, als der Node noch dem Cluster angehört, ist dann problematisch.

Der Schalter forcecleanup versetzt einen Node, der evicted wurde, in den Ursprungszustand. Wichtig ist, daß Du das im Hinterkopf behältst und sauber methodisch arbeitest.

Physik und SAN sollte alles stimmen, denn es wurde nichts geändert und früher ging es ja.

Trotzdem ist ein Hardwaredefekt oder Fehler in der Config nicht auszuschließen...

Allerdings zeigt er die SAN Platten unter Datenträgerverwaltung als "Unbekannt/nicht lesbar" an. Ich vermute, weil die Cluster-Disks von dem aktiven Node "im Besitz" sind.

Korrekt, unter 2003 ist ein Shared Volume immer nur von einem Node aus erreichbar.

Muss man dafür etwa auf dem anderen Node den Cluster-Dienst bzw. Cluster Ressourcen beenden?

Wenn der Cluster sauber läuft, kann die Gruppe mit der Disk Ressource auf einen weiteren Node geschwenkt werden (Failover), dieser hat die Platte dann im exklusiven Zugriff.

Zum Thema Exchange gibt es hier einen recht gutes TechNet Artikel:

Deploying Exchange Server 2003 in a Cluster (ab Step 2)

Step-by-Step: How to Run Exchange Setup in a Windows Server Cluster

Erst den Cluster aufbauen, dann Exchange auf jedem Node installieren.

Denn im Cluster gibt es schon ja die Cluster MSDTC Ressource.

MSDTC einmal als Ressource hinzufügen und zwar in der Clustergruppe selbst. Eine weitere MSDTC Ressource ist nicht nötig. Seit 2003 gibt es dafür einen eigenständiger Ressourcentyp.

o.bender · 10. Juli 2009

Hallo,

ich habe übrigens bei MCSEBoard einen Beitrag genau zu diesem Thema gefunden, leider ohne Lösung:

http://www.mcseboard.de/windows-forum-ms-backoffice-31/problem-win2k3-cluster-server-60248.html

Also diese TechNet Artikel kenne ich, habe den Exchange Cluster schon mehrmals damit von Null an aufgebaut. Es klappte früher alles.

Natürlich muss man zuerst den Windows Cluster aufbauen, danach Exchange installieren. Das Problem ist jetzt, dass es den Cluster schon gibt - der 1. Node läuft sauber(auch mit MSDTC Ressource und Exchange) und man muss den 2. Node hinzufügen, was aber fehlschlägt. Auch ohne Exchange passiert auf diesem Node dasselbe. SAN Zugriff ist da: ich habe den 1. Node heruntergefahren und den neuen 2. Node gestartet, dann konnte er auf die 3 SAN-Platten zugreifen, auch auf Quorum Device. Trotzdem wenn man versucht danach Add Cluster mit dem laufenden 1. Node, kommen dieselben Fehler: 0x8007042b beim Versuch den Cluster-Dienst zu starten:

[...]

[ERR ] exchnode2: Bei dem Versuch des Assistenten, einen Dienst zu starten, ist ein Fehler aufgetreten. (hr=0x8007042b, {7C5F0774-1611-42B5-AF3C-6E124AC4D36B}, {3ABE1494-7E05-402C-81AA-1C3F1D782031}, 1, 1, 1),

[...]

[ERR ] exchnode2: Starten des Clusterdienstes (hr=0x8007042b, {7C5F0774-1611-42B5-AF3C-6E124AC4D36B}, {3ABE14E4-7E05-402C-81AA-1C3F1D782031}, 0, 102, 102), (null)

[...]

[ERR ] exchnode2: Hinzufügen eines Knotens zum Cluster (hr=0x8007042b, {7C5F0774-1611-42B5-AF3C-6E124AC4D36B}, {11ABF069-6495-49AC-81ED-F27A1E4C5F3F}, 0, 1, 1), (null)

[...]

[ERR ] exchnode2: Die Clusterkonfigurationsänderungen können nicht gesichert werden. (hr=0x8007042b, {7C5F0774-1611-42B5-AF3C-6E124AC4D36B}, {03D177A6-2AE5-429E-B7FE-1A7D1C98A44B}, 1, 1, 1), Die Clusterkonfiguration kann nicht fortgesetzt werden, weil beim Speichern der Clusterkonfiguration ein Fehler aufgetreten ist. Starten Sie die Clusterkonfigurationsanwendung erneut, und wiederholen Sie den Vorgang.

[...]

[ERR ] exchnode2: (null) (hr=0x8007042b, {7C5F0774-1611-42B5-AF3C-6E124AC4D36B}, {3222E708-EEF3-4667-8CCE-BB0C9223130E}, 0, 2, 2), (null)

[...]

[iNFO] [MT] [CTaskCommitClusterChanges] Exiting task. The task was not cancelled. (hr = 0x8007042b)

[...]

Und die shared disks werden vorher korrekt gefunden, auch für quorum ressource:

[...]

[iNFO] EXCLUSTER: Eine, allen Knoten gemeinsame Ressource, die als Quorumressource verwendet werden kann, wurde gefunden. (hr=00000000, {B8C4066E-0246-4358-9DE5-25603EDD0CA0}, {14B7E6B6-7B7F-4103-9D0D-C8918EC62557}, 1, 1, 1), (null)

Also ich weiss wirklich nicht weiter! Hast du noch ein Tipp?

Danke!

Lian · 10. Juli 2009

Grundsätzlich solltest Du den Grund für den Fehler suchen. Darum wirst Du über kurz oder lange nicht kommen ;)

Was hat sich geändert an der Konfiguration der Nodes und des ganzen Aufbaus - ist die Hardware 100% in Ordnung (prüfen). Ist die Firmware sowie die Treiber auf dem gleichen und aktuellen Stand etc.

Evtl. ist es sinnvoller sich an den MS Support zu wenden (Microsoft PSS/GTSC), die unterstützen Dich zum einen schrittweise. Zum anderen können ausführliche Logs (MPS Reports) gesammelt und ausgetauscht werden, was hier den Rahmen eines Forums sprengen würde.

Also ich weiss wirklich nicht weiter! Hast du noch ein Tipp?

Versuche es mal mit der "minimum configuration" während des Joins:

Cluster setup may not work when you add nodes

Anmelden

w2k3 Cluster - Clusterdienst startet nicht

Empfohlene Beiträge

o.bender 10

Lian 2.574

o.bender 10

Lian 2.574

o.bender 10

Lian 2.574

o.bender 10

Lian 2.574

o.bender 10

Lian 2.574

o.bender 10

Lian 2.574

o.bender 10

Lian 2.574

Schreibe einen Kommentar

Menu

Aktivitäten