Pipeline 12 Geschrieben 20. Mai 2007 Melden Geschrieben 20. Mai 2007 Hallo Leute, da wollte ich mal einen ruhigen Sonntag für etwas Wartung und aufräumen der Server nutzen, da passiert mir ein riesen Problem! Folgendes ist passiert, ist ein Windows 2000 SP4 Cluster mit zwei Nodes: - Ich habe auf dem FS-1 "Veritas Backup Exec" samt Remote Agent deinstalliert -> Neustart - Anschließend habe ich die Ereignislogs geprüft, bevor ich auf dem FS-2 die Software ebenfalls deinstalliere, auf dem FS-1 erschien nach dem Neustart im Log folgende Meldung: Ereignistyp: Warnung Ereignisquelle: MSDTC Ereigniskategorie: SVC Ereigniskennung: 4147 Datum: 20.05.2007 Zeit: 13:44:59 Benutzer: Nicht zutreffend Computer: SER-FS-RZ-1 Beschreibung: MS DTC hat festgestellt, dass der Cluster-Dienst zwar installiert ist, aber beim Start von MS DTC nicht aktiviert wurde. MS DTC wird zwar weiterhin automatisch gestartet werden, Failover können jedoch nicht ausgeführt werden. Falls der Cluster-Dienst gestartet wird, schließen Sie diese Instanz von MS DTC, da sie nicht mehr verwendet werden kann. Fehler: .\msdtc.cpp:986, CmdLine: C:\WINNT\System32\msdtc.exe, Pid: 612 - Danach waren zwei Datenträger-Ressourcen P_Quorum und F_Daten nur noch auf FS-2 sichtbar. Sobald ich die Ressourcengruppe auf den FS-1 verschoben habe, waren die Laufwerke auf beiden Servern nicht mehr zu sehen. - Aufgrund einer Anleitung "www.eventid.net" auf FS-1 "comclust" ausgeführt und neugestartet. Anschließen auch auf dem FS-2 und ebenfalls Neustart. Auf dem FS-1 erschienen dann noch folgende Fehler: Ereignistyp: Fehler Ereignisquelle: COM+ Ereigniskategorie: SVC Ereigniskennung: 4097 Datum: 20.05.2007 Zeit: 14:19:40 Benutzer: Nicht zutreffend Computer: SER-FS-RZ-1 Beschreibung: Während der Laufzeit wurde ein interner Statusfehler entdeckt. Wenden Sie sich an den Microsoft Software Service, um diesen Fehler zu melden. Fehler in .\crmrecoveryclerkobj.cpp(2404), hr = 8004d01c: Recover Ereignistyp: Fehler Ereignisquelle: MSDTC Ereigniskategorie: SVC Ereigniskennung: 4385 Datum: 20.05.2007 Zeit: 14:31:24 Benutzer: Nicht zutreffend Computer: SER-FS-RZ-1 Beschreibung: MS DTC kann auf diesem Knoten des Clusters nicht starten, da die MS DTC-Ressource zurzeit einem anderen Knoten im Cluster gehört. Fehler: .\msdtc.cpp:869, CmdLine: C:\WINNT\System32\msdtc.exe, Pid: 1992 gefolgt von Ereignistyp: Informationen Ereignisquelle: MSDTC Ereigniskategorie: SVC Ereigniskennung: 4097 Datum: 20.05.2007 Zeit: 14:52:19 Benutzer: Nicht zutreffend Computer: SER-FS-RZ-1 Beschreibung: MS DTC wurde gestartet. Es scheint, dass alle anderen Ressourcen ohne Fehler funktionieren. Auch kann ich auf Freigaben auf der Partition F_Daten zugreifen. Ich habe keinerlei Ahnung was ich nun tun kann und bin für jeden Tipp dankbar! Zitieren
Lian 2.539 Geschrieben 20. Mai 2007 Melden Geschrieben 20. Mai 2007 Hallo, was führte zu dem Problem bzw. was geschah vor dem Fehlerfall? Du hast lediglich BE deinstalliert, richtig? Hast Du die MS DTC Ressource im Cluadmin gelöscht und per comclust wieder angelegt? Bist Du nach KB Artikel bei MS vorgegangen? How to configure MSDTC in a Windows 2000 cluster environment Bitte immer einen Node nach dem anderen Neustarten, nicht gleichzeitig. Ereignistyp: Informationen Ereignisquelle: MSDTC Ereigniskategorie: SVC Ereigniskennung: 4097 MS DTC wurde gestartet. Läuft die MS DTC Ressource auf einem Node? Nur auf einem? Die Disk Volumes schwenken ohne Probleme? Findest Du einen Fehler im cluster.log? Ich empfehle Dir den Cluster auf Windows Server 2003 upzugraden, es hat sich einiges getan - gerade beim Thema Cluster. Auf Windows Server 2003 ist MS DTC eine ganz normale Ressource, die man im Cluadmin anlegen kann. Die Konfiguration und der Betrieb des MS DTC Dienstes im Cluster hat sich stark verbessert. Hab Dir hier geantwortet, gerade erst Deine Nachricht in der NG gesehen. Zitieren
Pipeline 12 Geschrieben 20. Mai 2007 Autor Melden Geschrieben 20. Mai 2007 Moin Lian, ich wusste doch das man auf dich zählen kann. Danke schon mal für die Antwort. Wenn ich auch alles nicht so einfach beantworten kann, so habe ich nun zumindest Ansätze, es gibt nichts schlimmeres als völlig ratlos und ohne eine Idee vor solchen Probleme zu stehen. was führte zu dem Problem bzw. was geschah vor dem Fehlerfall?Du hast lediglich BE deinstalliert, richtig? [/Quote] Richtig, damit ging es los. Und ich denke das ich mit comclust nur noch mehr Probleme verursacht habe, da danach die Laufwerke gar nicht mehr zu sehen waren... Hast Du die MS DTC Ressource im Cluadmin gelöscht und per comclust wieder angelegt?Bist Du nach KB Artikel bei MS vorgegangen? How to configure MSDTC in a Windows 2000 cluster environment Nein, ich habe nur comclust ausgeführt und anschilessend neugestartet, im Clustermanager habe ich mit der MSDTC Ressource nichts gemacht. Den Artikel kenne ich nicht. Und auch wenn ich vom Cluster noch herzlich wenig weiß, so weiß ich doch das ein gleichzeitiger Reboot nicht sein sollte (mache ich generell nie bei mehreren Servern...) Läuft die MS DTC Ressource auf einem Node? Nur auf einem? [/Quote] Ja, nur auf einem zur Zeit. Soll ich testen ob bei verschieben der Gruppe msdtc dann nur auf dem anderen Server läuft? Die Disk Volumes schwenken ohne Probleme? Jup, ohne Probleme Findest Du einen Fehler im cluster.log? Also erstens sind auf beiden Servern die Logs sehr groß (6 und 8 MB) wobei fast die hälfte der Einträge von heute sind!! Und es gibt auch Fehler, öfters: 0000056c.000005f8::2007/05/20-11:40:33.796 [FM] FmpRmOfflineResource: RmOffline() for cb197019-8975-4a07-854c-b3dc59a7ef1d returned error 997 Dann: 00000620.00000628::2007/05/20-11:45:12.375 Network Name <SER-TEST-SAN-1>: Unable to read resource data parameter, error=2 00000620.00000628::2007/05/20-11:45:12.375 Network Name <SER-TEST-SAN-1>: Unable to read creating DC parameter, error=2 00000620.00000628::2007/05/20-11:45:12.382 Network Name <Clustername-1>: Unable to read resource data parameter, error=2 00000620.00000640::2007/05/20-11:45:12.648 Physical Disk: AddVolume: GetPartitionInfo(\??\Volume{7579e543-76a2-11d5-8771-806d6172696f}), error 1 00000620.000007dc::2007/05/20-11:53:47.875 Physical Disk <Datenträger F:>: Online, volumes not ready, error: 2. Retrying... P:\MSCS\\54d2b67f-386e-4f12-a7ce-afb0bdcf3886\00000001.CPT to C:\DOKUME~1\CLAdmin\LOKALE~1\Temp\CLS5.tmp 00000548.000006d4::2007/05/20-13:54:49.828 [CP] CppReadCheckpoint unable to copy file P:\MSCS\\54d2b67f-386e-4f12-a7ce-afb0bdcf3886\00000001.CPT to C:\DOKUME~1\CLAdmin\LOKALE~1\Temp\CLS5.tmp, error 2 00000548.000006d4::2007/05/20-13:54:49.828 [CP] CppReadCheckpoint - Was that due to quorum resource not being up ??? 00000548.000006d4::2007/05/20-13:54:49.828 [CP] CpGetDataFile - failed to retrieve checkpoint 1 error 2 Mich verwundert die Zeit, denn die Probleme begannen erst um ca. 13:40 Uhr Viele der Einträge in dem cluster.log sind davor. Die von mir hier eingefügten sind nur ein Auszug, es gibt noch einige Einträge mehr, habe nur nach "error" gesucht und einige Zeile hier rein kopiert. Suchtest du eine bestimmte Meldung? Ich empfehle Dir den Cluster auf Windows Server 2003 upzugraden, es hat sich einiges getan - gerade beim Thema Cluster.Auf Windows Server 2003 ist MS DTC eine ganz normale Ressource, die man im Cluadmin anlegen kann. Die Konfiguration und der Betrieb des MS DTC Dienstes im Cluster hat sich stark verbessert. Es wird dieses Jahr noch eine neue Server-Farm auf 2003 aufgebaut, aber dies steht für diese alte Farm ausser Frage und hilft mir jetzt auch nicht direkt weiter...Aber dein Hinweis macht Hoffnung! Kannst du mir Aufgrund meiner Antwort eine Lösung empfehlen? Zitieren
Lian 2.539 Geschrieben 20. Mai 2007 Melden Geschrieben 20. Mai 2007 Was für ein Cluster ist es bzw. welche Ressourcen stellt er bereit? Außer File Share Ressourcen... Bei einem SQL Server gibt es einen weiteren KB Artikel: How to rebuild or move a MSDTC installation to be used with a SQL failover cluster (für SQL Server) so weiß ich doch das ein gleichzeitiger Reboot nicht sein sollte (mache ich generell nie bei mehreren Servern...) Prima ;):thumb1: Wie ist der aktuelle Status des Clusters? Läuft alles außer MS DTC? Ja, nur auf einem zur Zeit. Soll ich testen ob bei verschieben der Gruppe msdtc dann nur auf dem anderen Server läuft? Ich meinte, ob die MS DTC Ressource inzwischen läuft, da Du im Eventlog einen Eintrag hast (MS DTC wurde gestartet). Daher die Frage, ob die Ressource wenigstens auf einem Node läuft. Die Zeiten im cluster.log sind immer UTC/GMT. Error 997 ist ERROR_IO_PENDING, weiter unten ist die Disk schon mal online, aber noch nicht verfügbar. Der Ausschnitt sieht so aus, als ob die Einträge generiert wurden, während Gruppen/Ressourcen online genommen wurden. FM ist der Failover Manager. Error 2 ist i.d.R. ERROR_FILE_NOT_FOUND bezogen auch Checkpoint Dateien. Hast Du schon mal die MS DTC Ressource gelöscht und danach alle Gruppen auf den anderen Node geschwenkt? Versuche das mal und geh nach dem KB Artikel vor. Die Probleme mit dem MS DTC kenne ich hauptsächlich von W2K Servern und sind mir bei W2K3 Servern selten(er) begegnet. Zitieren
Pipeline 12 Geschrieben 20. Mai 2007 Autor Melden Geschrieben 20. Mai 2007 Tja, also was für ein Cluster kann ich nicht sagen, ich weiß nicht was du meinst. Es gibt vier Gruppen mit Dateifreigaben, IP-Adressen, Netzwerknamen, Diensten (standard), Druckwarteschlange und halt MSDTC. Die Gruppen laufen i.d.R verteilt auf den beiden Servern und springen halt bei Bedarf auf den anderen Server. Der Status ist okay soweit ich das sehen kann, auch MSDTC ist online! Okay das mit den Zeiten verstehe ich nun... Danke für die Erklärungen bzgö. des Logs. Hast Du schon mal die MS DTC Ressource gelöscht und danach alle Gruppen auf den anderen Node geschwenkt?Versuche das mal und geh nach dem KB Artikel vor. Nein ich habe mit der Ressource nichts gemacht, will nicht noch mehr kaputt machen... Gut, ich werde das mit dem Artikel versuchen. Zitieren
Pipeline 12 Geschrieben 20. Mai 2007 Autor Melden Geschrieben 20. Mai 2007 Hmm, im Artikel ist von IIS und SQL die Rede. Läuft ja beides nicht in unserem Cluster, soll ich trotzdem so vorgehen? Lian, du schreibst: "Hast Du schon mal die MS DTC Ressource gelöscht und danach alle Gruppen auf den anderen Node geschwenkt?" In dem Artikel kann ich nicht ersehen auf welchem Node die Gruppen bei beginn der Prozedur sein müssen. Und du schreibst "den anderen Node". Kannst du mir das klarer machen welcher Node gemeint ist? Ansonsten habe den Artikel schon verstanden... Zitieren
Lian 2.539 Geschrieben 20. Mai 2007 Melden Geschrieben 20. Mai 2007 Ja. Die angesprochenen Web & SQL Gruppen sind nur ein Beispiel. Die MS DTC Ressource braucht man nicht in jedem Cluster, daher die Frage nach der Art des Clusters. Ist es ein reiner File & Print Cluster? Keine weiteren Ressourcen oder auch Dienste außerhalb des Clusters? In dem Artikel kann ich nicht ersehen auf welchem Node die Gruppen bei beginn der Prozedur sein müssen. Das spielt keine Rolle. Und du schreibst "den anderen Node". Kannst du mir das klarer machen welcher Node gemeint ist? Der Ansatz war die MS DTC Ressource zu löschen und die Gruppen zu schwenken um einen Failover zu testen. Wie sieht es momentan aus? Laufen alle Ressourcen? Zitieren
Pipeline 12 Geschrieben 20. Mai 2007 Autor Melden Geschrieben 20. Mai 2007 So, habe nun den kompletten Ablauf durch gespielt. Keine Fehler, aber leider auch keine positive Veränderung. MSDTC wurde neu erstellt und kann so wie die anderen Ressource verschoben werden. Alle Ressource laufen. Hätte ich MSDTC nieht wieder neu erstellen sollen? An Ressourcen laufen in dem CLuster (ich habe das übrigends nicht eingerichtet!!! nur übernommen) 4 Netzwerknamen, 4 IP-Adressen, 3 Physikalische Datenträger, XX Dateifreigaben, 1 Druckwarteschlange, 1 MSDTC und 4 Standarddienste für TSM (Backup Software) Wie komme ich wieder an die Laufwerke heran? Zitieren
Lian 2.539 Geschrieben 20. Mai 2007 Melden Geschrieben 20. Mai 2007 Ok. Somit laufen alle Ressourcen und sind online, der Failover funktioniert auch. Welche Fehler / Events erhältst Du noch? Ereignistyp: FehlerEreignisquelle: COM+ Ereigniskategorie: SVC Ereigniskennung: 4097 Ereignistyp: FehlerEreignisquelle: MSDTC Ereigniskategorie: SVC Ereigniskennung: 4385 Sind die noch aktuell da? Wie komme ich wieder an die Laufwerke heran? Wie meinst Du das? Ich ging davon aus, daß die nach wie vor vorhanden sind und auch schwenken. Meinst Du Physical Disk Resources oder Freigaben/Shares. Zitieren
Pipeline 12 Geschrieben 20. Mai 2007 Autor Melden Geschrieben 20. Mai 2007 Ok. Somit laufen alle Ressourcen und sind online, der Failover funktioniert auch. Welche Fehler / Events erhältst Du noch? Keine außer diese auf beiden Servern: Ereignistyp: Informationen Ereignisquelle: MSDTC Client Ereigniskategorie: CM Ereigniskennung: 4156 Datum: 20.05.2007 Zeit: 19:46:16 Benutzer: Nicht zutreffend Computer: SER-FS-RZ-1 Beschreibung: Zeichenfolgemeldung: Session idle timeout over, tearing down the session. Das ist ja das erstaunliche... Ich ging davon aus, daß die nach wie vor vorhanden sind und auch schwenken.Meinst Du Physical Disk Resources oder Freigaben/Shares. Naja, die Ressourcen sind alle online, die Freigaben kann ich auch nutzen, zum Beispiel im Explorer über UNC... aber ich sehe nirgends die Laufwerke des Quorums und meine Datenpartition! Nur die Spool Partition ist noch sichtbar. Diese lag bei der SW Deinstallation auf dem anderen Server(FS-2) , Quorum und Daten lagen auf dem Server (FS-1) wo ich BE deinstalliert habe. Wenn ich S:Spool nun von FS-2 auf den FS-1 schiebe ist auch dieses Laufwerk nicht mehr im Explorer sichtbar, die Druckerfreigaben werden aber angezeigt (per UNC Pafd zum Beispiel) Der FS-1 (BE deinstalliert) zeigt also keine (Cluster-)Physikalischen Datenträger mehr an, außer seine lokalen eigenen die nichts mit dem Cluster zu tun haben. Zitieren
Lian 2.539 Geschrieben 20. Mai 2007 Melden Geschrieben 20. Mai 2007 Der FS-1 (BE deinstalliert) zeigt also keine (Cluster-)Physikalischen Datenträger mehr an, außer seine lokalen eigenen die nichts mit dem Cluster zu tun haben. Das ist soweit ok, außer die Ressourcen sind auf diesem online. Meinst Du damit, daß wenn FS-1 alle Ressourcen hält Du keinen Zugriff auf die Shared Disk hast? Zitieren
Pipeline 12 Geschrieben 20. Mai 2007 Autor Melden Geschrieben 20. Mai 2007 Also Zugriff auf die Freigaben habe ich immer, egal auf welchem Node die online sind. Aber auf die Disks Quorum und Daten habe ich nie zugriff, und auf Spool nur wenn sie auf dem FS-2 online ist. Zitieren
Lian 2.539 Geschrieben 20. Mai 2007 Melden Geschrieben 20. Mai 2007 Also alle Ressourcen sind online, richtig? Und Du hast auf die Quorum Disk keinen Zugriff lokal über den Explorer auf dem FS-1? Zitieren
Pipeline 12 Geschrieben 20. Mai 2007 Autor Melden Geschrieben 20. Mai 2007 Richitg, alles online. Und Zugriff auf die Quorum Disk habe ich von keinem der Server. Aber die Ressource muss ja da sein, sonst würde der Cluster nicht laufen und auf die Daten der von Laufwerk F: kann ich ja auch zugreifen, aber halt nur auf die Freigaben und nicht auf alle Verzeichnisse... Zitieren
Pipeline 12 Geschrieben 20. Mai 2007 Autor Melden Geschrieben 20. Mai 2007 Im Moment sind alle Ressourcen auf dem FS-2 online und ich sehe gerade, dass in der Datenträgerverwaltung auch die physischen Disks angezeigt werden?! Aber im Explorer nicht Zitieren
Empfohlene Beiträge
Schreibe einen Kommentar
Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.