Operator 10 Geschrieben 14. Januar 2005 Melden Teilen Geschrieben 14. Januar 2005 Hallo, wir haben hier 7 Citrix Metaframe Presentation Server 3.0 Server auf Windows 2000 Server laufen. 2 von den Servern sind gestern und heute insgesamt 3x mit demselben Bluescreen abgestürzt. Hier ein Auszug aus dem Memory.dmp: IRQL_NOT_LESS_OR_EQUAL (a)An attempt was made to access a pageable (or completely invalid) address at an interrupt request level (IRQL) that is too high. This is usually caused by drivers using improper addresses. If a kernel debugger is available get the stack backtrace. Arguments: Arg1: e23f2c6e, memory referenced Arg2: 00000002, IRQL Arg3: 00000000, value 0 = read operation, 1 = write operation Arg4: 8051ea03, address which referenced memory READ_ADDRESS: e23f2c6e Paged pool CURRENT_IRQL: 2 Probably caused by : WDICA.SYS ( WDICA+2d880 ) So, die ganzen Speicheradressen und Modulangaben hab ich jetzt mal weggelassen, kann ich aber nachreichen. Auch den Memory-Dump hätte ich noch. Die Server haben alle den gleichen aktuellen Patch-Stand (sowohl Microsoft als auch Citrix, Stand von heute). Ich weiß, daß die WDICA.SYS Bestandteil der Clientkommunikation ist. Daher werd ich sie nicht einfach so abschalten können. Aktuellere Versionen sind ebenfalls nicht verfügbar. Hab schon geprüft, ob etwaige Non-MS Druckertreiber aktiv waren, aber dies war nicht der Fall. Zumindest nicht laut Treiberliste des Debuggers. Ansonsten läuft der Server in dieser Installation schon mehrere Monate ohne Probleme. Größere Updates sind seit 4 Wochen auch nicht mehr passiert (letzter MetaFrame Patch Anfang Dezember). Hat jemand dieses Phänomen schon mal beobachtet? Vielen Dank für alles was Euch so einfällt :) Sollte was fehlen reiche ich's nach. Gruß Andre Zitieren Link zu diesem Kommentar
Jim di Griz 13 Geschrieben 14. Januar 2005 Melden Teilen Geschrieben 14. Januar 2005 wuerde auf HW (Wenns nicht 2 von 7 wären) oder Speicherverbrauch tippen. Vielleicht mal mit perfmon und taskmanager checken, was bis vor dem Absturz so alles passiert, scheint ja reproduzierbar zu sein. Haengen die Rechner an einem SAN? Sind das Clusterserver oder sonstiges spezielles? Zitieren Link zu diesem Kommentar
Operator 10 Geschrieben 14. Januar 2005 Autor Melden Teilen Geschrieben 14. Januar 2005 Hi Jim, die Performance Logs wollte ich auch noch durchchecken. Habe momentan nur keinen Zugriff auf die Protokolle. Dazu muss ich den Server noch einmal durchstarten. Werd ich Montag aber mal direkt machen. Aber zum Thema Perfmon fällt mir (wo Du's sagst) noch ein, daß vor wenigen Tagen via "diskperf -y" die Physikalischen/Logischen Datenträgerindikatoren aktiviert wurden. Könnte das Auswirkungen darauf gehabt haben? (Bis auf Performance meine ich) Die Rechner sind weder als Clustor konfiguriert noch an ein SAN angebunden. Alle Server haben 3 Festplatten im RAID5 Verbund (via SCSI-Hardware nicht Software-RAID). Gruß Andre Zitieren Link zu diesem Kommentar
Jim di Griz 13 Geschrieben 14. Januar 2005 Melden Teilen Geschrieben 14. Januar 2005 Hallo, ich erinnere mich, das die Aktivierung des Festplattenmonitoring unter NT zumindest immer mit einer dicken Warnmeldung aktiviert werden musste. wuerde ja in den Zusammmenhang passen: der io-treiber der Platten schreibt ein Log im Speicher dies wird irgendwann zu gross und kann nicht mehr adressiert werden...... natuerlich sehr bildlich gesprochen aber vielleicht passts ja. wäre sehr am Ergebnis interessiert ;-) Zitieren Link zu diesem Kommentar
Operator 10 Geschrieben 14. Januar 2005 Autor Melden Teilen Geschrieben 14. Januar 2005 Hi, hab zumindest das Monitoring der Logischen Laufwerke mal abgeschaltet. Das physikalische Monitoring ist ja eh standardmäßig aktiv, wenn ich mich nicht täusche. Heute nacht werden die Server neugestartet, so daß ich ab Montag sehen kann wie's läuft. Werd mich nach entsprechenden Erfahrungswerten nochmal melden... Vielleicht schalt ich's zum Testen auch einfach mal wieder ein ;-) Meine User werden's mir danken. Danke für die Hilfe! Andre Zitieren Link zu diesem Kommentar
Operator 10 Geschrieben 20. Januar 2005 Autor Melden Teilen Geschrieben 20. Januar 2005 So, ich melde mich wie versprochen nochmal zu dem Problem. Heutiger Stand ist, daß von den 7 Servers jetzt drei regelmäßig (1-2x pro Tag) mit besagtem Bluescreen abstürzen. Verwunderlich ist, daß diese Server exakt die gleiche Hardwareausstattung haben. Alle anderen Server sind aktuellere Server. Daher hab ich vermutet, daß irgendeine Hardware-Komponente schuld ist. Zumal im Eventlog bei jedem Start des SCSI-Controller Treibers eine Meldung erscheint, daß die Firmware veraltet sei. Also hab vermutet, daß eine starke Nutzung der Festplatten evtl. zu dem STOP-Fehler durch den Treiber führt. Das wäre zwar etwas komisch, da der Dump die WDICA.SYS anprangert, aber ich hab dennoch mal ein Firmware-Upgrade auf einem Server durchgeführt. Konstellation: Server1: Firmware und Treiber für SCSI Controller aktualisiert Server2: Monitoring disabled Server3: as-is Leider brachte auch das nichts und Server1 und 2 sind heute wieder mit STOP 0xA ausgestiegen (WDICA.SYS). Daher schließe ich Monitoring und SCSI-Karte mal als Fehlerquelle aus. Hat vielleicht noch jemand eine Idee? Ich häng zur Vollständigkeit mal die Ausgabe von "!analyze -v" von WinDbg an. Anmerkung: Aktuellere Symboldateien für den Debugger hab ich leider nicht, daher werden an einigen Stellen Fehler angezeigt. Das ist halt das Problem, wenn das System einen ganz aktuellen Patch-Level hat. Vielen Danke für weitere Hinweise. Gruß Andre analyze.txt Zitieren Link zu diesem Kommentar
Operator 10 Geschrieben 20. Januar 2005 Autor Melden Teilen Geschrieben 20. Januar 2005 *hochschieb* Könnte einer der Moderatoren einmal den Anhang freischalten? Danke schön :) Andre Zitieren Link zu diesem Kommentar
Operator 10 Geschrieben 22. Januar 2005 Autor Melden Teilen Geschrieben 22. Januar 2005 *hochschieb* Könnte einer der Moderatoren einmal den Anhang freischalten? Danke schön :) Andre Zitieren Link zu diesem Kommentar
zuschauer 10 Geschrieben 22. Januar 2005 Melden Teilen Geschrieben 22. Januar 2005 Sorry, hab ich übersehen ! Zitieren Link zu diesem Kommentar
Jim di Griz 13 Geschrieben 22. Januar 2005 Melden Teilen Geschrieben 22. Januar 2005 Hallo, ups, sry. wdica hatte ich erst fuer den plattentreiber gehalten ;-) passte aber doch irgendwie halb also zum Problem, suche nach "wdica" beim googeln liefert z.B. http://www.windowsbbs.com/showthread.php?t=38615 eine der Vermutungen geht in Richtung "korruption im Memorypool" geholfen hat dem genannten ein defrag. was ist denn nun das ergebnis von perfmon? gibt es memoryfressende Userprofile oder prozesse oder aehnliches in irgendwelchen logs? gibt es viele cache misses oder sonstiges? das mit der firmware wuerd ich ueber den hersteller klaeren.... Zitieren Link zu diesem Kommentar
Operator 10 Geschrieben 22. Januar 2005 Autor Melden Teilen Geschrieben 22. Januar 2005 Hi Jim, ich werd die Festplatten am Montag mal defragmentieren. Da mein Kollege den Spool-Ordner und die Profiles auf C: gelassen hat, ist die Idee vielleicht gar nicht schlecht. Die Perfmon-Ergebnisse geben nicht wirklich viel her. Nur ab und zu Spikes bei Pages/Sec und %-Disk Time... aber nichts unnatürliches. Alle relevanten Werte waren im normalen Bereich kurz vor'm Bluescreen (CPU Auslastung, RAM Auslastung, Festplattennutzungen, Context-Switches, CPU-Queue, Festplatten Queue etc.) Danke schon mal für Hinweise... Und falls alles nix hilft, werd ich doch mal einen Call bei Citrix aufmachen müssen (oder Reinstall und mit w2k3). Gruß und schönes WE Andre Zitieren Link zu diesem Kommentar
Jim di Griz 13 Geschrieben 22. Januar 2005 Melden Teilen Geschrieben 22. Januar 2005 Hallo, schau auch mal auf "process/private bytes" und process/page faults aller Prozesse.... interessant sind hier Prozesse, die im betrieb staendig mehr memory brauchen (private bytes tauchen im taskmanager nicht auf!) Zitieren Link zu diesem Kommentar
Operator 10 Geschrieben 24. Januar 2005 Autor Melden Teilen Geschrieben 24. Januar 2005 Hi nochmal, ich monitore die Werte via Citrix' Resource Manager. Leider werden die Process\* Indikatoren nicht angeboten. Werd das aber mal live monitoren in ner Konsole, sobald etwas mehr Load auf den Servern herrscht. Aber ansonsten fällt mir wirklich nicht mehr viel ein.... Gruß Andre Zitieren Link zu diesem Kommentar
Empfohlene Beiträge
Schreibe einen Kommentar
Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.