latimer 10 Geschrieben 27. Oktober 2005 Melden Teilen Geschrieben 27. Oktober 2005 Hallo Leute ein Kunde hat einen Windows 2003 Standard Server. Seit einigen Tagen treten dort vermehrt Bluescreens auf oder der Server friert einfach ein. Der Server ist ein HP Proliant ML350 G4 mit 2 x 1GB Ram und 2x Intel Xeon 3,2 Ghz Prozessoren. Ich habe die Windows Debugging Tools installiert und habe folgendes Ergebnis erhalten zusätzlich habe ich das gesamte Ergebnis noch als Doc Anhang hinzugefügt. MACHINE_CHECK_EXCEPTION (9c) A fatal Machine Check Exception has occurred. KeBugCheckEx parameters; x86 Processors If the processor has ONLY MCE feature available (For example Intel Pentium), the parameters are: 1 - Low 32 bits of P5_MC_TYPE MSR 2 - Address of MCA_EXCEPTION structure 3 - High 32 bits of P5_MC_ADDR MSR 4 - Low 32 bits of P5_MC_ADDR MSR If the processor also has MCA feature available (For example Intel Pentium Pro), the parameters are: 1 - Bank number 2 - Address of MCA_EXCEPTION structure 3 - High 32 bits of MCi_STATUS MSR for the MCA bank that had the error 4 - Low 32 bits of MCi_STATUS MSR for the MCA bank that had the error IA64 Processors 1 - Bugcheck Type 1 - MCA_ASSERT 2 - MCA_GET_STATEINFO SAL returned an error for SAL_GET_STATEINFO while processing MCA. 3 - MCA_CLEAR_STATEINFO SAL returned an error for SAL_CLEAR_STATEINFO while processing MCA. 4 - MCA_FATAL FW reported a fatal MCA. 5 - MCA_NONFATAL SAL reported a recoverable MCA and we don't support currently support recovery or SAL generated an MCA and then couldn't produce an error record. 0xB - INIT_ASSERT 0xC - INIT_GET_STATEINFO SAL returned an error for SAL_GET_STATEINFO while processing INIT event. 0xD - INIT_CLEAR_STATEINFO SAL returned an error for SAL_CLEAR_STATEINFO while processing INIT event. 0xE - INIT_FATAL Not used. 2 - Address of log 3 - Size of log 4 - Error code in the case of x_GET_STATEINFO or x_CLEAR_STATEINFO AMD64 Processors 1 - Bank number 2 - Address of MCA_EXCEPTION structure 3 - High 32 bits of MCi_STATUS MSR for the MCA bank that had the error 4 - Low 32 bits of MCi_STATUS MSR for the MCA bank that had the error Arguments: Arg1: 00000000 Arg2: 8056c780 Arg3: a2000000 Arg4: 84010400 Debugging Details: ------------------ BUGCHECK_STR: 0x9C_IA32_GenuineIntel CUSTOMER_CRASH_COUNT: 1 DEFAULT_BUCKET_ID: DRIVER_FAULT_SERVER_MINIDUMP CURRENT_IRQL: 42 LAST_CONTROL_TRANSFER: from 8074af57 to 80543ac9 STACK_TEXT: 8056c758 8074af57 0000009c 00000000 8056c780 nt!PoRunDownDeviceObject+0x9f 8056c80c 00000000 00000000 002607df 00000000 hal!HaliPciInterfaceReadConfig+0x43 FOLLOWUP_IP: nt!PoRunDownDeviceObject+9f 80543ac9 5d pop ebp SYMBOL_STACK_INDEX: 0 FOLLOWUP_NAME: MachineOwner SYMBOL_NAME: nt!PoRunDownDeviceObject+9f MODULE_NAME: nt IMAGE_NAME: ntoskrnl.exe DEBUG_FLR_IMAGE_TIMESTAMP: 40b53739 STACK_COMMAND: kb FAILURE_BUCKET_ID: 0x9C_IA32_GenuineIntel_nt!PoRunDownDeviceObject+9f BUCKET_ID: 0x9C_IA32_GenuineIntel_nt!PoRunDownDeviceObject+9f Followup: MachineOwner Was bedeuten die Meldungen bzw. was ist MCE bzw. MCa bei einer CPU ????? Ich habe schaon alle Treiber bzw. Firmware aktualisiert und den Server mit jeweils nur einer CPU oder einem Ram gestartet. Das Problem dabei ist aber das der Fehler nicht auftritt wenn man direkt davor sitzt sondern meistens irgendwann in der Nacht. Konnt ihr mir vielleicht weiterhelfen ?? Zitieren Link zu diesem Kommentar
zahni 554 Geschrieben 27. Oktober 2005 Melden Teilen Geschrieben 27. Oktober 2005 Wo stammt die 2. CPU her ? Simmen die Steppings überein ? Ist der Speicher original von HP passend zum Server ? Das neuste BIOS vom Oktober hat einen Sack voll Änderungen: http://h18007.www1.hp.com/support/files/server/us/revision/8710.html -Zahni Zitieren Link zu diesem Kommentar
latimer 10 Geschrieben 27. Oktober 2005 Autor Melden Teilen Geschrieben 27. Oktober 2005 Erstmal Danke für die Schnelle Antwort aber alle Treiber, Firmware und Bios habe ich schon aktualisiert. Die zweite CPU und die beiden Speicher sind ebenfalls von HP. Das seltsame ist halt auch das der Server schon fast ein Jahr ohne Probleme lief und erst jetzt treten diese Probleme auf. Ich hatte noch andere Blue Screens IRQ not Less or Equal und Hardware Malfunction Call your Vendor for support NMI: Paryty check / Memory Parity Error The system was halted Ich habe auch die HP Diagnostic tools for Windows installiert und damit die Hardware überprüft. Leider haben die Tools keine Fehler gefunden. Zitieren Link zu diesem Kommentar
zahni 554 Geschrieben 27. Oktober 2005 Melden Teilen Geschrieben 27. Oktober 2005 Ich tippe mal auf einen Speicherfehler, obwohl ECC eigentlich was melden sollte. -Zahni Zitieren Link zu diesem Kommentar
latimer 10 Geschrieben 27. Oktober 2005 Autor Melden Teilen Geschrieben 27. Oktober 2005 Ich habe auch schon mit dem HP Support gesprochen die hatten auchh schon eine Vermutung in Richtung Speicher. Leider wollen die aber die genauen Stopfehler. Aber als der Fehler aufgetreten ist war ich halt nciht beim Kunden und der kunde hat halt nur den Fhler an sich notiert aber keine Stopfehler. Jetzt muss ich wohl warten bis wieder ein Stopfehler auftritt. Zitieren Link zu diesem Kommentar
zahni 554 Geschrieben 27. Oktober 2005 Melden Teilen Geschrieben 27. Oktober 2005 Stell die Kiste so, dass ein vollständiger Dump ( bei Dir also 2 GB) erzeugt wird. Den kannst Du dann, möglichst auf der gleichen Kiste, mit einem aktuellen Debugger analysieren ( !analyze -v ) . Da steht auch nicht weniger drin als im blauen Bildschirm. Kannst auch mal http://www.memtest.org/ laufen lassen. Habe aber keine Ahnung, ob der Chipsatz unterstützt wird ( hat den noch Serverworks ? ) -zahni Zitieren Link zu diesem Kommentar
latimer 10 Geschrieben 3. November 2005 Autor Melden Teilen Geschrieben 3. November 2005 Also ich habe das Ergebnis von !analyze -v an HP geschickt. Anschliessend kam auch ein HP Techniker und hat den Ram getauscht. Leider treten aber weiterhin Blue sCreens auf. Der letzte war mal wieder Hardware Malfunktion Call your hardware vendor for support NMI: Parity Check / Memory Parity Error The system was halted Also doch deutlich ein Hardwarefehler aber HP möchte jetzt ständig irgendwelche Ergebnisse von HP Prüftools haben bevor sie nochmal was unternehmen. Das nennt man dann Next Business Day Garantie. Echt toll. Aber es hätte mich auch gewundert der Service bei HP hat sich in den letzten Monaten dramatisch verschlechtert. Wir hatten bei anderen Kunden schon Wartezeiten bis zu 2 Monaten für ein defektes Mainboard. Das beste ist das Tool HP Diagnostics for Windows führt in der aktuellen Version ebenfalls dazu das der Server sich aufhängt. Die ältere Version läuft jetzt. Mal sehen was als nächstes kommt. Zitieren Link zu diesem Kommentar
Empfohlene Beiträge
Schreibe einen Kommentar
Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.