2011 bleibt plötzlich stecken

ccmichi · 12. November 2012

Hallo,

ich habe bei einem SBS2011 das Problem, dass der Server bis jetzt 3x plötzlich stecken geblieben ist und man nur eine vage Info zum Problem hat, da die Ursache selbst nicht nachvollziehbar ist.

Es gab 1x im September und 2x im November so ein Problem. Die Benutzer an den PCs verlieren die Verbindung zum Exchange und den Netzlaufwerken. Am Sever selbst geht auch nichts mehr, herunterfahren nicht möglich. Es bleibt also nur der Reset.

Im Ereignisprotokoll habe ich bis jetzt nur folgenden Zusammenhang gefunden: Im System-Protokoll taucht einige Zeit vor dem Ausfall folgender Fehler auf:

=======================================================

Event ID: 1058

Quelle: Microsoft-Windows-GroupPolicy

Fehler bei der Verarbeitung der Gruppenrichtlinie. Der Versuch, die Datei "\\domain.local\SysVol\domain.local\Policies\{C8533A0A-A197-44D1-B6A9-DF4D6F20C6E7}\gpt.ini"

von einem Domänencontroller zu lesen, war nicht erfolgreich. Die Gruppenrichtlinieneinstellungen dürfen nicht angewendet werden, bis dieses Ereignis behoben ist. Dies ist möglicherweise ein vorübergehendes Problem, das mindestens eine der folgenden Ursachen haben kann:

a) Namensauflösung/Netzwerkverbindung mit dem aktuellen Domänencontroller.

b) Wartezeit des Dateireplikationsdienstes (eine auf einem anderen Domänencontroller erstellte Datei hat nicht auf dem aktuellen Domänencontroller repliziert).

c) Der DFS-Client (Distributed File System) wurde deaktiviert.

=======================================================

Im Augenblick ist es kein Problem die gpt.ini zu öffnen, d.h. die Datei ist wirklich vorhanden. Es gibt auch massenhaft Info-Einträge dass die GPOs korrekt verarbeitet wurden, nur an den 3 Tagen als der Server seine Probleme hatte ist vorher der genannte Event aufgetreten.

Ich vermute stark, dass die Ursache des Problems aber eine andere ist und dieser Fehler eine Nachwirkung des ursprünglichen Problems ist.

Die Sache ist nur: Wie komme ich dem Problem auf die Schliche? Es gibt keinerlei Hinweise wo der Fehler zu suchen ist. Es gibts nichts spezielles das genau an diesen 3 Tagen vorgefallen ist, der Tagesablauf ist relativ gleich was die verwendeten Programme betrifft.

Ich denke ein Logging diverse Prozesse, Dienste etc. wäre hier für die Fehlersuche ganz praktisch, allerdings konnte ich noch kein Tool ermitteln das bei diesem Fehler hilfreich ist. Es müssten ja quasi diese Informationen live gespeichert werden damit auch der Zeitpunkt des Fehlers mit im Log steht. Gibts da etwas das da weiterhilft? Oder kann man aufgrund der Beschreibung schon grob einordnen wo der Fehler herkommt?

Ach ja: Es handelt sich um einen Fujitsu Server und der Fehlerspeicher enthält keinerlei Hinweise auf Hardware-Probleme.

Gruß, Michi

iDiddi · 13. November 2012

Hallo ccmichi,

mehr steht nicht in den Ereignisprotokollen?

Meistens es der Virenscanner oder volllaufender Poolspeicher (steht dann aber im Protokoll) oder beides ;)

Welche Software ist noch so installiert?

ccmichi · 27. November 2012

Hallo iDiddi,

sorry für die späte Antwort, habe erst jetzt wieder reingesehen weil das Problem vor ein paar Tagen und gerade eben schon wieder aufgetreten ist.

Das Ereignisprotokoll versucht offenbar recht sauber zu bleiben. Der einzige Eintrag zum Zeitpunkt als das Problem vorhin auftrat ist folgender:

Ebene: Fehler

ID: 7011

Quelle: Service Control Manager

Beschreibung: Das Zeitlimit (90000 ms) wurde beim Warten auf eine Transaktionsrückmeldung von Dienst SPWriterV4 erreicht.

Die Meldung kam 4 Minuten später nochmal, da könnte es aber dran liegen dass der Server bereits heruntergefahren wurde.

Bei dem Fehler vor ein paar Tagen hat er noch ein paar andere Fehler ausgespuckt:

Um 8:53 Uhr kam dieser Fehler:

Anwendungslog:

Ebene: Fehler

Quelle: MSExchangeMailSubmission

ID: 1009

Beschreibung: Der Microsoft Exchange-Mailübergabedienst kann derzeit keine Verbindung zu einem Hub-Transport-Server am lokalen Active Directory-Standort herstellen. Möglicherweise sind die Server im Moment zu stark ausgelastet, um neue Verbindungen zu akzeptieren.

Dann um 9:00 Uhr innerhalb einer Minute kamen diese alle:

Ebene: Warnung

Quelle: ESENT

ID: 508

Beschreibung: wuaueng.dll (216) SUS20ClientDataStore: Eine Anforderung, in die Datei "C:\Windows\SoftwareDistribution\DataStore\Logs\tmp.edb" ab Offset 131072 (0x0000000000020000) insgesamt 32768 (0x00008000) Bytes zu schreiben, war erfolgreich, benötigte aber ungewöhnlich viel Zeit (886 Sekunden) von Seiten des Betriebssystems. Dieses Problem ist vermutlich durch fehlerhafte Hardware bedingt. Wenden Sie sich für weitere Unterstützung bei der Diagnose des Problems an Ihren Hardwarehersteller.

Ebene: Warnung

Quelle: ESENT

ID: 510

Beschreibung: wuaueng.dll (216) SUS20ClientDataStore: Eine Anforderung, in die Datei "C:\Windows\SoftwareDistribution\DataStore\Logs\tmp.edb" ab Offset 98304 (0x0000000000018000) insgesamt 32768 (0x00008000) Bytes zu schreiben, war erfolgreich, benötigte aber ungewöhnlich viel Zeit (886 Sekunden) von Seiten des Betriebssystems. Zusätzlich haben 0 andere E/A-Anforderungen an diese Datei ungewöhnlich viel Zeit benötigt, seit die letzte Meldung bezüglich dieses Problems vor 0 Sekunden gesendet wurde. Dieses Problem ist vermutlich durch fehlerhafte Hardware bedingt. Wenden Sie sich für weitere Unterstützung bei der Diagnose des Problems an Ihren Hardwarehersteller.

Ebene: Fehler

Quelle: EventSystem

ID: 4621

Beschreibung: Das EventSystem.EventSubscription-Objekt {CED55257-439F-4573-8D37-48609C73C138}-{00000000-0000-0000-0000-000000000000}-{00000000-0000-0000-0000-000000000000} konnte vom COM+-Ereignissystem nicht entfernt werden.

Objektname: Explorer

Objektbeschreibung:

Das HRESULT lautete 80070005.

Systemlog:

Ebene: Fehler

ID: 7

Quelle: Disk

Beschreibung: Fehlerhafter Block bei Gerät \Device\Harddisk1\DR10

Der Server ist ein Fujitsu TX300S6 mit einem LSI RAID Controller (mit BBU) und SAS-Platten. Das Systemlog meldet keinerlei Hardwareprobleme und der RAID-Controller meint auch dass alles in Ordnung ist. Aufgrund des Disk-Eintrags oben werde ich aber mal eine Datenträgerprüfung laufen lassen, evtl. kommt das Problem von einem Fehler auf der virtuellen Disk.

Ich melde mich wieder wenns was neues gibt.

Gruß, Michi

ccmichi · 28. November 2012

Hallo,

gestern lief in einem Zeitraum von ca. 3 Stunden ein chkdsk über die Partition des Servers.

Hier mal der Output von chkdsk (Zeilen ohne Fehler wurden entfernt da der Beitrag sonst zu lang ist):

======================================================

Dateisystem auf C: wird überprüft.

Der Typ des Dateisystems ist NTFS.

Die Volumebezeichnung lautet system.

CHKDSK überprüft Dateien (Phase 1 von 5)...

Instanzkennung für Datei 0x2b659 wird aufgeräumt.

Instanzkennung für Datei 0x2b67e wird aufgeräumt.

Instanzkennung für Datei 0x2b692 wird aufgeräumt.

428288 Datensätze verarbeitet.

Dateiüberprüfung beendet.

1395 große Datensätze verarbeitet.

266 Analysedatensätze verarbeitet.

CHKDSK überprüft Indizes (Phase 2 von 5)...

520028 Indexeinträge verarbeitet.

Indexüberprüfung beendet.

CHKDSK überprüft Sicherheitsbeschreibungen (Phase 3 von 5)...

428288 SDs/SIDs verarbeitet.

689 nicht verwendete Indexeinträge aus Index $SII der Datei 0x9 werden aufgeräumt.

689 nicht verwendete Indexeinträge aus Index $SDH der Datei 0x9 werden aufgeräumt.

689 nicht verwendete Sicherheitsbeschreibungen werden aufgeräumt.

Überprüfung der Sicherheitsbeschreibungen beendet.

45871 Datendateien verarbeitet.

CHKDSK überprüft USN-Journal...

538614224 USN-Bytes verarbeitet.

Die Überprüfung von USN-Journal ist abgeschlossen.

CHKDSK überprüft Dateidaten (Phase 4 von 5)...

428272 Dateien wurden verarbeitet.

Dateidatenüberprüfung beendet.

CHKDSK überprüft freien Speicherplatz (Phase 5 von 5)...

127415825 freie Cluster verarbeitet.

Verifizierung freien Speicherplatzes ist beendet.

CHKDSK hat freien Speicher gefunden, der in der MFT-Bitmap (Master

File Table) als zugeordnet gekennzeichnet ist.

CHKDSK hat freien Speicher gefunden, der in der Volumebitmap als

zugeordnet gekennzeichnet ist.

Windows hat Probleme im Dateisystem behoben.

877881343 KB Speicherplatz auf dem Datenträger insgesamt

367039352 KB in 380843 Dateien

129964 KB in 45872 Indizes

0 KB in fehlerhaften Sektoren

1048723 KB vom System benutzt

65536 KB von der Protokolldatei belegt

509663304 KB auf dem Datenträger verfügbar

4096 Bytes in jeder Zuordnungseinheit

219470335 Zuordnungseinheiten auf dem Datenträger insgesamt

127415826 Zuordnungseinheiten auf dem Datenträger verfügbar

Interne Informationen:

00 89 06 00 e7 82 06 00 a0 de 07 00 00 00 00 00 ................

09 08 00 00 0a 01 00 00 00 00 00 00 00 00 00 00 ................

00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................

Die Überprüfung des Datenträgers wurde abgeschlossen.

Bitte warten Sie bis der Computer neu gestartet wurde.

======================================================

Kurz nachdem der Server wieder hochgefahren war hat er 3x hintereinander folgenden Event in System geschrieben:

Ebene: Warnung

Quelle: Disk

ID: 32

Beschreibung: Der Treiber hat festgestellt, dass auf Gerät \Device\Harddisk0\DR0 der Schreibcache aktiviert ist. Die Daten könnten beschädigt werden.

Heute Morgen, also nachdem chkdsk durchgelaufen war, fanden sich unter System 5 Einträge, alle innerhalb von 2 Sekunden, mit folgendem Inhalt:

Ebene: Fehler

Quelle: Disk

ID: 11

Beschreibung: Der Treiber hat einen Controllerfehler auf \Device\Harddisk1\DR1 gefunden.

Info zur RAID Konfiguration: Im Server hängt ein LSI Controller mit 512 MB Cache. Er läuft mit 3 SAS-HDDs im RAID5. Die Policy ist Write Back with BBU (BBU ist auch vorhanden und funktioniert lt. RAID Manager).

Der Event mit ID 32 kommt soweit ich das gelesen habe daher, dass Write Back aktiv ist (das ist ja so gewollt, darum auch die BBU). Doch die Controllerfehler gefallen mir gar nicht. Kann ich jetzt davon ausgehen dass der Controller nen Knacks hat? Jedenfalls reichen die Fehler nicht dass das servereigene System Event Log eine Hardwarekomponente fehlerhaft markiert.

Danke schonmal für weitere Tipps!

Gruß, Michi

ccmichi · 10. Dezember 2012

Hallo,

das Problem konnte zwischenzeitlich gelöst werden.

Es kam mir schon verdächtig vor dass die Probleme immer vormittags auftreten.

Denn vormittags wird eine Kopie der Sicherung des Vorabends auf eine von drei externe HDDs (die in Rotation verwendet werden) kopiert.

Eine dieser HDDs hatte wohl einen Fehler der den Server hier und da in die Knie gezwungen hat, und von der stammten auch die Fehlermeldungen im Event Log. Die entspr. HDD wurde aus dem Verkehr gezogen, jetzt läuft der Server wieder rund.

Interessieren würde mich aber schon wie ein solches Problem die Maschine in die Knie zwingen kann. Versteift sich der Server so auf den Kopiervorgang dass er da nach und nach alle Ressourcen reinpumpt bis er quasi keine Leistung mehr für andere Dienste hat?

Gruß, Michi

iDiddi · 10. Dezember 2012

Danke für Deine Rückmeldung. Eine defekte Hardware kann viel Schaden anrichten. Ich hatte sogar mal ähnliche Probleme mit einem defekten CDROM-Laufwerk.

Anmelden

2011 bleibt plötzlich stecken

Empfohlene Beiträge

ccmichi 10

iDiddi 27

ccmichi 10

ccmichi 10

ccmichi 10

iDiddi 27

Schreibe einen Kommentar

Menu

Aktivitäten