ccmichi 10 Geschrieben 12. November 2012 Melden Teilen Geschrieben 12. November 2012 Hallo, ich habe bei einem SBS2011 das Problem, dass der Server bis jetzt 3x plötzlich stecken geblieben ist und man nur eine vage Info zum Problem hat, da die Ursache selbst nicht nachvollziehbar ist. Es gab 1x im September und 2x im November so ein Problem. Die Benutzer an den PCs verlieren die Verbindung zum Exchange und den Netzlaufwerken. Am Sever selbst geht auch nichts mehr, herunterfahren nicht möglich. Es bleibt also nur der Reset. Im Ereignisprotokoll habe ich bis jetzt nur folgenden Zusammenhang gefunden: Im System-Protokoll taucht einige Zeit vor dem Ausfall folgender Fehler auf: ======================================================= Event ID: 1058 Quelle: Microsoft-Windows-GroupPolicy Fehler bei der Verarbeitung der Gruppenrichtlinie. Der Versuch, die Datei "\\domain.local\SysVol\domain.local\Policies\{C8533A0A-A197-44D1-B6A9-DF4D6F20C6E7}\gpt.ini" von einem Domänencontroller zu lesen, war nicht erfolgreich. Die Gruppenrichtlinieneinstellungen dürfen nicht angewendet werden, bis dieses Ereignis behoben ist. Dies ist möglicherweise ein vorübergehendes Problem, das mindestens eine der folgenden Ursachen haben kann: a) Namensauflösung/Netzwerkverbindung mit dem aktuellen Domänencontroller. b) Wartezeit des Dateireplikationsdienstes (eine auf einem anderen Domänencontroller erstellte Datei hat nicht auf dem aktuellen Domänencontroller repliziert). c) Der DFS-Client (Distributed File System) wurde deaktiviert. ======================================================= Im Augenblick ist es kein Problem die gpt.ini zu öffnen, d.h. die Datei ist wirklich vorhanden. Es gibt auch massenhaft Info-Einträge dass die GPOs korrekt verarbeitet wurden, nur an den 3 Tagen als der Server seine Probleme hatte ist vorher der genannte Event aufgetreten. Ich vermute stark, dass die Ursache des Problems aber eine andere ist und dieser Fehler eine Nachwirkung des ursprünglichen Problems ist. Die Sache ist nur: Wie komme ich dem Problem auf die Schliche? Es gibt keinerlei Hinweise wo der Fehler zu suchen ist. Es gibts nichts spezielles das genau an diesen 3 Tagen vorgefallen ist, der Tagesablauf ist relativ gleich was die verwendeten Programme betrifft. Ich denke ein Logging diverse Prozesse, Dienste etc. wäre hier für die Fehlersuche ganz praktisch, allerdings konnte ich noch kein Tool ermitteln das bei diesem Fehler hilfreich ist. Es müssten ja quasi diese Informationen live gespeichert werden damit auch der Zeitpunkt des Fehlers mit im Log steht. Gibts da etwas das da weiterhilft? Oder kann man aufgrund der Beschreibung schon grob einordnen wo der Fehler herkommt? Ach ja: Es handelt sich um einen Fujitsu Server und der Fehlerspeicher enthält keinerlei Hinweise auf Hardware-Probleme. Gruß, Michi Zitieren Link zu diesem Kommentar
iDiddi 27 Geschrieben 13. November 2012 Melden Teilen Geschrieben 13. November 2012 Hallo ccmichi, mehr steht nicht in den Ereignisprotokollen? Meistens es der Virenscanner oder volllaufender Poolspeicher (steht dann aber im Protokoll) oder beides ;) Welche Software ist noch so installiert? Zitieren Link zu diesem Kommentar
ccmichi 10 Geschrieben 27. November 2012 Autor Melden Teilen Geschrieben 27. November 2012 Hallo iDiddi, sorry für die späte Antwort, habe erst jetzt wieder reingesehen weil das Problem vor ein paar Tagen und gerade eben schon wieder aufgetreten ist. Das Ereignisprotokoll versucht offenbar recht sauber zu bleiben. Der einzige Eintrag zum Zeitpunkt als das Problem vorhin auftrat ist folgender: Ebene: Fehler ID: 7011 Quelle: Service Control Manager Beschreibung: Das Zeitlimit (90000 ms) wurde beim Warten auf eine Transaktionsrückmeldung von Dienst SPWriterV4 erreicht. Die Meldung kam 4 Minuten später nochmal, da könnte es aber dran liegen dass der Server bereits heruntergefahren wurde. Bei dem Fehler vor ein paar Tagen hat er noch ein paar andere Fehler ausgespuckt: Um 8:53 Uhr kam dieser Fehler: Anwendungslog: Ebene: Fehler Quelle: MSExchangeMailSubmission ID: 1009 Beschreibung: Der Microsoft Exchange-Mailübergabedienst kann derzeit keine Verbindung zu einem Hub-Transport-Server am lokalen Active Directory-Standort herstellen. Möglicherweise sind die Server im Moment zu stark ausgelastet, um neue Verbindungen zu akzeptieren. Dann um 9:00 Uhr innerhalb einer Minute kamen diese alle: Ebene: Warnung Quelle: ESENT ID: 508 Beschreibung: wuaueng.dll (216) SUS20ClientDataStore: Eine Anforderung, in die Datei "C:\Windows\SoftwareDistribution\DataStore\Logs\tmp.edb" ab Offset 131072 (0x0000000000020000) insgesamt 32768 (0x00008000) Bytes zu schreiben, war erfolgreich, benötigte aber ungewöhnlich viel Zeit (886 Sekunden) von Seiten des Betriebssystems. Dieses Problem ist vermutlich durch fehlerhafte Hardware bedingt. Wenden Sie sich für weitere Unterstützung bei der Diagnose des Problems an Ihren Hardwarehersteller. Ebene: Warnung Quelle: ESENT ID: 510 Beschreibung: wuaueng.dll (216) SUS20ClientDataStore: Eine Anforderung, in die Datei "C:\Windows\SoftwareDistribution\DataStore\Logs\tmp.edb" ab Offset 98304 (0x0000000000018000) insgesamt 32768 (0x00008000) Bytes zu schreiben, war erfolgreich, benötigte aber ungewöhnlich viel Zeit (886 Sekunden) von Seiten des Betriebssystems. Zusätzlich haben 0 andere E/A-Anforderungen an diese Datei ungewöhnlich viel Zeit benötigt, seit die letzte Meldung bezüglich dieses Problems vor 0 Sekunden gesendet wurde. Dieses Problem ist vermutlich durch fehlerhafte Hardware bedingt. Wenden Sie sich für weitere Unterstützung bei der Diagnose des Problems an Ihren Hardwarehersteller. Ebene: Fehler Quelle: EventSystem ID: 4621 Beschreibung: Das EventSystem.EventSubscription-Objekt {CED55257-439F-4573-8D37-48609C73C138}-{00000000-0000-0000-0000-000000000000}-{00000000-0000-0000-0000-000000000000} konnte vom COM+-Ereignissystem nicht entfernt werden. Objektname: Explorer Objektbeschreibung: Das HRESULT lautete 80070005. Systemlog: Ebene: Fehler ID: 7 Quelle: Disk Beschreibung: Fehlerhafter Block bei Gerät \Device\Harddisk1\DR10 Der Server ist ein Fujitsu TX300S6 mit einem LSI RAID Controller (mit BBU) und SAS-Platten. Das Systemlog meldet keinerlei Hardwareprobleme und der RAID-Controller meint auch dass alles in Ordnung ist. Aufgrund des Disk-Eintrags oben werde ich aber mal eine Datenträgerprüfung laufen lassen, evtl. kommt das Problem von einem Fehler auf der virtuellen Disk. Ich melde mich wieder wenns was neues gibt. Gruß, Michi Zitieren Link zu diesem Kommentar
ccmichi 10 Geschrieben 28. November 2012 Autor Melden Teilen Geschrieben 28. November 2012 Hallo, gestern lief in einem Zeitraum von ca. 3 Stunden ein chkdsk über die Partition des Servers. Hier mal der Output von chkdsk (Zeilen ohne Fehler wurden entfernt da der Beitrag sonst zu lang ist): ====================================================== Dateisystem auf C: wird überprüft. Der Typ des Dateisystems ist NTFS. Die Volumebezeichnung lautet system. CHKDSK überprüft Dateien (Phase 1 von 5)... Instanzkennung für Datei 0x2b659 wird aufgeräumt. Instanzkennung für Datei 0x2b67e wird aufgeräumt. Instanzkennung für Datei 0x2b692 wird aufgeräumt. 428288 Datensätze verarbeitet. Dateiüberprüfung beendet. 1395 große Datensätze verarbeitet. 266 Analysedatensätze verarbeitet. CHKDSK überprüft Indizes (Phase 2 von 5)... 520028 Indexeinträge verarbeitet. Indexüberprüfung beendet. CHKDSK überprüft Sicherheitsbeschreibungen (Phase 3 von 5)... 428288 SDs/SIDs verarbeitet. 689 nicht verwendete Indexeinträge aus Index $SII der Datei 0x9 werden aufgeräumt. 689 nicht verwendete Indexeinträge aus Index $SDH der Datei 0x9 werden aufgeräumt. 689 nicht verwendete Sicherheitsbeschreibungen werden aufgeräumt. Überprüfung der Sicherheitsbeschreibungen beendet. 45871 Datendateien verarbeitet. CHKDSK überprüft USN-Journal... 538614224 USN-Bytes verarbeitet. Die Überprüfung von USN-Journal ist abgeschlossen. CHKDSK überprüft Dateidaten (Phase 4 von 5)... 428272 Dateien wurden verarbeitet. Dateidatenüberprüfung beendet. CHKDSK überprüft freien Speicherplatz (Phase 5 von 5)... 127415825 freie Cluster verarbeitet. Verifizierung freien Speicherplatzes ist beendet. CHKDSK hat freien Speicher gefunden, der in der MFT-Bitmap (Master File Table) als zugeordnet gekennzeichnet ist. CHKDSK hat freien Speicher gefunden, der in der Volumebitmap als zugeordnet gekennzeichnet ist. Windows hat Probleme im Dateisystem behoben. 877881343 KB Speicherplatz auf dem Datenträger insgesamt 367039352 KB in 380843 Dateien 129964 KB in 45872 Indizes 0 KB in fehlerhaften Sektoren 1048723 KB vom System benutzt 65536 KB von der Protokolldatei belegt 509663304 KB auf dem Datenträger verfügbar 4096 Bytes in jeder Zuordnungseinheit 219470335 Zuordnungseinheiten auf dem Datenträger insgesamt 127415826 Zuordnungseinheiten auf dem Datenträger verfügbar Interne Informationen: 00 89 06 00 e7 82 06 00 a0 de 07 00 00 00 00 00 ................ 09 08 00 00 0a 01 00 00 00 00 00 00 00 00 00 00 ................ 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ Die Überprüfung des Datenträgers wurde abgeschlossen. Bitte warten Sie bis der Computer neu gestartet wurde. ====================================================== Kurz nachdem der Server wieder hochgefahren war hat er 3x hintereinander folgenden Event in System geschrieben: Ebene: Warnung Quelle: Disk ID: 32 Beschreibung: Der Treiber hat festgestellt, dass auf Gerät \Device\Harddisk0\DR0 der Schreibcache aktiviert ist. Die Daten könnten beschädigt werden. Heute Morgen, also nachdem chkdsk durchgelaufen war, fanden sich unter System 5 Einträge, alle innerhalb von 2 Sekunden, mit folgendem Inhalt: Ebene: Fehler Quelle: Disk ID: 11 Beschreibung: Der Treiber hat einen Controllerfehler auf \Device\Harddisk1\DR1 gefunden. Info zur RAID Konfiguration: Im Server hängt ein LSI Controller mit 512 MB Cache. Er läuft mit 3 SAS-HDDs im RAID5. Die Policy ist Write Back with BBU (BBU ist auch vorhanden und funktioniert lt. RAID Manager). Der Event mit ID 32 kommt soweit ich das gelesen habe daher, dass Write Back aktiv ist (das ist ja so gewollt, darum auch die BBU). Doch die Controllerfehler gefallen mir gar nicht. Kann ich jetzt davon ausgehen dass der Controller nen Knacks hat? Jedenfalls reichen die Fehler nicht dass das servereigene System Event Log eine Hardwarekomponente fehlerhaft markiert. Danke schonmal für weitere Tipps! Gruß, Michi Zitieren Link zu diesem Kommentar
ccmichi 10 Geschrieben 10. Dezember 2012 Autor Melden Teilen Geschrieben 10. Dezember 2012 Hallo, das Problem konnte zwischenzeitlich gelöst werden. Es kam mir schon verdächtig vor dass die Probleme immer vormittags auftreten. Denn vormittags wird eine Kopie der Sicherung des Vorabends auf eine von drei externe HDDs (die in Rotation verwendet werden) kopiert. Eine dieser HDDs hatte wohl einen Fehler der den Server hier und da in die Knie gezwungen hat, und von der stammten auch die Fehlermeldungen im Event Log. Die entspr. HDD wurde aus dem Verkehr gezogen, jetzt läuft der Server wieder rund. Interessieren würde mich aber schon wie ein solches Problem die Maschine in die Knie zwingen kann. Versteift sich der Server so auf den Kopiervorgang dass er da nach und nach alle Ressourcen reinpumpt bis er quasi keine Leistung mehr für andere Dienste hat? Gruß, Michi Zitieren Link zu diesem Kommentar
iDiddi 27 Geschrieben 10. Dezember 2012 Melden Teilen Geschrieben 10. Dezember 2012 Danke für Deine Rückmeldung. Eine defekte Hardware kann viel Schaden anrichten. Ich hatte sogar mal ähnliche Probleme mit einem defekten CDROM-Laufwerk. Zitieren Link zu diesem Kommentar
Empfohlene Beiträge
Schreibe einen Kommentar
Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.