r4pt0x 10 Geschrieben 14. August 2013 Melden Teilen Geschrieben 14. August 2013 Hallo. Wir haben in einer RHEL-Kernel basierten Virtualisierung (Proxmox VE) 2 Windows 2008 Server als KVM laufen - 32 und 64 bit. Währrend die 32bit Maschine normal läuft, startet die 64bit Maschine seit einiger Zeit ca 2-5x pro Woche zufällig einfach neu. Wird der automatische Neustart bei Fehlern deaktiviert, friert die Maschine mit voller CPU-Auslastung ein. Es wird keine Fehlermeldung oder Bluescreen angezeigt, kein Memorydump erstellt und es gibt keinerlei Fehlereinträge - in der Ereignisanzeige findet sich nur der Eintrag "Das System wurde unerwartet neu gestartet" Die Abstürze sind völlig unabhängig von der Systemlast, das Muttersystem und die anderen VMs laufen einwandfrei. Ein zeitlicher Zusammenhang zwischen dem auftreten des Problems und Installation oder Update von Diensten die auf dem Server laufen oder Treibern konnte nicht gefunden werden. Die virtio-Treiber wurden schon in zig verschiedenen Versionen ausprobiert, auch mit Versionen die definitiv einwandfrei liefen. Auch Wechsel von virtio auf IDE als Schnittstelle für die Laufwerke brachte keine Änderung (ausser deutlich reduzierte HDD IO-Leistung) Auf einem Zweiten Server (ebenfalls Proxmox VE) läuft ein 2008 R2 x64 ohne Probleme. Diverse Suchen in der microsoft-knowledgebase brachten zwar einige pasende Ergebnisse, aber praktisch alle Hotfixes lassen sich nicht installieren ("Nicht für dieses System geeinet"). Google spuckt logischerweise ebenfalls haufenweise Ergebnisse (Foren/Blogeinträge) zu crashendem Win 2008 aus, allerdings gibt es dann meistens entweder keine Lösung oder es wird auf die hardware geschoben, was hier ausgeschlossen werden kann. Auch die Standardantwort "Neuinstallation" ist keine Option - zumindest nicht solange die Fehlerursache nicht geklärt ist, da auf der Maschine diverse Software läuft die nur vom jeweiligen Anbietersupport installiert werden kann/darf - das wären dann zum 2. mal innerhalb von 12 Monaten ca 1000€ Kosten für Softwareinstallation - Das erste mal beim Umstieg vom x32 auf den x64 Server im Herbst letzten Jahres. Zudem lief es in dieser Konfiguration mehrere Monate problemlos; nur 3 der Dienste die Installiert sind, werden - in relativ großen intervallen - geupdated (die beiden anderen bekommen nur alle ~2 Monate aktualisierte Datenbankdateien eingespielt) und alle 3 wurden auch auf dem R2 Server installiert und verursachen hier keine Probleme. Ziel ist also primär die Ursache zu finden - daher bitte keine "Empfehlungen" dass einfach alles neu Installiert werden soll, zumindest nicht bis die Ursache gefunden ist und damit ggf der entsprechende Anbieter für die Kosten geradestehen darf.. Welche Möglichkeiten neben den - nicht funktionierenden - Memory- und Minidumps gäbe es noch einen Anhaltspunkt zu finden was für die abstürze Verantwortlich ist? Brauchbare Logs gibt es ja ebenfalls nicht... Schonmal danke für jede Hilfe! Zitieren Link zu diesem Kommentar
iDiddi 27 Geschrieben 14. August 2013 Melden Teilen Geschrieben 14. August 2013 (bearbeitet) Hallo, um Dir helfen zu können, bräuchten wir noch mehr Infos: Was läuft sonst noch alles an Software auf dem Server? Was für Dienste stellt dieser Server bereit? Wie ist der Patch-Stand? Wird der automatische Neustart bei Fehlern deaktiviert, friert die Maschine mit voller CPU-Auslastung ein.Und welcher Prozess zeigt sich dafür verantwortlich? Besteht die Möglichkeit, die VM auf einen anderen Host zu ziehen? Edit: OK, nach einer kurzen Suche nach Problemen im Zusammenhang mit Proxmox gehe ich stark davon aus, dass es an der Virtualisierung bzw. deren Konfig. liegt. Es gibt zig Beiträge, die ähnlich geartet sind. Hier z.B.: http://forum.proxmox.com/threads/12404-Windows-Server-2008-r2-64-bits-freezes-some-times Daher empfehle ich Dir, zusätzlich ein Proxmox-Forum zu befragen oder dort zu suchen. Vergleiche auch noch mal genau die Konfiguration mit funktionierenden Systemen. Findest Du Unterschiede? bearbeitet 14. August 2013 von iDiddi Zitieren Link zu diesem Kommentar
r4pt0x 10 Geschrieben 14. August 2013 Autor Melden Teilen Geschrieben 14. August 2013 R2 läuft wie gesagt einwandfrei, 2008 x32 ebenfalls - es ist einzig die x64 Maschine und auch erst seit ~6 Wochen... Auf dem Server läuft ein MSSQL 2008 R2 server, der aber relativ wenig zu tun hat. Auf dem R2 am anderen Server läuft ebenfalls MSSQL 2008 R2, allerdings aktuell als kalter fallback - sprich es werden einfach nur immer die nächtlichen dumps an diesen server übertragen sodass im falle eines falles hier relativ schnell ein SQL-Server laufen kann. WerbasWeb ist die Anwendung die diesen MSSQL Serverdienst benötigt. Ansonsten wäre eigentlich nur noch SilverDAT als häufig genutzter Dienst installiert sowie ein WSUS. Sämtliche wichtigen Dienste (DNS, DHSP, Gateway, VNP-Routing etc) sowie Fileserver werden von debian-Servern übernommen. Updatestand ist aktuell. An der Gastkonfiguration hat sich nichts geändert, auch gab es keine Updates am Kernel oder dem pve-dienst der Zeitlich direkt mit dem autreten des Problems zusammenhängt. Ich habe vorhin auch noch ein altes Abbild des 2008 x64 Servers (direkt nach Windows-installation + MSSQL Server) auf beiden Proxmox-Systemen aktiviert. Der eine installiert jetzt seit knapp 2h Updates, der andere bleibt völlig unangetastet. Werde beide VMs einfach mal laufen lassen und ggf in 1-2 Wochen jeweils auf den anderen Host übertragen.Dann werde ich nach und nach alle Dienste (soweit möglich) nachinstallieren bis das Problem auftritt. Einfacher wäre natürlich wenn mir die aktuell betroffene Installation einfach einen sauberen dump oder zumindest Logeinträge erzeugen würde... Wenn das system bei deaktiviertem "Neustart bei Fehlern" einfriert lässt sich logischerweise auch nicht herausfinden welcher Prozess die ursache war - das System reagiert auf überhaupt nichts, Bildschirm bei VNC-Verbindung ist schwarz (ich hatte hier auf einen Bluescreen gehofft, daher wurde der automatische Neustart deaktiviert!). Wiederbeleben ist nur durch einen hardreset durch den Host möglich - also auch keine reaktion auf ctrl-alt-del! Dateisystemprüfung wurde im Gast und am Host durchgeführt - alles sauber. Die Proxmox/KVM-Spezifischen Probleme mit 2008 als Gast habe ich schon sehr ausführlich abgegrast - mit den Lösungen für die wenigen Problemfälle die ähnlich geartet waren stellte sich keine Besserung ein bzw trafen hier nicht zu. Da es aber auch bedeutend mehr solcher Probleme mit 2008 als bare-metal Installation gibt, wage ich jetzt einfach mal zu behaupten dass es auch nicht an der Virtualisierung liegt. Zumal ja die x32 und R2 x64 Installationen anstandslos laufen (wie auch die x64 bisher) und diese bekommen alle die selbe KVM-Umgebung als Unterlage... Wie gesagt: Ich will die Kiste jetzt primär erstmal "zwingen" mir endlich einen dump oder brauchbare Logs zu geben damit ich überhaupt einen Anhaltspunkt habe wo gesucht werden muss... Ein kompletter memorydump (16GB) der eingefrorenen VM wäre auch ziemlich sinnfrei... Zitieren Link zu diesem Kommentar
iDiddi 27 Geschrieben 14. August 2013 Melden Teilen Geschrieben 14. August 2013 (bearbeitet) OK, aber das ist doch nicht alles an Software, die da drauf läuft, oder? Was ist mit einem Virenscanner? Backup-Software? Ich meinte nicht, dass es grundsätzlich am Host liegt. Eher an einer abweichenden Konfiguration des Gastsystems. Ich kenne mich mit Proxmox nicht aus. Gibt es evtl. ein Best-Practice für einen Win2008? Poste auch mal den genauen Wortlaut der Meldung, die nach einem Neustart gelockt wird. bearbeitet 14. August 2013 von iDiddi Zitieren Link zu diesem Kommentar
zahni 550 Geschrieben 14. August 2013 Melden Teilen Geschrieben 14. August 2013 Schon überlegt, ob es vielleicht an der Hardware liegt ? Vielleicht ist der RAM defekt. Zitieren Link zu diesem Kommentar
NeMiX 76 Geschrieben 14. August 2013 Melden Teilen Geschrieben 14. August 2013 Hast du schon mal einen Memtest gemacht? Und evtl. mal die Maschine auf einem ESXi oder Hyper-V laufen lassen um zu schauen ob es nicht doch an Proxmox liegt? Wir hatten einen kleinen Kunden mit Proxmox wo es auch öfters Probleme gab mit 2008 Maschinen. Nach Migration auf ESXi läuft alles schmerzfrei. Zitieren Link zu diesem Kommentar
r4pt0x 10 Geschrieben 14. August 2013 Autor Melden Teilen Geschrieben 14. August 2013 (bearbeitet) Der RAM ist definitiv in ordnung - es wurde beim letzten kernelupdate sogar extra ein memtest durchgeführt. Zumal bei fehlerhaftem Speicher eher zuerst der Host probleme machen würde... Als Virenscanner läuft der Trend Micro Business drauf (inkl Serverdienst) - den hatte ich vergessen. Von Hostseite aus gibt es keine großartigen Konfigurationsabweichungen vom default ausser der Hardwarevarianten die dem Gast vergelegt werden (HDD-Controller, NICs, CPU-Typ) - Hier wurden schon die NIC und Speichercontroller von virtio auf e1000 und SCSI oder IDE geändert, was aber am Problem nichts ändert. Die einzigen "Gastspezifischen" änderungen betreffen direkt den Gast, da Win Vista/2003/2008 nicht korrekt auf ACPI reagiert und nicht auf Hostanfrage herunterfährt - das sind aber nur 2 Registryeinträge im Gast, sonst nichts. Wortlaut des "Log"eintrages (ich kann diese Ereignisprotokollierung einfach nicht als vollwertige Syslog ansehen, sorry...) ist einfach nur "Das System wurde am XXX unerwartet heruntergefahren". Beobachtet man den Bootvorgang via VNC wird vor dem Windows-Start die Auswahl für abgesicherten modus oder Normalen start angezeigt - es handelt sich also nicht um ein normales "Herunterfahren" sondern die Maschine ist einfach schlagartig weg und startet neu. Passierte gestern auch währrend ich im WSUS Updates freigeben wollte. Bild ist für ~3 sec eingefroren, dann wird neu gestartet. ESXi steht nicht zur Verfügung, übertragen der VM in eine VirtualBox VM scheiterte an Windows, da ja (noch immer..) nur ein stupf generischer bootvorgang durchläuft -> andere hardware und nichts mehr geht... (optimal für desaster recovery - deshalb ja auch KVM virtualisiert) Auch systemreparatur usw brachte nichts, die VM fror ständig beim booten ein - selbst wenn das dann irgendwann bootet wäre das ein dermaßen wackeliges Setup, dass man das kaum als Vergleichswert nutzen könnte um zu beurteilen ob es an der darunter liegenden virtualisierung liegt. Wie schon geschrieben: am meisten helfen würde es mir, wenn ich endlich irgend eine Art von verwertbarem dump und/oder vernünftigem fehlerlog bekommen würde. Alles andere ist bunt in den Himmel raten und sinnloses rumgeteste ohne Anhaltspunkt... bearbeitet 14. August 2013 von r4pt0x Zitieren Link zu diesem Kommentar
zahni 550 Geschrieben 14. August 2013 Melden Teilen Geschrieben 14. August 2013 (bearbeitet) Vieles von Dem was Du schreibst, kann ich nicht nachvollziehen. Die VM's lassen vermutlich mit dem VMWare Converter Online migrieren. 2008 hat auch keinen Probleme mit neuer Hardware. Einzig der Treiber für den Boot-Controller muss im System installiert und gestartet werden. Das ist in Linux sicher auch nicht anders. Der VMWare Converter passt das übrigens automatisch an. ACPI-Änderungn können übrigens durchaus ursächlich sein. Auch kann es sein, das der Kernel von Windows 2008 nicht kompatibel zu Deinem Hypervisor ist. Bei 2008 R2 ist nicht nur der Name anders. Bei MS gab es mal irgendwo eine Liste supporteten Hypervisor's . Ein Shutdown eine VM erfolgt normalerweise über installierte Integration Tools des jeweiligen Hypervisors. Hat Deine Lösung so was nicht ? Edit: Die Liste gibt es hier: http://www.windowsservercatalog.com/results.aspx?&chtext=&cstext=&csttext=&chbtext=&bCatID=1521&cpID=0&avc=27&ava=0&avq=0&OR=1&PGS=25&ready=0 2008 unterstützt leider kein RHEL . Ab 2008 R2 müsste gehen. Deckt sich mit Deinem Erfahrungen. Also: Upgrade auf 2008 R2 durchführen. bearbeitet 14. August 2013 von zahni Zitieren Link zu diesem Kommentar
iDiddi 27 Geschrieben 14. August 2013 Melden Teilen Geschrieben 14. August 2013 (bearbeitet) Nicht unterstützt heißt zwar nicht, dass es nicht geht, aber das wäre schon eine Möglichkeit. Hast Du die notwendigen Ausschlüsse in Trend Micro gesetzt? Falls ja, schmeiß den mal testweise komplett runter. bearbeitet 14. August 2013 von iDiddi Zitieren Link zu diesem Kommentar
r4pt0x 10 Geschrieben 14. August 2013 Autor Melden Teilen Geschrieben 14. August 2013 Der TM ist wegen anderen Fehlern seit einigen Tagen deaktiviert (erhöht über ~2-3h immer weiter die CPU-last bis das system unbrauchbar ist). Dass 2008 und 2008 R2 komplett untershciedliche Systeme sind (vista <-> w7 basis) ist mir bekannt. Der VMWare Converter wandelt die VM auch sauber um, sie lässt sich auch starten, nur bleibt das System beim Bootversuch bei diversen Treibern hängen. Lässt sich beim protokollierten Bootvorgang deutlich beobachten - mit jeder ersetzen Treiberdatei kommt man ein paar schritte weiter und dann gibts bei einem der nächsten Treiber nen bluescreen oder das system friert ein... Aussichtslos so ein halbwegs stabiles System zu bekommen. Beim ACPI gab es keine änderungen - habe das wohl etwas falsch ausgedrückt. Die änderungen die nach dem Setup durchgeführt werdne müssen dass der Gast auf befehl auch herunterfährt sind: Power settingsIn Windows Server 2008' date=' you need to disable the 'Shutdown Event Tracker'. This setting in Group Policy. If the server is part of a domain, you need to edit the group policy for the organizational unit with the server. If you're not using a domain, you can edit the local group policy. This can be accessed by doing the following:Start -> Run -> gpedit.msc -> ok -> open "Computer Configuration" then "Policy" then "Administrative Templates" then "System". In the right pane, double click on 'Display Shutdown Event Tracker' and select 'disable' and OK. To make sure the new group policy is applied. Go to Start -> run -> cmd -> ok and type in 'gpupdate /force' without the quotes. Now when you select shutdown, you won't be promoted with the box asking why you are shutting down the server. [/quote'] http://pve.proxmox.com/wiki/Windows_2008_guest_best_practices Es gab noch 2 Registryeinträge die man bei problemen mit dem shutdown ändern sollte - dabei ging es IIRC um eine warnung die bei ACPI-events ausgegeben wird und dadurch unterdrückt wird. ist leider doch wieder länger her und mittlerweile habe ich doch einiges ausprobiert um das Problem endlich in den Griff zu bekommen... Ich werde jetzt mal beobachten was die beiden "jungfräulichen" VMs machen - wenn die sauber durchlaufen wird es wohl an einem der später installierten Dienste liegen. Daher nochmal die Frage: wie komme ich an brauchbare logs/crashdumps ran? Zitieren Link zu diesem Kommentar
NeMiX 76 Geschrieben 14. August 2013 Melden Teilen Geschrieben 14. August 2013 Im Eventlog steht absolut nichts bevor der Fehlermeldung das dein System unerwartet heruntergefahren wurde? Zitieren Link zu diesem Kommentar
iDiddi 27 Geschrieben 14. August 2013 Melden Teilen Geschrieben 14. August 2013 (bearbeitet) Löse mal manuell einen STOP-Fehler aus, um festzustellen, ob der Memory Dump grundsätzlich erstellt wird: http://blogs.technet.com/b/core/archive/2012/10/03/howto-manuelle-ausl-246-sung-eines-memory-dumps-schutzfehlers.aspx Den TM bitte vollständig entfernen. Deaktivieren wird nicht reichen! bearbeitet 14. August 2013 von iDiddi Zitieren Link zu diesem Kommentar
r4pt0x 10 Geschrieben 14. August 2013 Autor Melden Teilen Geschrieben 14. August 2013 (bearbeitet) Im Eventlog steht absolut nichts bevor der Fehlermeldung das dein System unerwartet heruntergefahren wurde? Nein, überhaupt nichts. Die letzten infos davor sind normale Statusmeldungen, meistens schon Stunden älter, dann nichts und mit Zeitpunkt nach dem Neustart wird die Fehlermeldung "unerwartet Heruntergefahren" geschrieben. Den manuellen STOP-Fehler werde ich noch ausprobieren. Bin zwar jetzt erstmal im Urlaub, aber spätestens in 2 Wochen wird das dann getestet - werde zwischendurch die test-VMs zwischen den nodes austauschen, dann habe ich in 2 Wochen auch hier Ergebnisse. Upgrade auf R2 wurde auch schon in Erwägung gezogen - allerdings ist das auch wieder ein Kostenfaktor, da es ja unverschämterweise kein Update gibt und damit wieder eine volle Lizenz fällig wird. Die erst vor 2 Jahren gekaufte 2008 Lizenz liegt dann ungenutzt rum... Zur Liste der supporteten Hypervisors: Dass in einer liste von Microsoft KVM oder andere FLOSS-Lösungen nicht auftauchen wundert mich nicht ;) Windows 2008 in allen Varianten wird aber in der Kompatibilitätsliste für KVM ohne bekannte Fehler oder Einschränkungen (ausser mangelhafter support für reboot) gelistet: http://www.linux-kvm.org/page/Guest_Support_Status Edit: [Ab Windows 2008/Vista] Sollte sich die Auslagerungsdatei auf einer anderen Partition als der System-Partition befinden, muss zusätzlich ein Registry-Key Namens DedicatedDumpFile angelegt werden. HKEY_LOCAL_MACHINE\System\CurrentControlSet\Control\CrashControl DedicatedDumpFile = <Pfad zum Pagefile, z.B. D:\pagefile.sys> Type: REG_SZ Siehe hierzu KB254649. http://blogs.technet.com/b/core/archive/2012/10/03/howto-manuelle-ausl-246-sung-eines-memory-dumps-schutzfehlers.aspx Der Hinweis sollte sinnvollerweise bei den Einstellungen zum Memorydump angezeigt werden (wenns schon nicht ohne manuelles gefrickel funktioniert) Daran dürfte es wohl liegen dass kein Dump erstellt wird - auch wenn ich IIRC die pagefile erst vor ~3 Wochen auf eine andere Partition verlegt habe und auch davor kein dump erstellt wurde... bearbeitet 14. August 2013 von r4pt0x Zitieren Link zu diesem Kommentar
iDiddi 27 Geschrieben 14. August 2013 Melden Teilen Geschrieben 14. August 2013 (bearbeitet) Wie ist die Auslagerungsdatei eingestellt? Hier noch Infos vom Hersteller: http://support.microsoft.com/kb/315263/de#method3 Edit: OK, warste schneller. Dann hat sich mein Beitrag erledigt :) bearbeitet 14. August 2013 von iDiddi Zitieren Link zu diesem Kommentar
r4pt0x 10 Geschrieben 26. August 2013 Autor Melden Teilen Geschrieben 26. August 2013 So, zurück aus dem Urlaub, einige Crashes gab es in der Zeit wieder - aber kein einziger Minidump wurde geschrieben... Zitieren Link zu diesem Kommentar
Empfohlene Beiträge
Schreibe einen Kommentar
Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.