Weingeist 159 Geschrieben 28. Februar 2022 Melden Teilen Geschrieben 28. Februar 2022 Am 27.2.2022 um 10:47 schrieb illumina7: Denke nicht, dass der Fehler von irgendeiner ominösen Software ausgelöst wird, dann müsste es ja eigentlich alle 4 RDSH betreffen. Ominös muss die software nicht sein. Nur Ihren Speicher nicht sauber freigeben. Gerne ergibt sich das zum Beispiel wenn Software Office-Programme "integrieren", also auf deren Funktionalität zurückgreifen. Bei einer CAD-Software konnte ich das mal einigermassen zuverlässig auf die Office-Integration zurückverfolgen. Je mehr die gebraucht wurden, desto schneller ging die Maschine in die Knie. Bei jedem Start der CAD-Software wurde das Plugin/Bibliotheken neu geladen, bei der Schliessung aber nicht sauber entladen. Irgendwann war kein "richtig" freier RAM mehr verfügbar (war nur erkennbar mit dem Ressourcenmonitor) und die Kiste ging in die Knie. In einem anderen Fall wars ein ERP, welches Excel und Word-Funktionen eingebaut hatte. In beiden Fällen konnte mit einem Reboot Abhilfe geschaffen werden. Prozesse abschiessen und neu starten ging im Fall des ERP, das CAD bzw. der Lizenzdienst war weniger happy. Habe dann auch nicht allzulange gesucht, da Reboot zu einfach war. ;) Gibt aber auch andere Software die nicht sauber entlädt, Adobe ist hier auch so ein Fall. Ich vermute fast, die meisten die irgendwelche Schrott im Hintergrund laufen haben (Lizenzmanager, irgendwelche Inter-Programm-Kommunikation etc.) und mit den Hauptprogrammen kommunzieren, leiden verstärkt an solchen Problemen. Selbst die Windows CMD hat (evtl. hatte) solch ein Speicherleck. Schliesst du es per Kreuzchen und nicht per Exit-Befehl, dann wird sie nicht sauber entladen. Irgendwann ist kein RAM mehr da. Heute eher weniger ein Problem da es nur ein paar KB pro Sitzung sind. ;) Lange Red kurzer Sinn, wenn die RDS-Host wirklich über identische Installationen verfügen, klingt es schon etwas seltsam, dass einer davon nicht betroffen ist. Fragt sich, ob auf dem 4. Host ein anderes Nutzungsprofil herrscht. Sprich immer die gleichen User da drüber arbeiten die vielleicht bestimmte Programme nicht so oft brauchen, weniger surfen usw. Browser-Games und solche Spässe würde ich eh nicht dulden. Das braucht viel zuviel unnötige CPU. (Spiel selbst + Grafikbeschleunigung). Dafür kann man das private Handy nehmen. Betriebscomputer sind zum arbeiten da. Aber das ist nur meine Meinung. ;) Youtube, Home-Office etc. haben die Problematik diesbezüglich aber sowieso verschärft. Zitieren Link zu diesem Kommentar
Nobbyaushb 1.472 Geschrieben 28. Februar 2022 Melden Teilen Geschrieben 28. Februar 2022 Kann es sein, das die Install-ISO eine Macke hat? Welche Version verwendest du denn genau? Ich kann mich erinnern, das eine der ISO aus dem VLSC mal defekt war und die merkwürdigsten Dinge verursacht hatte. Wenn der Host selber eine Macke hat... Sonst ggf. mal ein (kostenpflichtiges...) Ticket bei MS aufmachen Zitieren Link zu diesem Kommentar
illumina7 3 Geschrieben 28. Februar 2022 Autor Melden Teilen Geschrieben 28. Februar 2022 vor 30 Minuten schrieb Weingeist: Gibt aber auch andere Software die nicht sauber entlädt, Adobe ist hier auch so ein Fall. Ich vermute fast, die meisten die irgendwelche Schrott im Hintergrund laufen haben (Lizenzmanager, irgendwelche Inter-Programm-Kommunikation etc.) und mit den Hauptprogrammen kommunzieren, leiden verstärkt an solchen Problemen. Selbst die Windows CMD hat (evtl. hatte) solch ein Speicherleck. Schliesst du es per Kreuzchen und nicht per Exit-Befehl, dann wird sie nicht sauber entladen. Irgendwann ist kein RAM mehr da. Heute eher weniger ein Problem da es nur ein paar KB pro Sitzung sind. ;) Lange Red kurzer Sinn, wenn die RDS-Host wirklich über identische Installationen verfügen, klingt es schon etwas seltsam, dass einer davon nicht betroffen ist. Fragt sich, ob auf dem 4. Host ein anderes Nutzungsprofil herrscht. Sprich immer die gleichen User da drüber arbeiten die vielleicht bestimmte Programme nicht so oft brauchen, weniger surfen usw. Browser-Games und solche Spässe würde ich eh nicht dulden. Das braucht viel zuviel unnötige CPU. (Spiel selbst + Grafikbeschleunigung). Dafür kann man das private Handy nehmen. Betriebscomputer sind zum arbeiten da. Aber das ist nur meine Meinung. ;) Youtube, Home-Office etc. haben die Problematik diesbezüglich aber sowieso verschärft. Aus dem Grund läuft ja ein Teil der Programme als Remoteapp über einen extra Server, aber ich verstehe deinen Punkt. Nur frisst bei uns auch nichts den Arbeitsspeicher auf, im Gegenteil, der ist eigentlich selbst wenn 20-25 User auf einer Maschine arbeiten weit vom zugeteilten Maximum entfernt. Zum Thema Nutzerprofil: die User arbeiten derzeit querbeet über alle 4 RDSH und die Profile sind per User Profile Disks auf einem virtuellen Fileserver abgelegt. vor 22 Minuten schrieb Nobbyaushb: Kann es sein, das die Install-ISO eine Macke hat? Welche Version verwendest du denn genau? Ich kann mich erinnern, das eine der ISO aus dem VLSC mal defekt war und die merkwürdigsten Dinge verursacht hatte. Wenn der Host selber eine Macke hat... Sonst ggf. mal ein (kostenpflichtiges...) Ticket bei MS aufmachen Ist tatsächlich eine ISO aus dem VLSC, allerdings sind damit alle Hosts und VMs installiert und "nur" 3 von 4 RDSH machen die Probleme, alles andere läuft ohne Auffälligkeiten. Das letzte Mal als ich ein Ticket bei MS aufgemacht hatte, verlief das auch nach einigen Wochen im Sand, eine Möglichkeit wäre es aber schon noch. Zitieren Link zu diesem Kommentar
Weingeist 159 Geschrieben 28. Februar 2022 Melden Teilen Geschrieben 28. Februar 2022 vor einer Stunde schrieb illumina7: Aus dem Grund läuft ja ein Teil der Programme als Remoteapp über einen extra Server, aber ich verstehe deinen Punkt. Nur frisst bei uns auch nichts den Arbeitsspeicher auf, im Gegenteil, der ist eigentlich selbst wenn 20-25 User auf einer Maschine arbeiten weit vom zugeteilten Maximum entfernt. Wie wird den der freie Arbeitspeicher angezeigt im Ressourcenmonitor? frei, geändert, standby? Jener der im Standby ist, wird im Taskmanager z.Bsp. als frei angzeigt, nicht jedoch im Ressourcenmonitor. So 100% weiss ich nicht mehr wie er mir damals angzeigt wurde, müsste ich bei der Installation vorbeigehen. Ich meine der verwendete Speicher war Standby der nicht freigeschaufelt wurde. Der effektiv freie ging damals gegen 0 soweit ich mich erinnere und das schmeckte Windows irgendwann nicht mehr. Könnte im Grunde auch die NTFS-Timeouts erklären, darum reite ich drauf rum. Die VM würde anfangen im Page-File rumzuwursteln. Sprich Paging innerhalb der VM, Paging auf dem Host und dann geht nix mehr in der VM. Noch was anderes, RAM hat die RDS-VM exklusiv zu Verfügung? Host 4 nicht zufällig ohne Überbuchung oder viel Reserven und die anderen mit Überbuchung/wenige Reserven? (Geht das überhaupt bei HyperV? --> Sorry hab nur ESXi) Ansonsten bin ich dann auch eher ratlos. Mal die VM's zwischen den Hosts getauscht? Also VM von Host 4 auf 3 und anders rum? (Sorry hab jetzt nicht mehr alles gelesen) Zitieren Link zu diesem Kommentar
illumina7 3 Geschrieben 11. April 2022 Autor Melden Teilen Geschrieben 11. April 2022 Moin @Weingeist sorry für die späte Anwort, aber war die letzten Wochen privat voll eingespannt und hatte absolut keine Zeit nebenher (Hauskauf und Sanierung :D). So sieht jetzt aktuell der Ressourcenmonitor eines RDSH aus: Überbuchung habe ich aktuell tatsächlich keine, Zuweisung ist derzeit vCPUs 1:1 (obwohl unter Hyper-v 1:2 bis 1:4 kein Problem sein sollte; hab auch gelesen, dass bis 1:8 möglich ist, aber vom Workload abhängig, ohne jetzt eigene Erfahrungen damit zu haben), Ram ist bei zwei RDSH exklusiv und bei 2 weiteren dynamisch (aber limitiert), hatte ich zwischenzeitlich aber auch mehrfach umgestellt. Selbst wenn der Ram in den VMs bis ans Limit belegt wird, gibts aber noch keine Überbuchung und die Hosts haben noch ca. 10% Reserve Ram zur Verfügung (also ca. 38GB pro Host). Verschoben hab ich die VMs schon in alle Richtungen. Storage geändert, Hosts getauscht, alles auf einem Host usw., da der Fehler immer sehr schnell auftritt (1-7 Tage Laufzeit der RDSH VMs), weiß ich auch sehr schnell ob sich was geändert hat. Durch die täglichen Reboots der RDSH ist der Fehler aktuell nicht mehr aufgetreten, Idealzustand ist das allerdings nicht. Über Reddit habe ich zufällig noch einen andern Sysadmin gefunden, der exakt das gleiche Problem in seiner RDSH Farm hat, die aber vorher 2 Jahre fehlerfrei lief. Wir stehen auch im Austausch, vielleicht können wir gemeinsam den Fehler eingrenzen. Zitieren Link zu diesem Kommentar
Weingeist 159 Geschrieben 11. April 2022 Melden Teilen Geschrieben 11. April 2022 Und hier siehst ziemlich gut was ich meine, es ist sehr viel Speicher im Standby. Effektiv frei ist rund 1500 MB. Das ist nicht sehr viel auf 32GB gerechnet. Wenn Du nun eine Anwendung hast, welche das saubere Freiräumen ihres Standby-Speichers verhindert, dann beginnt das Theater sobald mehr angefordert wird. Die Maschine beginnt zu swappen und alles bricht zusammen. Vielleicht kannst Du versuchen den effektiv freien Arbeitsspeicher zu protokollieren oder regelmässig selber für eine Maschine prüfen. Wenn dieser immer kleiner wird bis es zum Absturz führt, dann weisst, dass es dieses Problem ist. Dann beginnt die Suche nach dem Verursacher des Speicherlecks. Habe auch schon gehört, dass die Nutzung von Remote-Apps hier Besserung bringen kann. Weil dann nur die Remote-App-Maschine neugestartet werden muss, nicht jedoch der RDSH auf welchen sich die User verbinden. Fragt sich dann, was insgesamt einfacher ist. ;) Zitieren Link zu diesem Kommentar
illumina7 3 Geschrieben 11. April 2022 Autor Melden Teilen Geschrieben 11. April 2022 Hab schon verstanden auf was du hinaus wolltest bezühlich Arbeitsspeicher im Standby, ich werde das mal weiter beobachten, wie sich das so im Laufe des Tages verhält. Die RDSH VMs stürzen halt nicht im eigentlichen Sinn ab, sondern trennen die Verbindungen zur den User Profile Disks, die auf einem Fileserver liegen. Gibt keinen BSOD oder sonst einen aufschlussreichen Logeintrag. Ich werde mal bei einer VM den daily Reboot pausieren und mir den Ram anschauen, wenn die Sessions getrennt sind. Remote-Apps auf Terminalserver sind halt nur bedingt gut nutzbar, da ich die innerhalb der RDSH nicht als default-Anwendung festlegen kann (anders als auf einer Workstation, wo das funktioniert). D.h. Office z.B. kann ich nicht als Remote-App nutzen. Derzeit sind Anwendungen als Remote-App ausgelagert wie Acrobat Pro oder ein CAD Programm, Energieberater, etc., die nur einige wenige User nutzen. Ich sehe aber dass die Citrix Workspace-App viel Ram im Standby reserviert ggf. kann ich die in eine Remoteapp auslagern, das muss ich aber erst mal Testen. Zitieren Link zu diesem Kommentar
Nobbyaushb 1.472 Geschrieben 11. April 2022 Melden Teilen Geschrieben 11. April 2022 vor 2 Minuten schrieb illumina7: Hab schon verstanden auf was du hinaus wolltest bezühlich Arbeitsspeicher im Standby, ich werde das mal weiter beobachten, wie sich das so im Laufe des Tages verhält. …. Ich werde mal bei einer VM den daily Reboot pausieren und mir den Ram anschauen, wenn die Sessions getrennt sind. Das heißt, die User melden sich nicht richtig ab? Kann man auch erzwingen… Zitieren Link zu diesem Kommentar
illumina7 3 Geschrieben 11. April 2022 Autor Melden Teilen Geschrieben 11. April 2022 vor 19 Minuten schrieb Nobbyaushb: Das heißt, die User melden sich nicht richtig ab? Kann man auch erzwingen… Habe ich inzwischen auch einstellt, aber der Fehler tritt ja meistens während der Arbeitszeit auf, ändert also leider nichts am Kernproblem. Zitieren Link zu diesem Kommentar
Weingeist 159 Geschrieben 11. April 2022 Melden Teilen Geschrieben 11. April 2022 Ist ja nicht gesagt, das es hier wirklich das Problem ist. Aber ausschliessen oder bestätigen kannst es mit dem Monitoring des effektiv freien Arbeitsspeichers. Das ist es ja gerade, die Maschinen an sich werden kaum abstürzen, aber alles wird grottenlahm und Prozesse welche auf eine gewisse Antwortzeiten angewiesen sind, verweigern den Dienst sobald das swapping exzessiv wird. Manchmal hiflt es nur die entsprechenden Prozesse abzuschiessen, manchmal nicht. Manchmal hilfts den Arbeitsspeicher zu erhöhen und den Zeitpunkt hinauszuzögern und die Chance steigt, das freigeschauftelt wird, manchmal nicht. Halt oft sehr mühsam dem Problem richtig beizukommen. Insbesondere wenn eben Code in verschiedenen Software genutzt wird, wie Office-Funktionialität in anderen Programmen. Da wird das vollständige entladen gerne mal verhindert weil Office selbst halt auch meistens irgendwie offen ist. Zitieren Link zu diesem Kommentar
StefanA 0 Geschrieben 21. April 2022 Melden Teilen Geschrieben 21. April 2022 Moin Zusammen, ich wollte mal kurz meinen Status melden. Bei uns haben einige Leute Mittags immer Browsergames gespielt. Dabei war die CPU Auslastung (Speicher sah "normal" aus) recht hoch und der Fehler trat auf. Den Leuten ist das jetzt untersagt und seit dem Laufen die beiden Maschinen. Allerdings werden diese Nachts immer noch rebootet. Eigentlich möchte ich den reboot auch beibehalten, da ich hier keine Nachteile sehe. Gruß Stefan Zitieren Link zu diesem Kommentar
cj_berlin 1.323 Geschrieben 21. April 2022 Melden Teilen Geschrieben 21. April 2022 vor 17 Minuten schrieb StefanA: Eigentlich möchte ich den reboot auch beibehalten, da ich hier keine Nachteile sehe. Klar, bei Citrix ist der orchestrierte Reboot der Worker seit Äonen ein Produkt-Feature. Zitieren Link zu diesem Kommentar
illumina7 3 Geschrieben 21. April 2022 Autor Melden Teilen Geschrieben 21. April 2022 vor einer Stunde schrieb StefanA: Moin Zusammen, ich wollte mal kurz meinen Status melden. Bei uns haben einige Leute Mittags immer Browsergames gespielt. Dabei war die CPU Auslastung (Speicher sah "normal" aus) recht hoch und der Fehler trat auf. Den Leuten ist das jetzt untersagt und seit dem Laufen die beiden Maschinen. Allerdings werden diese Nachts immer noch rebootet. Eigentlich möchte ich den reboot auch beibehalten, da ich hier keine Nachteile sehe. Gruß Stefan Das ist die CPU Auslastung über die letzten 35 Tage, exemplarisch an einem der RDSH, erfasst über checkmk: Websites sind bei uns reguliert über pfblockerNG, d.h. Browsergames sind eher unwahrscheinlich. PS: ich habe vielleicht die Ursache bzw. das Problem gefunden, aktuell bin ich noch am Testen an einem RDSH, den ich dafür aus dem Produktivbetrieb entfernt hab. Aktuell 10 Tage ohne UPD Disconnect (und ohne Reboot). Ab kommenden Montag schalte ich diesen wieder in den Produktivbetrieb und beobachte weiter. Wenn der Fehler wirklich behoben sein sollte, dann werde ich das hier auch ausführlich beschreiben. Zitieren Link zu diesem Kommentar
Empfohlene Beiträge
Schreibe einen Kommentar
Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.