Bei Speicher Migration geht Performance des kompletten Clusters in die Knie

fireblade2000 · 7. Januar 2013

Hi,

wir haben hier nen Hyper-V Cluster mit 3 2K8R2 Datacenter Servern. Dazu drei Storages: 1x DELL Equallogic (10GBit) und 2x normale iSCSI Storages (1GBit)

Netzwerk ist nach BestPractice und derzeit mögliche Anzahl an Netzwerkkarten Konfiguriert. Heißt:

4 LANs:

1x iSCSI

1x LAN Normal + Host

1x Live Migration

1x CSV Heartbeat

Dazu noch einen Server mit SCVMM 2008 R2.

Zum Problem: Verschieb ich beispielsweiße eine Maschine von Volume 1 nach Volume 2 oder Erstelle eine neue VHD mit fixed Size, geht in derzeit eigentlich genau gar nix mehr. Alle Maschine sind sau lahm. Ewige Sanduhren. Auch die VMs welche auf dem Volume 3 (EQUALLogic) liegen.

Ich finde jedoch nirgens eine zu Hohe Auslastung beispielsweise langweilen sich die Netzwerkschnittstellen der Storages oder der Hyper-V Host obwohl eigentlich eine Speichermigration läuft.

Hab ich hier irgendwo eine Fehler oder muss noch etwas eingestellt werden!? Einzig wo ich vielleicht ansetzen könnte: Ich hab ja eine eigene Netzwerkschnittstelle für Live Migration, wird diese auch bei einer SpeicherMigration benutzt!? Weil das wäre ja falsch hier sollte er ja das Netz iSCSI nutzen..., muss das vielleicht auch noch für Live Migration aktiviert werden!?

Zweite Überlegung von mir wäre noch. Wo läuft die Migration eigentlich ab!? Macht das der SCVMM Server oder die Hyper-V Host selber!? Schon die Hosts oder nicht? Mein SCVMM ist ja nur mit einer normal 1GBit Netzwerkkarte ans LAN angebunden.

Über irgendwelche Tipps wäre ich dankbar

bearbeitet 7. Januar 2013 von fireblade2000

Necron · 7. Januar 2013

Hi,

mit wie vielen NICs sind die iSCSI Targets an das Netz angebunden? Wie viele VMs laufen bei euch? Hast du schon das Performance Monitoring laufen lassen?

Windows Server 2008 R2 unterstützt zum Beispiel kein ODX, daher fällt hier die Last bei Aufgaben, die das SAN erfüllen könnte, auf die Virtualisierungshost zurück.

fireblade2000 · 7. Januar 2013

Die Hosts und die Equallogic sind mit je zwei 10GBits angebunden, die 2 anderen iSCSI Storages nur mit einer 1GBit.

Es laufen ca. 30 VMs

Was genau ist bzw. wie genau meinst Du Performance Monitoring laufen lassen?

Mir ist diese Verhalten jedoch auch schon damals aufgefallen und da waren es vielleicht 10 VMs. Ist also schon von anfang an, bzw. da dachte ich das liegt an den alten Storages.

EDIT: Obwohl ich dazu sagen muss... mir fällt gerade ein letzte Woche musste ich eine Datei (400GB) von dem Volume 2 (also 1GB iSCSI Target) auf meine Festplatte kopieren und das hat fast 20 Stunden gedauert...

Eventuell sollte ich dann das ganze mal Hyper-V unabhängig betrachten und die eigentlich Performance von der Anbindung der Storages mal prüfen. Habt ihr ne Idee wie ich das am besten messen kann? Oder Per Stoppuhr ne Datei kopieren

mmmh also wenn ich von einem Hyper-V Host eine Datei auf mein Storages schiebe. Bsp 1GB Datei auf C:\ClusterStorage\Volume2 und C:\ClusterStorage\Volume3 dann geht das innerhalb von Sekunden. ABER über die CSV-HEARTBEAT NIC und da zu 100% Auslastung. Schieb ich etwas von meinem Rechner über die Freigabe \\HYP3\c$\ClusterStorage\Volume2 auf das Storage geht es ebenfalls über die CSV Heartbeat NIC aber sehr langsam und mit ständiger Unterbrechung (siehe Bild)

Ist hier der Hund falsch begraben!? Sollte das ganze nicht über meine iSCSI NIC gehen? Oder muss/ist die CSV Heartbeat NIC und die iSCSI NIC die gleiche sein?

bearbeitet 7. Januar 2013 von fireblade2000

Necron · 7. Januar 2013

Was genau ist bzw. wie genau meinst Du Performance Monitoring laufen lassen?

Systemsteuerung=>Verwaltung=>Leistungsüberwachung

Es sollte nicht über das Netzwerk für den CSV Heartbeat gehen.

Hier mal ein HowTo: http://www.hyper-v-server.de/hypervisor/hyper-v-server-2008-r2-netzwerk-und-cluster-konfiguration/

fireblade2000 · 7. Januar 2013

Im groben hab ich es auf jedenfall mal ähnlich gemacht. Ich geh es aber im Detail genau durch. Irgendwas muss ja hier faul sein.

Also darf ein normaler CopyJob definitiv nicht übers Heartbeat gehen wenn ich alles richtig eingestell habe, korrekt?

bearbeitet 7. Januar 2013 von fireblade2000

Necron · 7. Januar 2013

Steht alles in dem HowTo. ;)

fireblade2000 · 7. Januar 2013

Naja über Speicher Migration steht in dem Artikel nix,... ;) sonst hät ich ja nicht gefragt.

Aber egal ich geh das ganze erstmal punkt für punkt durch. Server Nr.1 ist schon im Wartungsmodus, dennoch mach ich jetzt erstmal Feierabend und geh trainieren...

Lian · 7. Januar 2013

Was sind das für Server und welche NICs kommen zur Verwendung?

Klingt nach Onboard NICs, die Bandbreite ist hier groß und es ist auch Luft nach oben bis hin zu echten iSCSI HBAs.

Zum Testen kannst Du div. workloads über iometer abbilden: http://www.iometer.org/

fireblade2000 · 8. Januar 2013

Das sind drei DELL PowerEdge M610 Server mit 48GB RAM und zwei E5620 CPUs.

dazu zwei Boardcom BCM57095 1GBit Karten (eine Onboard) mit je zwei Ports sowie einer Broadcoam BCM57711 10GBit Karte mit zwei Ports.

Das ganze ist dann an einem 10GB Backbone mit zwei Active/Active DELL PowerConnect 10GBit Switches angebunden, an dem dann die Equallogic dran hängt. Die alten iSCSI Storages hängen hier jeweils an einem Port eines 10GBit Switches da diese ja nur ein 1GBit Port haben.

bearbeitet 8. Januar 2013 von fireblade2000

NilsK · 8. Januar 2013

Moin,

ohne es jetzt in der Tiefe analysiert zu haben, klingt das für mich nach Redirected I/O Mode im CSV (Cluster-Shared Volume). Kurz gesagt: Bei bestimmten datenträgernahen Aktivitäten muss Hyper-V in den Redirected Mode umschalten, in dem ALLE Speicherzugriffe sämtlicher VMs nicht mehr über die SAN-Verbindung laufen, sondern über die normalen Netzwerkverbindungen des CSV Coordinator Node. Das führt dann zu dem Leistungsverhalten, das du beschreibst.

http://www.faq-o-matic.net/2011/10/26/hyper-v-csv-vss-speicher-und-backup-voraussetzungen/

In Windows Server 2012 ändert sich das Verhalten für die meisten Szenarien. Ob deines dazugehören würde, kann ich so ohne Weiteres nicht beurteilen.

Schöne Grüße, Nils

bearbeitet 8. Januar 2013 von NilsK

fireblade2000 · 8. Januar 2013

klingt zumindest mal nach meinem Verhalten.

Hiese das im Groben: Umsteigen auf 2012 oder würde man die Problematik vielleicht beheben, wenn ich das dann gleich berücksichtige.

Weil ich sowieso 2013/2014 auf eine komplette neue Server Hyper-V Farm samt neuem Netzwerkmodell umsteigen will

EDIT: Also wenn ich den Faq-o-matic Artikel lese wird mir fast schlecht...

das klingt ja genau nach meinem Verhalten..., es wird ja z.B. empfohlen keine dynamische VHDs zu benutzen. Ich benutzte gerade wegen dem dynamische. Weil wenn ich eine Fixed VHD mit z.B. 500GB anlegen, dann wird beim Erstellen für die nächsten 3-4 Stunden meine Farm sau lahm. Bei einer dynamischen wird ja nur das angelegt was verbraucht wird und ist somit da ohne meine Farm zu bremsen.

Somit beißt sich die Ratte in den eigenen Schwanz...

bearbeitet 8. Januar 2013 von fireblade2000

Lian · 8. Januar 2013

Daher meine Frage nach den NICs.

EDIT: Obwohl ich dazu sagen muss... mir fällt gerade ein letzte Woche musste ich eine Datei (400GB) von dem Volume 2 (also 1GB iSCSI Target) auf meine Festplatte kopieren und das hat fast 20 Stunden gedauert...

Eventuell sollte ich dann das ganze mal Hyper-V unabhängig betrachten und die eigentlich Performance von der Anbindung der Storages mal prüfen. Habt ihr ne Idee wie ich das am besten messen kann? Oder Per Stoppuhr ne Datei kopieren

Deine Frage nach einem Test und einer Analyse ist ein guter Ansatz, iometer und netio werden genauere Aussagen zur Performance (Netzwerk, Storage) erlauben.

M.E. hast Du ein Problem mit den Nodes, und das vermutlich unabhängig von CSV oder Clustering.

Ob das durch ein reines Upgrade auf 2012 von selbst verschwindet...?

fireblade2000 · 8. Januar 2013

Also her mit iometer..., hat mir jemand ein paar Testideen wie ich das am besten angehe oder soll ich mal selber probieren

M.E. hast Du ein Problem mit den Nodes, und das vermutlich unabhängig von CSV oder Clustering.

Ob das durch ein reines Upgrade auf 2012 von selbst verschwindet...?

Ein reines Upgrade gibt es ja nicht, das werden komplett neue Maschinen, auch nicht mehr in einem Bladecenter und mit beliebiger Anzahl an Netzwerkkarten. Deswegen wäre es ja sogar wichtig mein Problem zu analysieren, dann mach ich es in der neuen Farm gleich richtig. Diese hier war ja mehr als Einstieg in die Thematik Hyper-V gedacht. Aber wie so alles wächst es halt doch recht schnell und wird immer wichtiger.

bearbeitet 8. Januar 2013 von fireblade2000

NilsK · 8. Januar 2013

Moin,

Hiese das im Groben: Umsteigen auf 2012 oder würde man die Problematik vielleicht beheben, wenn ich das dann gleich berücksichtige.

nein, so einfach sollte man das nicht sehen. Zum einen ist bei den von dir genannten Werten vermutlich tatsächlich noch Weiteres im Busch, wie Lian schon vermutet. Zum anderen ist doch die Frage, warum du dein System so oft in den Redirected Mode zwingst. Wenn du ständig VMs von einem Volume aufs andere verschiebst, scheint mir eher das Design nicht zu stimmen.

Darüber hinaus zeigt Aidans Whitepaper ja gerade auf, wie man CSV so designen kann, dass man den Redirected Mode möglichst vermeidet.

Bezüglich Dynamic VHD: Für die meisten Applikationen ist das ohnehin "not recommended", wenn nicht sogar "unsupported".

Schöne Grüße, Nils

fireblade2000 · 8. Januar 2013

ok also erstmal Testen und analysieren...

@NilsK: Nein wir verschieben nicht ständig Volumes auf andere Storages, sondern ziehen alt auf neu um und dabei ist mir das ganze aufgefallen und hab es deswegen erstmal gebremst bzw. nur nachts gemacht.

Neu ist das mir die Probleme nun auch beim Erstellen von Fixed VHDs (da man ja gelernt hat keine dynamischen mehr zu nehmen) auffallen und normales Kopieren vom CSV ewig dauert. Deswegen hab ich diesen Thread eröffnet weil das nicht normal sein kann.

Weil wie soll ich z.B. künftig auf Fixed VHDs umsteigen wenn allein das Erstellen meine Farm darnieder legt.

Also, muss ich das jetzt irgendwie mal analysieren und nochmal die Konfig Anhand dem Link von Necron durchgehen und das Whitepaper von Aidan lesen... viel zu tun (nebenher)

EDIT: Kleine Verständisfrage: Du schreibst wenn ich mein System in den Redirected Mode zwinge: Heißt das wenn ich VSS nutze oder eine Maschine verschiebe ist das normal das es so ist? Wäre für mein Verständnis mal ne wichtige Frage.

bearbeitet 8. Januar 2013 von fireblade2000

Anmelden

Bei Speicher Migration geht Performance des kompletten Clusters in die Knie

Empfohlene Beiträge

fireblade2000 11

Necron 71

fireblade2000 11

Necron 71

fireblade2000 11

Necron 71

fireblade2000 11

Lian 2.558

fireblade2000 11

NilsK 2.996

fireblade2000 11

Lian 2.558

fireblade2000 11

NilsK 2.996

fireblade2000 11

Schreibe einen Kommentar

Menu

Aktivitäten