Warum RAID zur Datensicherheit?

NorbertFe · 12. Januar

vor 10 Stunden schrieb Hellwege:

Unsere Maschinen laufen 24/7/365

Achsoooooo, naja bei uns anderen natürlich nicht. ;)

cj_berlin · 12. Januar

Moin,

spannende Diskussion - MTBF-Theorie trifft jahrzehntelange Praxis :-)

Meine Erfahrung ist, zumindest im Bereich der drehenden Spindel, auch die, dass

die Controller die Platten meistens deutlich überleben,
Markenhersteller die Controller durch baugleiche binnen 4-8h ersetzen, wenn der Supportvertrag das vorschreibt (hatte mal einen DELL-Mitarbeiter in einem 7er BMW an Heiligabend auf den Hof fahren - war das einzige Auto im Pool), und
die besseren Controller die Config auch auf den Platten verewigen, so dass der neue baugleiche Controller sie automatisch erkennt und anwendet.

Davon abgesehen: Eine MTBF von 300.000h läuft auf 34 Jahre hinaus. Klar, "M"="Mean", aber ein Mittelwert dieser Größenordnung bedeutet doch, dass

dies niemals empririsch bestimmt worden ist und eher aus dem Kaffeesatz gelesen wurde
es mehrere Möglichkeiten gibt, diesen Wert zu erreichen. Bei Elektronik (Controller oder SSD) würde ich eher auf "entweder geht sofort kaputt oder hält ewig" tippen, bei drehenden Platten evtl. doch auf eine etwas gleichmäßigere Verteilung.

bearbeitet 12. Januar von cj_berlin

teletubbieland · 12. Januar

Mir ist da noch eine Geschichte aus der Zeit in der IBM noch Server herstellte eingefallen:
Bei einem Kunden sind die HDDs im Server wild alternierend im 2 Monatstakt ausgefallen.

Nach der 6. Platte kontaktierte mich IBM weil auch ihnen das seltsam vorkam.

Das Ende vom Lied war, dass in dem Gebäude des Kunden die 4 Stromadern des Hausansclusses zu 3 zusammengelegt wurden (war in den 80ern wohl üblich.

Seit der sauberen Schaltung gab es auch keine Probleme mehr.

Also evtl. habt Ihr ein ganz anderes Problem als komische RAID Controller.

Hellwege · 13. Januar

vor 15 Stunden schrieb cj_berlin:

Moin,

spannende Diskussion - MTBF-Theorie trifft jahrzehntelange Praxis

Meine Erfahrung ist, zumindest im Bereich der drehenden Spindel, auch die, dass

die Controller die Platten meistens deutlich überleben,

Markenhersteller die Controller durch baugleiche binnen 4-8h ersetzen, wenn der Supportvertrag das vorschreibt (hatte mal einen DELL-Mitarbeiter in einem 7er BMW an Heiligabend auf den Hof fahren - war das einzige Auto im Pool), und

die besseren Controller die Config auch auf den Platten verewigen, so dass der neue baugleiche Controller sie automatisch erkennt und anwendet.

Davon abgesehen: Eine MTBF von 300.000h läuft auf 34 Jahre hinaus. Klar, "M"="Mean", aber ein Mittelwert dieser Größenordnung bedeutet doch, dass

dies niemals empririsch bestimmt worden ist und eher aus dem Kaffeesatz gelesen wurde

es mehrere Möglichkeiten gibt, diesen Wert zu erreichen. Bei Elektronik (Controller oder SSD) würde ich eher auf "entweder geht sofort kaputt oder hält ewig" tippen, bei drehenden Platten evtl. doch auf eine etwas gleichmäßigere Verteilung.

Sorry, aber die Mtbf wird herstellerseitig in der Regel empirisch bestimmt. Ca. 1000 Untersuchsobjekte laufen Wochen. Dann werden die Ausfallraten berechnet.

zahni · 13. Januar

Und ganz allgemein kauft man Server von bekannten Herstellern. Compaq hat irgendwann damit angefangen, die RAID-Konfiguration nur noch auf allen angeschlossenen Datenträgern zu speichern. Das wurde zu HPE rübergerettet und in ähnlicher Form von vielen Herstellern übernommen. Solche Hersteller garantieren eine lange Ersatzteilversorgung. Vorausgesetzt, man benutzt auch die Datenträger des Herstellers, lassen sich diese Datenträger oft auch an neuere Controller hängen, um z.B. Daten zu migrieren. Ausfälle hatte ich hier selten. Fast nur bei den Akkus des Cache-Moduls. Die blähten sich gern mal auf.

NilsK · 13. Januar

Moin,

Am 12.1.2025 um 09:45 schrieb cj_berlin:

Davon abgesehen: Eine MTBF von 300.000h läuft auf 34 Jahre hinaus. Klar, "M"="Mean", aber ein Mittelwert dieser Größenordnung bedeutet doch, dass

dies niemals empririsch bestimmt worden ist und eher aus dem Kaffeesatz gelesen wurde

vor 15 Stunden schrieb Hellwege:

Sorry, aber die Mtbf wird herstellerseitig in der Regel empirisch bestimmt. Ca. 1000 Untersuchsobjekte laufen Wochen. Dann werden die Ausfallraten berechnet.

noch mal in Ruhe lesen. Eine berechnete Ausfallrate ist ja eben keine empirische.

Gruß, Nils

t-sql · 13. Januar

@Hellwege Mir kommts bisserl so vor als ob du deine Hardware solange laufen lässt bis sie kaputt geht. Also weit über der Support/Garantie Zeit hinaus. Logisch das dann die Verfügbarkeit sinkt bzw. nicht mehr vorhanden ist. Im Profibereich wird die Hardware nach Ablauf des Supports/Garantie getauscht. Schließlich ist ein gscheiter Support mit entsprechender Reaktions-/Entstörzeit essentiell im Profibereich. Da solltest besser ansetzen.

Weingeist · 15. Januar

Am 13.1.2025 um 17:06 schrieb NilsK:

noch mal in Ruhe lesen. Eine berechnete Ausfallrate ist ja eben keine empirische.

Empirisch bekommt man von einem bekannten Blogger der in einem riesigen Betrieb arbeitet und die Herstellermodelle statistisch erfasst. Auf die schnelle kontne ich das leider nicht finden. :( Das hat - gelinde ausgedrückt - wenig mit den MTBF zu tun. Habe aber doch schon HDD's mit über 20 Jahren Einsatz gesehen. Oft ist es so, überstehen sie mal 5 Jahre, dann laufen sie weiter, überstehen aber nicht unbedingt einen Neustart (Neustart im Sinne von Strom ist weg). :smile2:

Ansonsten meine Erfahrung: RAID-Controller Ja/Nein:

Spindeln: klares JA. Geschwindigkeit, sinnvoll für Read/Write Cache, HDD's fallen eh vorher aus.
Qualitäts SSDs : Ausserhalb SAN ein genau so klares nein (Storage Spaces macht das viel zu gut wenn man weiss wie SP arbeitet). Weniger Speed, höhere Ausfallwahrscheinlichkeit durch SPOF, Write/ReadCache wird i.d.R. sowieso übergangen, heisst bei Stromausfall = Sache der SSD weil die Anweisung von Windows ignoriert wird, TRIM funktioniert oft nicht wirklich hinter einem Controller usw.

Früher hatte ich nie Ausfälle eines Controllers, weder bei Adaptec noch LSI noch (fällt mir grad nicht ein) in der jüngeren Vergangenheit (letzte 10 Jahre) allerdings doch eine unnatürlich Häufung seit LSI übernommen wurde. Was aber nichts heissen soll, weil ich nicht tausende Geräte brauche aber doch genug und von verschiedenen Serien. ABER: üblicherwiese ist die "feindliche" Raid-Konfig-Übernahme durch einen neuen Controller unproblematisch. Zumindest bei Windows. ;-)

zahni · 15. Januar

vor 21 Minuten schrieb Weingeist:

Qualitäts SSDs

Es gibt schon von HPE Controller, die deren SSD vollständig unterstützen. Dafür gibt es Kompatibilitätslisten, an die man sich halten muss. Diese Datenträger haben dann oft auch eine angepasste Firmware.

In unseren HPE ESXI-Servern haben wir 2 SSD im RAID 1 und über Jahre keinen Ausfall gehabt.

Bei den SSD unserer AFF400 ist bisher auch noch keine SSD ausgefallen.

MurdocX · Mittwoch um 17:34

vor 5 Stunden schrieb zahni:

In unseren HPE ESXI-Servern

Ihr habt dafür andere Probleme *fg

(wir auch)

zahni · Mittwoch um 18:47

vor einer Stunde schrieb MurdocX:

hr habt dafür andere Probleme *fg

Ja, aber nicht damit.

Weingeist · Donnerstag um 09:05

vor 20 Stunden schrieb zahni:

In unseren HPE ESXI-Servern haben wir 2 SSD im RAID 1 und über Jahre keinen Ausfall gehabt.

Bei den SSD unserer AFF400 ist bisher auch noch keine SSD ausgefallen.

Das ist aber für das Bootlaufwerk des Systems. Da ist es ja die einzige (sinnvolle) Möglichkeit ausserhalb von SAN-Boot. Sinnvoll weil in der Regel langlebiger als SD-Cards. Und mit ESXi bekommt man Software-RAID auch nur mit Storage-VM's hin oder mit vSAN. Für die Daten.

Die konkreten Firmware-Anpassung beschränkt sich bei modernen SSD's auf die Änderung der Menge an nicht verwendeten Speichermodulen (Überkapazität) sowie den Vendor-Lock. Die Zeit der tatsächlich angepassten Firmware durch die OEM-Hersteller ist schon Jahre vorbei. Selbst im SAN Bereich ist das meist nur noch auf Ihrer Speicherebene und nicht auf den Datenträger selbst der Fall. Es wird von den Herstellern der SSDs lediglich ein paar konfigurierbare Features bereit gestellt die dann teilweise genutzt werden. Angepasste Firmware gibt es meines Wissens nur noch für die Big-Player wie Amazon, Meta oder Google und deren hochspezifischen Anwendungszwecke. Überall wo mit Standardware gearbeitet wird, ist das grundsätzlich vorbei. Ein OEM-Hersteller möchte X-beliebige Speicher von xbeliebigen Hersteller einsetzen und möglichst wenig Effort betreiben diese in ihrem System zum laufen zu bringen. Sprich den Kunden möglichst billig an sich binden und somit überteuerte Ware verkaufen. (Grosskunden bekommen die HDD/SSD's ungefähr zum Retail Preis für Private von Gross-Online-Händlern, alleine diese Tatsache entlarvt schon die Farce der angepassten Firmware).

Hardware-RAID

Ein abschalten des Write Cache wie das bei Magnetplatten üblich ist und der Hauptgrund für die Verwendung eines spezifischen RAID-Controllers gegenüber einem Software RAID ist, würde z.B. praktische jede moderne SSD völlig unberechenbar machen. Insbesondere bei MLC. Das Commit des erfolgreichen Schreibvorgangs kommt daher vor dem effektiven Schreibvorgang. Aus diesem Grund ignorieren die Controller auch den eigenen Cache bei SSD's. Er bringt einfach keinen Mehrgewinn sondern nur eine zusätzliche Fehler-Schicht. Die SSD's brauchen eigene Mechanismen. Deshalb ist es insbesondere im RAID-Verbund auch wichtig, funktionierende Kondis auf den SSD's zu haben welche die Stromversorgung bei Stromunterbruch sicherstellen. Aus diesem Grund kann man sich die Frage stellen ob der Controller nicht auch einfach nur ein zusätzlicher SPOF ist und ob es nicht oft mehr Sinn macht und allenfals auch zuverlässiger ist, wenn das Dateisystem/OS die Aufgabe des RAID übernimmt. Es macht im Grund das Gleiche wie auch ein RAID-Controller nur ohne zusätzliche Hardware/Software und teilweise auch besser weil es die Mechanismen mit dem Filesystem verzahnt. Zum Beispiel mit Copy on Write. Flexibler auf die eigenen Bedürfnisse angepasst ist es sowieso.

Anmelden

Warum RAID zur Datensicherheit?

Empfohlene Beiträge

NorbertFe 2.104

Link zu diesem Kommentar

cj_berlin 1.358

Link zu diesem Kommentar

teletubbieland 185

Link zu diesem Kommentar

Hellwege 0

Link zu diesem Kommentar

zahni 561

Link zu diesem Kommentar

NilsK 2.971

Link zu diesem Kommentar

t-sql 20

Link zu diesem Kommentar

Weingeist 159

Link zu diesem Kommentar

zahni 561

Link zu diesem Kommentar

MurdocX 957

Link zu diesem Kommentar

zahni 561

Link zu diesem Kommentar

Weingeist 159

Link zu diesem Kommentar

Schreibe einen Kommentar

Menu

Aktivitäten