Jump to content

Warum RAID zur Datensicherheit?


Empfohlene Beiträge

Moin,

 

spannende Diskussion - MTBF-Theorie trifft jahrzehntelange Praxis :-)

 

Meine Erfahrung ist, zumindest im Bereich der drehenden Spindel, auch die, dass

  1. die Controller die Platten meistens deutlich überleben, 
  2. Markenhersteller die Controller durch baugleiche binnen 4-8h ersetzen, wenn der Supportvertrag das vorschreibt (hatte mal einen DELL-Mitarbeiter in einem 7er BMW an Heiligabend auf den Hof fahren - war das einzige Auto im Pool), und
  3. die besseren Controller die Config auch auf den Platten verewigen, so dass der neue baugleiche Controller sie automatisch erkennt und anwendet.

 

Davon abgesehen: Eine MTBF von 300.000h läuft auf 34 Jahre hinaus. Klar, "M"="Mean", aber ein Mittelwert dieser Größenordnung bedeutet doch, dass

  1. dies niemals empririsch bestimmt worden ist und eher aus dem Kaffeesatz gelesen wurde
  2. es mehrere Möglichkeiten gibt, diesen Wert zu erreichen. Bei Elektronik (Controller oder SSD) würde ich eher auf "entweder geht sofort kaputt oder hält ewig" tippen, bei drehenden Platten evtl. doch auf eine etwas gleichmäßigere Verteilung.
bearbeitet von cj_berlin
Link zu diesem Kommentar

Mir ist da noch eine Geschichte aus der Zeit in der IBM noch Server herstellte eingefallen:
Bei einem Kunden sind die HDDs im Server wild alternierend im 2 Monatstakt ausgefallen.

Nach der 6. Platte kontaktierte mich IBM weil auch ihnen das seltsam vorkam.

Das Ende vom Lied war, dass in dem Gebäude des Kunden die 4 Stromadern des Hausansclusses zu 3 zusammengelegt wurden (war in den 80ern wohl üblich.

Seit der sauberen Schaltung gab es auch keine Probleme mehr.

 

Also evtl. habt Ihr ein ganz anderes Problem als komische RAID Controller.

Link zu diesem Kommentar
vor 15 Stunden schrieb cj_berlin:

Moin,

 

spannende Diskussion - MTBF-Theorie trifft jahrzehntelange Praxis :-)

 

Meine Erfahrung ist, zumindest im Bereich der drehenden Spindel, auch die, dass

  1. die Controller die Platten meistens deutlich überleben, 
  2. Markenhersteller die Controller durch baugleiche binnen 4-8h ersetzen, wenn der Supportvertrag das vorschreibt (hatte mal einen DELL-Mitarbeiter in einem 7er BMW an Heiligabend auf den Hof fahren - war das einzige Auto im Pool), und
  3. die besseren Controller die Config auch auf den Platten verewigen, so dass der neue baugleiche Controller sie automatisch erkennt und anwendet.

 

Davon abgesehen: Eine MTBF von 300.000h läuft auf 34 Jahre hinaus. Klar, "M"="Mean", aber ein Mittelwert dieser Größenordnung bedeutet doch, dass

  1. dies niemals empririsch bestimmt worden ist und eher aus dem Kaffeesatz gelesen wurde
  2. es mehrere Möglichkeiten gibt, diesen Wert zu erreichen. Bei Elektronik (Controller oder SSD) würde ich eher auf "entweder geht sofort kaputt oder hält ewig" tippen, bei drehenden Platten evtl. doch auf eine etwas gleichmäßigere Verteilung.

Sorry, aber die Mtbf wird herstellerseitig in der Regel empirisch bestimmt. Ca.  1000 Untersuchsobjekte laufen Wochen. Dann werden die Ausfallraten berechnet.

Link zu diesem Kommentar

Und ganz allgemein kauft man Server von bekannten Herstellern. Compaq hat irgendwann damit angefangen, die RAID-Konfiguration nur noch auf allen angeschlossenen Datenträgern zu speichern. Das wurde zu HPE rübergerettet und in ähnlicher Form von vielen Herstellern übernommen. Solche Hersteller garantieren eine lange Ersatzteilversorgung.  Vorausgesetzt, man benutzt auch die Datenträger des Herstellers, lassen sich diese Datenträger oft auch an neuere Controller hängen, um z.B. Daten zu migrieren. Ausfälle hatte ich hier selten. Fast nur bei den Akkus des Cache-Moduls. Die blähten sich gern mal auf. 

 

Link zu diesem Kommentar

Moin,

 

Am 12.1.2025 um 09:45 schrieb cj_berlin:

Davon abgesehen: Eine MTBF von 300.000h läuft auf 34 Jahre hinaus. Klar, "M"="Mean", aber ein Mittelwert dieser Größenordnung bedeutet doch, dass

  1. dies niemals empririsch bestimmt worden ist und eher aus dem Kaffeesatz gelesen wurde

 

vor 15 Stunden schrieb Hellwege:

Sorry, aber die Mtbf wird herstellerseitig in der Regel empirisch bestimmt. Ca.  1000 Untersuchsobjekte laufen Wochen. Dann werden die Ausfallraten berechnet.

 

noch mal in Ruhe lesen. Eine berechnete Ausfallrate ist ja eben keine empirische.

 

Gruß, Nils

Link zu diesem Kommentar

@Hellwege Mir kommts bisserl so vor als ob du deine Hardware solange laufen lässt bis sie kaputt geht. Also weit über der Support/Garantie Zeit hinaus. Logisch das dann die Verfügbarkeit sinkt bzw. nicht mehr vorhanden ist. Im Profibereich wird die Hardware nach Ablauf des Supports/Garantie getauscht. Schließlich ist ein gscheiter Support mit entsprechender Reaktions-/Entstörzeit essentiell im Profibereich. Da solltest besser ansetzen.

Link zu diesem Kommentar
Am 13.1.2025 um 17:06 schrieb NilsK:

noch mal in Ruhe lesen. Eine berechnete Ausfallrate ist ja eben keine empirische.

Empirisch bekommt man von einem bekannten Blogger der in einem riesigen Betrieb arbeitet und die Herstellermodelle statistisch erfasst. Auf die schnelle kontne ich das leider nicht finden. :( Das hat - gelinde ausgedrückt - wenig mit den MTBF zu tun. Habe aber doch schon HDD's mit über 20 Jahren Einsatz gesehen. Oft ist es so, überstehen sie mal 5 Jahre, dann laufen sie weiter, überstehen aber nicht unbedingt einen Neustart (Neustart im Sinne von Strom ist weg). :smile2:

 

Ansonsten meine Erfahrung: RAID-Controller Ja/Nein:

  • Spindeln: klares JA. Geschwindigkeit, sinnvoll für Read/Write Cache, HDD's fallen eh vorher aus.
  • Qualitäts SSDs : Ausserhalb SAN ein genau so klares nein (Storage Spaces macht das viel zu gut wenn man weiss wie SP arbeitet). Weniger Speed, höhere Ausfallwahrscheinlichkeit durch SPOF, Write/ReadCache wird i.d.R. sowieso übergangen, heisst bei Stromausfall = Sache der SSD weil die Anweisung von Windows ignoriert wird, TRIM funktioniert oft nicht wirklich hinter einem Controller usw.

 

Früher hatte ich nie Ausfälle eines Controllers, weder bei Adaptec noch LSI noch (fällt mir grad nicht ein) in der jüngeren Vergangenheit (letzte 10 Jahre) allerdings doch eine unnatürlich Häufung seit LSI übernommen wurde. Was aber nichts heissen soll, weil ich nicht tausende Geräte brauche aber doch genug und von verschiedenen Serien. ABER: üblicherwiese ist die "feindliche" Raid-Konfig-Übernahme durch einen neuen Controller unproblematisch. Zumindest bei Windows.  ;-)

Link zu diesem Kommentar
vor 21 Minuten schrieb Weingeist:

Qualitäts SSDs

Es gibt schon von HPE Controller, die deren SSD vollständig unterstützen. Dafür gibt es Kompatibilitätslisten, an die man sich halten muss. Diese Datenträger haben dann oft auch eine angepasste Firmware.

In unseren HPE ESXI-Servern haben wir 2 SSD im RAID 1 und über Jahre keinen Ausfall gehabt.

Bei den  SSD unserer AFF400 ist bisher auch noch keine SSD ausgefallen. 

Link zu diesem Kommentar

Schreibe einen Kommentar

Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung jetzt entfernen

  Only 75 emoji are allowed.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor-Fenster leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

×
×
  • Neu erstellen...