NorbertFe 2.104 Geschrieben 12. Januar Melden Teilen Geschrieben 12. Januar vor 10 Stunden schrieb Hellwege: Unsere Maschinen laufen 24/7/365 Achsoooooo, naja bei uns anderen natürlich nicht. ;) 1 Zitieren Link zu diesem Kommentar
cj_berlin 1.358 Geschrieben 12. Januar Melden Teilen Geschrieben 12. Januar (bearbeitet) Moin, spannende Diskussion - MTBF-Theorie trifft jahrzehntelange Praxis Meine Erfahrung ist, zumindest im Bereich der drehenden Spindel, auch die, dass die Controller die Platten meistens deutlich überleben, Markenhersteller die Controller durch baugleiche binnen 4-8h ersetzen, wenn der Supportvertrag das vorschreibt (hatte mal einen DELL-Mitarbeiter in einem 7er BMW an Heiligabend auf den Hof fahren - war das einzige Auto im Pool), und die besseren Controller die Config auch auf den Platten verewigen, so dass der neue baugleiche Controller sie automatisch erkennt und anwendet. Davon abgesehen: Eine MTBF von 300.000h läuft auf 34 Jahre hinaus. Klar, "M"="Mean", aber ein Mittelwert dieser Größenordnung bedeutet doch, dass dies niemals empririsch bestimmt worden ist und eher aus dem Kaffeesatz gelesen wurde es mehrere Möglichkeiten gibt, diesen Wert zu erreichen. Bei Elektronik (Controller oder SSD) würde ich eher auf "entweder geht sofort kaputt oder hält ewig" tippen, bei drehenden Platten evtl. doch auf eine etwas gleichmäßigere Verteilung. bearbeitet 12. Januar von cj_berlin 2 Zitieren Link zu diesem Kommentar
teletubbieland 185 Geschrieben 12. Januar Melden Teilen Geschrieben 12. Januar Mir ist da noch eine Geschichte aus der Zeit in der IBM noch Server herstellte eingefallen: Bei einem Kunden sind die HDDs im Server wild alternierend im 2 Monatstakt ausgefallen. Nach der 6. Platte kontaktierte mich IBM weil auch ihnen das seltsam vorkam. Das Ende vom Lied war, dass in dem Gebäude des Kunden die 4 Stromadern des Hausansclusses zu 3 zusammengelegt wurden (war in den 80ern wohl üblich. Seit der sauberen Schaltung gab es auch keine Probleme mehr. Also evtl. habt Ihr ein ganz anderes Problem als komische RAID Controller. Zitieren Link zu diesem Kommentar
Hellwege 0 Geschrieben 13. Januar Autor Melden Teilen Geschrieben 13. Januar vor 15 Stunden schrieb cj_berlin: Moin, spannende Diskussion - MTBF-Theorie trifft jahrzehntelange Praxis Meine Erfahrung ist, zumindest im Bereich der drehenden Spindel, auch die, dass die Controller die Platten meistens deutlich überleben, Markenhersteller die Controller durch baugleiche binnen 4-8h ersetzen, wenn der Supportvertrag das vorschreibt (hatte mal einen DELL-Mitarbeiter in einem 7er BMW an Heiligabend auf den Hof fahren - war das einzige Auto im Pool), und die besseren Controller die Config auch auf den Platten verewigen, so dass der neue baugleiche Controller sie automatisch erkennt und anwendet. Davon abgesehen: Eine MTBF von 300.000h läuft auf 34 Jahre hinaus. Klar, "M"="Mean", aber ein Mittelwert dieser Größenordnung bedeutet doch, dass dies niemals empririsch bestimmt worden ist und eher aus dem Kaffeesatz gelesen wurde es mehrere Möglichkeiten gibt, diesen Wert zu erreichen. Bei Elektronik (Controller oder SSD) würde ich eher auf "entweder geht sofort kaputt oder hält ewig" tippen, bei drehenden Platten evtl. doch auf eine etwas gleichmäßigere Verteilung. Sorry, aber die Mtbf wird herstellerseitig in der Regel empirisch bestimmt. Ca. 1000 Untersuchsobjekte laufen Wochen. Dann werden die Ausfallraten berechnet. Zitieren Link zu diesem Kommentar
zahni 561 Geschrieben 13. Januar Melden Teilen Geschrieben 13. Januar Und ganz allgemein kauft man Server von bekannten Herstellern. Compaq hat irgendwann damit angefangen, die RAID-Konfiguration nur noch auf allen angeschlossenen Datenträgern zu speichern. Das wurde zu HPE rübergerettet und in ähnlicher Form von vielen Herstellern übernommen. Solche Hersteller garantieren eine lange Ersatzteilversorgung. Vorausgesetzt, man benutzt auch die Datenträger des Herstellers, lassen sich diese Datenträger oft auch an neuere Controller hängen, um z.B. Daten zu migrieren. Ausfälle hatte ich hier selten. Fast nur bei den Akkus des Cache-Moduls. Die blähten sich gern mal auf. Zitieren Link zu diesem Kommentar
NilsK 2.971 Geschrieben 13. Januar Melden Teilen Geschrieben 13. Januar Moin, Am 12.1.2025 um 09:45 schrieb cj_berlin: Davon abgesehen: Eine MTBF von 300.000h läuft auf 34 Jahre hinaus. Klar, "M"="Mean", aber ein Mittelwert dieser Größenordnung bedeutet doch, dass dies niemals empririsch bestimmt worden ist und eher aus dem Kaffeesatz gelesen wurde vor 15 Stunden schrieb Hellwege: Sorry, aber die Mtbf wird herstellerseitig in der Regel empirisch bestimmt. Ca. 1000 Untersuchsobjekte laufen Wochen. Dann werden die Ausfallraten berechnet. noch mal in Ruhe lesen. Eine berechnete Ausfallrate ist ja eben keine empirische. Gruß, Nils Zitieren Link zu diesem Kommentar
t-sql 20 Geschrieben 13. Januar Melden Teilen Geschrieben 13. Januar @Hellwege Mir kommts bisserl so vor als ob du deine Hardware solange laufen lässt bis sie kaputt geht. Also weit über der Support/Garantie Zeit hinaus. Logisch das dann die Verfügbarkeit sinkt bzw. nicht mehr vorhanden ist. Im Profibereich wird die Hardware nach Ablauf des Supports/Garantie getauscht. Schließlich ist ein gscheiter Support mit entsprechender Reaktions-/Entstörzeit essentiell im Profibereich. Da solltest besser ansetzen. 2 Zitieren Link zu diesem Kommentar
Weingeist 159 Geschrieben 15. Januar Melden Teilen Geschrieben 15. Januar Am 13.1.2025 um 17:06 schrieb NilsK: noch mal in Ruhe lesen. Eine berechnete Ausfallrate ist ja eben keine empirische. Empirisch bekommt man von einem bekannten Blogger der in einem riesigen Betrieb arbeitet und die Herstellermodelle statistisch erfasst. Auf die schnelle kontne ich das leider nicht finden. :( Das hat - gelinde ausgedrückt - wenig mit den MTBF zu tun. Habe aber doch schon HDD's mit über 20 Jahren Einsatz gesehen. Oft ist es so, überstehen sie mal 5 Jahre, dann laufen sie weiter, überstehen aber nicht unbedingt einen Neustart (Neustart im Sinne von Strom ist weg). Ansonsten meine Erfahrung: RAID-Controller Ja/Nein: Spindeln: klares JA. Geschwindigkeit, sinnvoll für Read/Write Cache, HDD's fallen eh vorher aus. Qualitäts SSDs : Ausserhalb SAN ein genau so klares nein (Storage Spaces macht das viel zu gut wenn man weiss wie SP arbeitet). Weniger Speed, höhere Ausfallwahrscheinlichkeit durch SPOF, Write/ReadCache wird i.d.R. sowieso übergangen, heisst bei Stromausfall = Sache der SSD weil die Anweisung von Windows ignoriert wird, TRIM funktioniert oft nicht wirklich hinter einem Controller usw. Früher hatte ich nie Ausfälle eines Controllers, weder bei Adaptec noch LSI noch (fällt mir grad nicht ein) in der jüngeren Vergangenheit (letzte 10 Jahre) allerdings doch eine unnatürlich Häufung seit LSI übernommen wurde. Was aber nichts heissen soll, weil ich nicht tausende Geräte brauche aber doch genug und von verschiedenen Serien. ABER: üblicherwiese ist die "feindliche" Raid-Konfig-Übernahme durch einen neuen Controller unproblematisch. Zumindest bei Windows. Zitieren Link zu diesem Kommentar
zahni 561 Geschrieben 15. Januar Melden Teilen Geschrieben 15. Januar vor 21 Minuten schrieb Weingeist: Qualitäts SSDs Es gibt schon von HPE Controller, die deren SSD vollständig unterstützen. Dafür gibt es Kompatibilitätslisten, an die man sich halten muss. Diese Datenträger haben dann oft auch eine angepasste Firmware. In unseren HPE ESXI-Servern haben wir 2 SSD im RAID 1 und über Jahre keinen Ausfall gehabt. Bei den SSD unserer AFF400 ist bisher auch noch keine SSD ausgefallen. Zitieren Link zu diesem Kommentar
MurdocX 957 Geschrieben Mittwoch um 17:34 Melden Teilen Geschrieben Mittwoch um 17:34 vor 5 Stunden schrieb zahni: In unseren HPE ESXI-Servern Ihr habt dafür andere Probleme *fg (wir auch) Zitieren Link zu diesem Kommentar
zahni 561 Geschrieben Mittwoch um 18:47 Melden Teilen Geschrieben Mittwoch um 18:47 vor einer Stunde schrieb MurdocX: hr habt dafür andere Probleme *fg Ja, aber nicht damit. Zitieren Link zu diesem Kommentar
Weingeist 159 Geschrieben Donnerstag um 09:05 Melden Teilen Geschrieben Donnerstag um 09:05 vor 20 Stunden schrieb zahni: In unseren HPE ESXI-Servern haben wir 2 SSD im RAID 1 und über Jahre keinen Ausfall gehabt. Bei den SSD unserer AFF400 ist bisher auch noch keine SSD ausgefallen. Das ist aber für das Bootlaufwerk des Systems. Da ist es ja die einzige (sinnvolle) Möglichkeit ausserhalb von SAN-Boot. Sinnvoll weil in der Regel langlebiger als SD-Cards. Und mit ESXi bekommt man Software-RAID auch nur mit Storage-VM's hin oder mit vSAN. Für die Daten. Die konkreten Firmware-Anpassung beschränkt sich bei modernen SSD's auf die Änderung der Menge an nicht verwendeten Speichermodulen (Überkapazität) sowie den Vendor-Lock. Die Zeit der tatsächlich angepassten Firmware durch die OEM-Hersteller ist schon Jahre vorbei. Selbst im SAN Bereich ist das meist nur noch auf Ihrer Speicherebene und nicht auf den Datenträger selbst der Fall. Es wird von den Herstellern der SSDs lediglich ein paar konfigurierbare Features bereit gestellt die dann teilweise genutzt werden. Angepasste Firmware gibt es meines Wissens nur noch für die Big-Player wie Amazon, Meta oder Google und deren hochspezifischen Anwendungszwecke. Überall wo mit Standardware gearbeitet wird, ist das grundsätzlich vorbei. Ein OEM-Hersteller möchte X-beliebige Speicher von xbeliebigen Hersteller einsetzen und möglichst wenig Effort betreiben diese in ihrem System zum laufen zu bringen. Sprich den Kunden möglichst billig an sich binden und somit überteuerte Ware verkaufen. (Grosskunden bekommen die HDD/SSD's ungefähr zum Retail Preis für Private von Gross-Online-Händlern, alleine diese Tatsache entlarvt schon die Farce der angepassten Firmware). Hardware-RAID Ein abschalten des Write Cache wie das bei Magnetplatten üblich ist und der Hauptgrund für die Verwendung eines spezifischen RAID-Controllers gegenüber einem Software RAID ist, würde z.B. praktische jede moderne SSD völlig unberechenbar machen. Insbesondere bei MLC. Das Commit des erfolgreichen Schreibvorgangs kommt daher vor dem effektiven Schreibvorgang. Aus diesem Grund ignorieren die Controller auch den eigenen Cache bei SSD's. Er bringt einfach keinen Mehrgewinn sondern nur eine zusätzliche Fehler-Schicht. Die SSD's brauchen eigene Mechanismen. Deshalb ist es insbesondere im RAID-Verbund auch wichtig, funktionierende Kondis auf den SSD's zu haben welche die Stromversorgung bei Stromunterbruch sicherstellen. Aus diesem Grund kann man sich die Frage stellen ob der Controller nicht auch einfach nur ein zusätzlicher SPOF ist und ob es nicht oft mehr Sinn macht und allenfals auch zuverlässiger ist, wenn das Dateisystem/OS die Aufgabe des RAID übernimmt. Es macht im Grund das Gleiche wie auch ein RAID-Controller nur ohne zusätzliche Hardware/Software und teilweise auch besser weil es die Mechanismen mit dem Filesystem verzahnt. Zum Beispiel mit Copy on Write. Flexibler auf die eigenen Bedürfnisse angepasst ist es sowieso. Zitieren Link zu diesem Kommentar
Empfohlene Beiträge
Schreibe einen Kommentar
Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.