mcdaniels 29 Geschrieben 20. Juli 2020 Melden Teilen Geschrieben 20. Juli 2020 Liebe Community, ich hatte in den letzten 4 Wochen in einem Netzwerk mit rund 90 Clients 3 Netzwerkausfälle, die in letzter Instanz auf Switches (NETGEAR GS348T und HP Procurve) zurückzuführen waren. (So glaubte ich zumindest bis heute). Heute in der Früh stellte sich die Situation so dar, dass im Netzwerk absolut nichts mehr ging: Die Clients waren nicht pingbar, die Server waren nicht pingbar (auch nicht untereinander). der DC war (obwohl der Taskmanager dies nicht anzeigte) extrem ausgelastet, Tastatur und Mauseingaben waren nur in Superzeitlupe möglich. Im Zuge der Analyse ist mir aufgefallen, dass offenbar eine extreme Last auf Switch 1 anliegt (hat man allein von den LEDs schon gesehen. Ich habe deshalb damit begonnen, das Servernetzwerk vom restlichen Netzwerk zu trennen. (Switch 1 von Switch 2 getrennt). Das Netz sieht schematisch gesehen so aus: SERVER <-> (SW)ITCH1 | (SW)ITCH2 <--> (CL)ients | | | SW3 SW4 SW5 | | | CL CL CL Nach dieser Abkoppelung war das Servernetzwerk, das nur noch an Switch 1 hängte, wieder normal erreichbar. Auch der DC1 war nicht mehr ausgelastet und konnte normal bedient werden. Schließlich konnte durch einen Austausch des Switch 2 das Problem gelöst werden. So extrem wie heute, war das Problem in den letzten Wochen nicht. Hier gab es ein Problem mit Switch4, das nach einem Tausch des Switches behoben war. Ein ähniches Problem gab es vor ca. 3 Wochen mit Switch5. Ich kann mir nicht vorstellen, dass 3 Switches innerhalb von 4 Wochen defekt werden. Aktuell läuft das System wieder normal. Leider hatte ich bislang nicht die Zeit die Sache genauer zu analysieren. Heute schien es mir aber so zu sein, wie wenn ein Broadcaststorm im internen Netzwerk passiert. Wie kann man sowas am Besten analysieren? Vielen Dank im Voraus! Zitieren Link zu diesem Kommentar
DocData 85 Geschrieben 20. Juli 2020 Melden Teilen Geschrieben 20. Juli 2020 Spanning-Tree und Loop Protection hast du aktiviert? Zitieren Link zu diesem Kommentar
Beste Lösung lefg 276 Geschrieben 20. Juli 2020 Beste Lösung Melden Teilen Geschrieben 20. Juli 2020 (bearbeitet) Der Switch selbst muss nicht die wirkliche Ursache sein, aber "Mittäter". Opa erzählt mal aus dem Krieg: Ich arbeitete abends im Serverraum, die Kollegin aus dem Büro nebenan rief mir einen Abschiedsgruss zu, sie ging in den Urlaub. Ich wandte mich wieder dem LAN-Schrank zu, am grossen 3Com-Switch blinkten alle LED hektisch. Es ging nichts mehr im Netzwerk. Ein "Reset" durch Strom aus, Strom an änderte nichts.Durch Abkabeln aller Ports und einzelnes Ankabeln mit Pause zeigte den Übeltäter, der Rechner der Kollegin nebenan. Der Rechner war aber aus, die Kollegin hatte den runtergefahren weil sie in der Urlaub ging, sonst blieb er an. Die Netzwerkkarte hatte aber Spannung von Wake on LAN. Nach dem Ersetzen der Karte war das Problem behoben. Mir ging ein Licht auf: In einem anderen Bereich beklagten sich seit einiger Zeit Kolleginnen, das morgens zu Arbeitsbeginn nichts ging, sie konnten sich zwar am Rechner anmelden, kamen aber nicht in die Zeiterfassung. Etwas später funktionierte es dann. Es war zum Speiben. Nun, vor einiger Zeit war ein Kollege aus einem anderen Standort zu uns gezogen, er brachte seinen Rechner mit. Ich befragte den Kollegen, er blieb abends etwas länger, kam morgens etwas später. Es fuhr den Rechner nicht immer runter, meist zum Wochenende oder wenn er am nächsten Tag woanders tätig war, es gab keine Regel. Das Netzwerkinterface sein Rechners stellte sich als Übeltäter heraus. Letztendlich wurden alle Switche ersetzt, die HP Procurve 17xx zeigten sich als resistent gegen potentielle weitere Störer. Jahre später, anderer Fall, andere Ursache: Die Damen aus dem Frontoffice beklagten sich bei meinem Kollegen, das Drucken dauere lange, stottere. Der Kollege "resettete" die beiden Switche für den Bereich, es schien im ersten Moment erfolgreich, wenig später aber nicht mehr. Es wurden beide Switche ersetzt durch einen 18xx und es war gut. Ich war neugierig und hatte ein wenig Zeit, ich holte die beiden Switche vom Schrott, machte sie auf, zog den Stecker vom Netzteil ab, versorgte die Platine vom Experimentiertisch. Oh Wunder das Switching funktionierte. Eine Untersuchung der Spannung der Netzteile mit einem Oszilloskop zeigte, die Spannung war sehr wellig, mindesten ein Kondensator war defekt. bearbeitet 20. Juli 2020 von lefg Zitieren Link zu diesem Kommentar
mcdaniels 29 Geschrieben 20. Juli 2020 Autor Melden Teilen Geschrieben 20. Juli 2020 @DocData: Beim 348T gibt es ein Setting für DoS, dieser ist inaktiv und eine (schlecht übersetzt) "Sturmkontrolle" die inaktiv ist. Wahlmöglichkeiten: Deaktiviert, Unbekannter Unicast, Multicast, Broadcast. Wählt man hier etwas aus, dann gibt es diverse Zusatzparameter. Diese sagen mir aber nur marginal etwas, weshalb ich da mal die Finger davon lasse. Dann hätte ich hier noch: Portsicherheitsmodus: Inaktiv Spanning Tree-Status ist aktiv. Betriebsmodus: RSTP @lefg: Danke für deinen Input und deine Erfahrungen. Was mir halt sehr komisch vorkommt ist, dass es über die letzten 4 Wochen drei dieser Ausfälle gegeben hat. Die Switches die getauscht wurden, waren im Schnitt 5 Jahre alt. Jedenfalls haben wir jetzt nagelneue in Betrieb. D.h. ich kann im Endeffekt jetzt nur abwarten und schauen ob es wieder auftritt & danach nicht gesamte Netzwerkbereiche abhängen, sondern PC für PC. Danke jedenfalls! Zitieren Link zu diesem Kommentar
Sunny61 806 Geschrieben 20. Juli 2020 Melden Teilen Geschrieben 20. Juli 2020 Die Firmware der beteiligten Switche ist aktuell? Zitieren Link zu diesem Kommentar
lefg 276 Geschrieben 20. Juli 2020 Melden Teilen Geschrieben 20. Juli 2020 vor einer Stunde schrieb mcdaniels: abwarten und schauen ob es wieder auftritt Ja, möglicherweise sind die neuen Switche vom Bau her resistent, das war bei unserem Fall so. Zitieren Link zu diesem Kommentar
mcdaniels 29 Geschrieben 20. Juli 2020 Autor Melden Teilen Geschrieben 20. Juli 2020 (bearbeitet) vor 3 Stunden schrieb Sunny61: Die Firmware der beteiligten Switche ist aktuell? so aktuell wie bei den älteren Switches möglich. vor 2 Stunden schrieb lefg: Ja, möglicherweise sind die neuen Switche vom Bau her resistent, das war bei unserem Fall so. schon sehr strange. Da ändert man nix am System und im Rahmen von ca. 4 Wochen, "schießt" es dir 3 48-Port Switches aufgrund unklarer Umstände. bearbeitet 20. Juli 2020 von mcdaniels Zitieren Link zu diesem Kommentar
lefg 276 Geschrieben 20. Juli 2020 Melden Teilen Geschrieben 20. Juli 2020 (bearbeitet) vor 5 Stunden schrieb mcdaniels: chießt" es dir 3 48-Port Switches aufgrund unklarer Umstände. Wie bereits berichtet, defekte Netzteile sind eine Möglichkeit. Warum aber? Was defekt? Fehlerhaftes gemischtes Elektrolyt ist eine Möglichkeit. Mangel an Wärmefestigkeit, an Spannungsfestigkeit weitere. Manchmal oder oftmals sind Switche ungünstig im Rack eingebaut, mangelnde Wärmeableitung. Ich habe mehrfach Patchpenals tiefer gesetzt, die Switche dann nach oben, zwischen den Switches ein fingerbreit Luft. In mehreren Fällen trat der Verdacht auf, Ursache sei Überspannung induziert vom Gewitter. Es müssen aber nicht die Kondensatoren draufgehen, es können auch Dioden sein. Dioden in Netzteilen und auch Steuerkreisen von Fernmeldeanlagen, Vermittlungsanlagen. Einmal stand ich daneben, der Blitz schlug in einen Richfunkmast ca 50m weiter ein, kam über ein eingegrabenes Feldkabel, der Überspannungsschutz am Gebäudeeintritt löste nicht aus, ein Funke sprang vom Klinkenstecker und hinterliess auf der Tischplatte ein Brandloch. In der Wählanlage gingen die Dioden in den Koordinatenschalteren durch, Ich stand daneben, ich sah den Funken sprühen, ich roch die Mischung von ionisierte Luft, roch den verbrannten Lack und das verbrannte Holz. Und der Donner von draussen war gewaltig. bearbeitet 20. Juli 2020 von lefg Zitieren Link zu diesem Kommentar
NorbertFe 2.032 Geschrieben 20. Juli 2020 Melden Teilen Geschrieben 20. Juli 2020 vor 43 Minuten schrieb lefg: roch den verbrannten Lack und das verbrannte Holz. Und der Donner von draussen war gewaltig. und gabs weitere Opfer oder nur die arme Tischplatte? ;) Zitieren Link zu diesem Kommentar
lefg 276 Geschrieben 20. Juli 2020 Melden Teilen Geschrieben 20. Juli 2020 vor 4 Minuten schrieb NorbertFe: und gabs weitere Opfer oder nur die arme Tischplatte? ;) Gottseidank sass keiner der Diensthabenden am Vermittlungstisch. Opfer war die Telefonwählanlage, die war funktionsunfähig, die Dioden in den Koordinatenschalteren der Innenverbindungssätze waren durch. Das festzustellen war aber nicht so einfach. Und die Dioden waren nicht einfach austauschbar, man kam da nämlich nicht ran, die Bauart des Satzes nannte sich Sandwich-Bauweise. Des war kein Bundeswehrgerät, wir hatten es vom Fernmeldezeugamt der Post als "Schrott" gekauft. Eigentlich hätte der Überspannungsschutz am Kabeleingang des Gebäudes auslösen müssen. Zitieren Link zu diesem Kommentar
NorbertFe 2.032 Geschrieben 20. Juli 2020 Melden Teilen Geschrieben 20. Juli 2020 Tja auch dort gabs wohl einen Murphy Zitieren Link zu diesem Kommentar
mcdaniels 29 Geschrieben 21. Juli 2020 Autor Melden Teilen Geschrieben 21. Juli 2020 (bearbeitet) Guten Morgen, na Gott sei Dank gab es keinen Personenschaden. Heute bislang keine Troubles. Ging aber auch bislang immer wieder ein Zeit lang gut. Mal gucken ;) Bezüglich Blitzschlag hatten wir mal etwas Ähnliches bei einer Telefonanlage. Allerdings nicht ganz so eklatant wie von @lefg erwähnt, hat aber dennoch gereicht. Bzgl. die nun neu verbauten Switches: Es scheint so, als wäre bei allen die Looperkennung inaktiv. Macht es Sinn diese einzuschalten? bearbeitet 21. Juli 2020 von mcdaniels Zitieren Link zu diesem Kommentar
MurdocX 949 Geschrieben 21. Juli 2020 Melden Teilen Geschrieben 21. Juli 2020 vor 22 Minuten schrieb mcdaniels: Looperkennung inaktiv. Macht es Sinn diese einzuschalten? Wenn du es aktivierst und deine Probleme weg sind, dann weißt du ob es sinnvoll war Ja, sehr sinnvoll sogar. Manchmal kommen die Benutzer auf die komischsten Ideen. Zitieren Link zu diesem Kommentar
mcdaniels 29 Geschrieben 21. Juli 2020 Autor Melden Teilen Geschrieben 21. Juli 2020 vor einer Stunde schrieb MurdocX: Wenn du es aktivierst und deine Probleme weg sind, dann weißt du ob es sinnvoll war ;) ...momentan ist ja Ruhe. Dann werd ich das mal auf aktiv schalten. Interessant eigentlich, dass es standardmäßig auf "deaktiviert" steht. Zitieren Link zu diesem Kommentar
lefg 276 Geschrieben 21. Juli 2020 Melden Teilen Geschrieben 21. Juli 2020 (bearbeitet) vor 13 Minuten schrieb mcdaniels: Interessant eigentlich, dass es standardmäßig auf "deaktiviert" steht. So sind die Einstellung vom "Werk" her. Und das hat sehr wahrscheinlich einen Sinn. Solche Optionen aktiviert werden Performance kosten. bearbeitet 21. Juli 2020 von lefg Zitieren Link zu diesem Kommentar
Empfohlene Beiträge
Schreibe einen Kommentar
Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.