Hallo zusammen,
wir haben 2 Server mit jeweils festen IPs die im Serverzentrum direkt am Internet hängen. Über Keepalived werden zusätzliche Ip-Adressen im failover Fall ausgetauscht. Derzeit ist der Keepalived Dienst auf dem Backup Server deaktiviert. Wir haben also ein einfaches Setup:
Server (per bonding) -> Dell Powerconnect Switche -> Linux Firewall (2.6.32-5-amd64, Squeeze) > Internet
Leider fängt die Verbindung nach ca. 1 - 1,5 Wochen an zu haken (SSH, VNC,..). Alles was an die Server geht hat sporadische "hänger". Von der Firewall wird Apache, scp , sftp und Mails an verschiedene Server weitergeleitet. Nach einem Neustart der Linux Firewall ist wieder alles i.O.
Die Laufzeiten zwischen den Maschinen im Netzwerk zeigen keine Symptome einer Schleifenbildung.
Da wir ja nicht die einzigsten mit einer Linux basierten Firewall sind, haben wir zum testen die Netzwerkkarten ausgetauscht (von Broadcom Corporation NetXtreme II BCM5716 Gigabit Ethernet (rev 20) auf Intel Corporation 82576 Gigabit Network Connection (rev 01)) um ein Hardwareproblem auszuschließen.
Im dmesg / syslog sind keine auffälligen Einträge vorhanden.
Hat jemand einen Tipp was wir noch kontrollieren könnten?
hakende Verbindungen
Re: hakende Verbindungen
Zwischen "Linux-firewall > Internet" ist noch ein router?
Ein zwangsweise zu benutzender bintec-VPN hier bekommt keine (bekam nie) ein firmware-Upgrade,
und hat daher Macken.
(Serviceantwort: "Keine Upgrades, sonst funktioniert es vielleicht nicht mehr")
Für alle tables (nat, filter, mangle, raw) mal beobachten.
Vielleicht rastet ein Zähler aus?
(Der Theorie hänge ich eigentlich weniger an)
Wie das?
Wirbelt es vorgegebene Adressen durcheinander?
Sind das vom Keepalive vorgesehene Ausweichadressen?
Muß die firewall vielleicht massenhaft DNS-Namen auflösen
bei einem Restart oder Reload?
Dauert dieser dann ungewöhnlich lange?
Werden die firewall-Regeln in Gänze gelegentlich neu geladen?
Wegen "nach ca. 1 - 1,5 Wochen",
klappt vielleicht ein Logrotate und damit verbundener Reload von was-auch-immer nicht?
Eventuelle IP-Änderungen von Ziel-Rechnern?
Das passiert manchmal mehrmals pro Tag
So ein Kandidat: Entsprechende chains müßten dann gelegentlich neu erstellt werden.
(Ich tendiere dazu, solche Sachen dann eher einem proxy zu überlassen.)
Der debian-3.2.0 ist mittlerweile 3.2.18 und damit gut abgehangen.
neuere bnx2 und igb resp. igbvf, neuere
firmware-bnx2
Macke im Kabel?
xtables-addons o.ä. in Verwendung?
Bricht das bonding zusammen und löst vielleicht die failover-Reaktion oder einen Teil davon aus?
Wobei sich dann die firewall verhaspelt?
Ohne bonding?
Ein zwangsweise zu benutzender bintec-VPN hier bekommt keine (bekam nie) ein firmware-Upgrade,
und hat daher Macken.
(Serviceantwort: "Keine Upgrades, sonst funktioniert es vielleicht nicht mehr")
Für alle tables (nat, filter, mangle, raw) mal
Code: Alles auswählen
iptables -nv -L -t <table>
Vielleicht rastet ein Zähler aus?
(Der Theorie hänge ich eigentlich weniger an)
Code: Alles auswählen
Von der Firewall wird Apache, scp , sftp und Mails an verschiedene Server weitergeleitet.
Wirbelt es vorgegebene Adressen durcheinander?
Sind das vom Keepalive vorgesehene Ausweichadressen?
Muß die firewall vielleicht massenhaft DNS-Namen auflösen
bei einem Restart oder Reload?
Dauert dieser dann ungewöhnlich lange?
Werden die firewall-Regeln in Gänze gelegentlich neu geladen?
Wegen "nach ca. 1 - 1,5 Wochen",
klappt vielleicht ein Logrotate und damit verbundener Reload von was-auch-immer nicht?
Eventuelle IP-Änderungen von Ziel-Rechnern?
Das passiert manchmal mehrmals pro Tag
So ein Kandidat:
Code: Alles auswählen
# iptables -v -A OUTPUT -d www.t-online.de -j ACCEPT
ACCEPT all opt -- in * out * 0.0.0.0/0 -> 217.6.164.162
ACCEPT all opt -- in * out * 0.0.0.0/0 -> 62.153.159.92
etwas später:
# iptables -v -A OUTPUT -d www.t-online.de -j ACCEPT
ACCEPT all opt -- in * out * 0.0.0.0/0 -> 62.153.159.92
(Ich tendiere dazu, solche Sachen dann eher einem proxy zu überlassen.)
Versuchsweise mal den backports-Kernel laufen lassen.(2.6.32-5-amd64, Squeeze)
<->
(von Broadcom Corporation NetXtreme II BCM5716 Gigabit Ethernet (rev 20) auf Intel Corporation 82576 Gigabit Network Connection (rev 01))
Der debian-3.2.0 ist mittlerweile 3.2.18 und damit gut abgehangen.
neuere bnx2 und igb resp. igbvf, neuere
![Debian](/pics/debianpackage.png)
Macke im Kabel?
xtables-addons o.ä. in Verwendung?
Bricht das bonding zusammen und löst vielleicht die failover-Reaktion oder einen Teil davon aus?
Wobei sich dann die firewall verhaspelt?
Ohne bonding?
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")
- unitra
- Beiträge: 646
- Registriert: 15.06.2002 21:09:38
- Lizenz eigener Beiträge: MIT Lizenz
- Wohnort: 127.128.129.130
Re: hakende Verbindungen
Schau mal mit mtr ob ihr Packetloss habt (oder mtr-tiny) heisst das unter debian. (glaube ich)tobiasd hat geschrieben:Hallo zusammen,
Server (per bonding) -> Dell Powerconnect Switche -> Linux Firewall (2.6.32-5-amd64, Squeeze) > Internet
Leider fängt die Verbindung nach ca. 1 - 1,5 Wochen an zu haken (SSH, VNC,..). ...
vielleicht eine Schleife zwischen dem Switch und dem Server (Bonding) schaut mal eure bonding konfiguration mal am Switch nach. Vielleicht kann Euch der Switch mal eine Fehlermeldung ausspucken.Die Laufzeiten zwischen den Maschinen im Netzwerk zeigen keine Symptome einer Schleifenbildung.
dmesg ist nicht der einzige Ort wo man nach Auffälligkeiten suchen kann. DIe Interface Statistiken eth0 eth1 bond0 sollten auch untersucht werden.Im dmesg / syslog sind keine auffälligen Einträge vorhanden.
Was für ein Bonding habt ihr Konfiguriert? LACP oder Round Robin oder was anderes? LACP sollte bevorzugt werden. Round Robin verursacht manchmal Schwierigkeiten und komische Phänomene, muss nicht bei Dir zutreffen, mich würde interessieren was der Switch zu dem Bonding so sagt und was er meldet im Syslog. Bonding (Link Aggregation) ist nur ein Oberbegriff es gibt viele Möglichkeiten Physikalische Leitungen als eine logische Einheit zu konfigurieren.
Ja alle Layer nacheinander untersuchen vom Layer7 bis Layer1 oder andersrum. Layer1 -> Layer7Hat jemand einen Tipp was wir noch kontrollieren könnten?
Die Interface der Server auf anschauen (Konfiguration Autonegotiation oder Feste Konfiguration]
Die Interfaces auf Fehler untersuchen am Switch (wenn managebar)
Die Firewall auf Fehler an den Schnittstellen untersuchen.
Die gegenseite, den Switch anschauen, die Ports auf Fehler untersuchen (wenn dieser managebar ist)
Als letzes würde ich Untersuchen falls es wieder passiert, Server NICHT neutstarten, und vom Switch aus schauen ob da schon Verzögerungen zu bemerken sind. Wenn nicht dann einen IP Hop weitergehen (Firewall) und von der Firewall aus mal schauen von da aus schauen.
Als letztes untersuchen ob vom 2-ten Server ihr das gleiche verhalten habt.
Achso, passiert das nur an 1-nem Standort oder an beiden. Das ist auch interessant.