TP-Link 841 in Alsbach, miese Uptimes < 24h, häufige Reboots


#1

Hallo zusammen,

unser kleines Nachbarschafts-Mesh in 64665 Alsbach-Hähnlein mit 16 Nodes hat aktuell durchgängig miese Uptimes bei den einzelnen Nodes. Entsprechend funktioniert das Netz auch nicht wirklich gut. Seit wann das so ist, kann ich nicht mit Sicherheit sagen, aber “früher war [gefühlt] alles besser”. Ich könnte bitte etwas Hilfe zur Abhilfe gebrauchen.

Ungefähr die Hälfte der Knoten besteht noch aus den zwar bekanntermaßen ressourcenschwachen TP-Link 841 und die andere Hälfte aus TP-Link 1043, aber deswegen müssen doch nicht alle kleineren Nodes nach maximal zwei bis drei Stunden einen Reboot auslösen? Nun sitzen die Nodes relativ eng beieinander und haben tatsächlich recht viele “echte” Mesh-Nachbarn. Kann das allein schon der Grund sein, dass die 841er tatsächlich hoffnungslos überfordert sind? Ich sehe auf der Freifunk-Darmstadt-Map leider recht wenig vergleichbar große Meshs mit dieser Hardware. Ich hatte aber dennoch den Eindruck, dass die Dinger “früher” länger liefen.

Oder liegt es nur an der Firmware (0.9.7 stable)? In welchem Zeitraum ist denn mit dem angekündigten LEDE-Update zu rechnen und sind dadurch nennenswerte Performance-Verbesserungen bei schwacher Hardware zu erwarten, so dass sich das Abwarten lohnen könnte?

Leider weiß ich im Moment überhaupt nicht, wo man am besten mit der Diagnose beginnen sollte, geschweige denn, wie ich die Last für die kleinen Knoten reduzieren könnte.

Grüße
Minti


#2

Viele Nachbarn bedeutet natürlich viel Interaktion für die kleinen Geräte, deswegen hatten wir ja bereits darüber gesprochen auf den Geräten das fastd vpn zu deaktivieren, um mehr RAM freizuschaufeln.

Die grundsätzliche Frage ist nun warum sie rebooten, und ich vermute das hängt mit out of memory Situationen zusammen. Das könnte man bspw. per serieller Konsole confirmen, und mit einem Log dann weiter entscheiden, wo man ansetzt.

Die LEDE Firmware habe ich bereits mehrfach gebaut, es kommt dabei leider zu einem Problem beim Autoupdater, der in eine Endlosschleife laufen kann und dann “hart” gecycled werden muss. Das Gerät nimmt dabei keinen Schaden, ist dadürch aber bis zum manuelle Neustart “komatös”.

Wenn du die LEDE Version auf deinen eigenen Geräten trotzdem mal ausprobieren möchtest, findest du die hier: https://firmware.darmstadt.freifunk.net/images/1.0.1/.

Spätestens in 1.0.2 sollte ein Workaround für die Autoupdater-Problematik enthalten sein.

Beste Grüße,

hexa-


#3

Okay,

ich habe jetzt auf allen bis auf einen 841ern fastd deaktiviert und die Geräte neu gestartet. Mal sehen, ob das was ändert.

Mit “serieller Konsole” meintest Du so richtig seriell (TTL/UART)? Da müsste ich erst mal in meiner Kruschkiste nach passenden Teilen suchen. Gibt es noch andere Möglichkeiten, um den Verdacht auf einen potentiellen out-of-memory zu prüfen?

Den Gedanken zu LEDE weiterzuverfolgen, erscheint dann in diesem Zusammenhang wenig zielführend.

Grüße
Minti


#4

Ja, die Geräte haben in der Regel Pins für TTL/UART Kommunikation. Siehe dazu auch https://wiki.openwrt.org/toh/tp-link/tl-wr841nd#serial_console.

Das Problem ist, dass sich das Gerät in OOM Situationen seltsam verhält und dir evtl. dein Standbein wegschießt, bevor du irgendetwas siehst. Das kann dir auf der seriellen Konsole nicht passieren.


#5

Im Grunde sieht man hier bereits beispielhaft an 64665-AB60 dass er spontan OOM läuft, nun müssen wir die Ursache finden.


#6

Okay,

man sieht einen offensichtlichen Zusammenhang bei 64665-AB60. Für das weitere Vorgehen werde ich mich aber dem 64665-BS42 widmen. Auf den habe ich auch physischen Zugriff zwecks Debugging (https://stats.darmstadt.freifunk.net/dashboard/db/node-details?orgId=1&var-node=64665-BS42). Allerdings konnte ich diesen Zusammenhang dort nicht unmittelbar erkennen, obwohl der auch ständig bootet.

Grüße
Minti


#7

Hallo, ich bin sonst vorsichtiger mit Euphorie, aber das Multidomain-Dingens scheint hier in Alsbach Wirkung gezeigt zu haben: Alle Nodes laufen seit der Migration durch, d.h. Uptime von 5 Tagen anstelle von max. 5 Stunden bei den 841ern.

Saubere Leistung. Danke!