Ich durchsuche mit
regelmäßig einen Stapel Webseiten die alle unter file:/// gespeichert sind. Das Ergebnis wird anschließend via sed zu einer html Linkliste umgeschrieben und ich klicke mich durch die Links, bis ich den passenden Text gefunden habe. Was mich stört sind unsinnig angezeigte Suchergebnisse, weil jede einzelne Webseite vom DOCTYPE bis runter zum letzten html tag abgesucht wird. Der title tag, Meta-Angaben, Navigation, Footer und so weiter wird mir als Suchergebnis ausgeworfen, sofern der Suchbegriff darin vorkommt. Grundsätzlich kann ich damit leben, ich möchte das jetzt ändern.
Der mich interessierende Inhalt liegt immer im Bereich des
div class="content". Ich habe das mal angetestet, komme damit aber nicht weiter, weil ich den Suchbegriff nicht mit dem Filter zusammen bringe, der vermutlich nicht stimmt oder die Option -P wird nicht ausgeführt:
Gibt es einen Weg, um selektiv nur das div abzusuchen und das nach Möglichkeit mit grep ohne tools wie xmllint, xmlstarlet, saxon-lint oder einem der vielen search engines die als perl oder php script im www zu finden sind? Ich könnte auch alles html außerhalb des div wegfiltern. Das ist mir aber zu viel Aufwand. Ansonsten lasse ich es wie es ist.