Ich habe hier eine Mbox-Datei, die das Archiv einer kürzlich geschlossenen Mailingliste (Yahoogroups) mit rund 8400 Mails enthält. Würde das gerne im Netz veröffentlichen, zwecks Archivierung. Das Problem sind die ganzen Mail-Adressen und Yahoo-IDs im Klartext, die müssten vorher raus.
Yahoo-IDs sind kein Problem, einfach mit grep oder sed alle Zeilen rausfiltern, die "X-Yahoo-Profile" enthalten. Aber für E-Mails habe ich noch keine Lösung gefunden. Ich würde sie zwecks Wiedererkennung gerne nur teilweise entfernen bzw. unkenntlich machen, also beispielsweise immer den Teil vor dem @ durch "..." ersetzen oder so.
Ich finde nur Hinweise auf diverse Perl-Module zum Manipulieren von mbox-Dateien, aber mal eben selbst was schreiben traue ich mir nicht zu. Kennt jemand vielleicht eine fertige Lösung?
Mail-Adressen in Mbox-Datei unkenntlich machen?
Re: Mail-Adressen in Mbox-Datei unkenntlich machen?
Ich würde wohl sed verwenden:
Produziert nur eine Ausgabe.
Zum direkten Ändern Parameter -i verwenden:
Ändert aber auch @ irgendwo im Text. Es wird jeweils zwischen dem letzten Leerzeichen und dem @ durch ... ersetzt.
Code: Alles auswählen
sed 's/ .*@/ ...@/g' mbox
Zum direkten Ändern Parameter -i verwenden:
Code: Alles auswählen
sed -i 's/ .*@/ ...@/g' mbox
Re: Mail-Adressen in Mbox-Datei unkenntlich machen?
Wenn du Email-Adressen matchen willst, dann such dir eine passende Regexp, bevor du dir selber eine baust. Ich meinte, ich wusste auch eine Manpage in der eine drin stand, aber ich komme nicht mehr drauf.
Emailadressen in den Bodies zu ersetzen ist natuerlich sinnvoll, aber du musst dir bewusst sein, dass du damit die Mails evtl. kaputt machst, denn Content-Length Header stimmen nicht mehr (falls Software die beruecksichtigt) und digitale Signaturen stimmen nicht mehr.
Ich wuerde mich erst mal informieren, ob nicht jemand anderes das Problem schon geloest hat. Es gibt eine Reihe von Webmailarchiven (also eine mbox-nach-html-Konvertierung) die bieten das das Feature bestimmt schon. (Btw: Willst du eigentlich wirklich die mbox online stellen und nicht ein Webarchiv? Ersteres laesst sich halt schlecht online lesen, was doch vermutlich die ueblichste Nutzungsform sein wird.)
Emailadressen in den Bodies zu ersetzen ist natuerlich sinnvoll, aber du musst dir bewusst sein, dass du damit die Mails evtl. kaputt machst, denn Content-Length Header stimmen nicht mehr (falls Software die beruecksichtigt) und digitale Signaturen stimmen nicht mehr.
Ich wuerde mich erst mal informieren, ob nicht jemand anderes das Problem schon geloest hat. Es gibt eine Reihe von Webmailarchiven (also eine mbox-nach-html-Konvertierung) die bieten das das Feature bestimmt schon. (Btw: Willst du eigentlich wirklich die mbox online stellen und nicht ein Webarchiv? Ersteres laesst sich halt schlecht online lesen, was doch vermutlich die ueblichste Nutzungsform sein wird.)
Use ed once in a while!
Re: Mail-Adressen in Mbox-Datei unkenntlich machen?
Oft reicht es nicht den Teil vor dem @ rauszunehmen, insbesondere wenn Leute von der eigenen Domain schreiben. Dann gibts Infos in Signaturen, von IRC/Jabbernicks, über Telefonnummern, zu ganzen Adressen. Und dann Unterschreiben die Leute auch gerne mal mit vollem Namen in den Mails. Oder mit Abgekürztem Vornamen und vollem Nachnamen oder oder oder ... und dann bleibt neben Urheberrecht und co auch noch die Frage, ob die Schreiber von einem geschlossenen Leserkreis ausgegangen sind.
-
- Beiträge: 725
- Registriert: 09.09.2014 18:33:22
- Lizenz eigener Beiträge: GNU Free Documentation License
Re: Mail-Adressen in Mbox-Datei unkenntlich machen?
Anonymisieren würde ich mir bei einem so großen Datensatz nicht zutrauen - ist aber auch kein Problem weil es sich um eine von Yahoogroups (bzw. ursprünglich egroups) gehostete Liste mit öffentlichem Archiv handelt. Die Mail-Adressen unkenntlich zu machen leistet dann das selbe wie das öffentliche Yahoo-Archiv (eigentlich sogar mehr, da ich auch die Yahoo-ID raus nehme). 80% der Mails sind sowieso (deutlich) älter als ein Jahrzehnt.
Web-Archiver kommen eher nicht in Frage, mangels öffentlichem Interesse. Es handelt sich um eine Liste mit Amiga-Bezug, die werde ich mit LhA (quasi ZIP für Amiga-User und Japaner ) packen und in einem entsprechenden Amiga-Archiv ablegen. Um Big Data etc. mache ich mir also sowieso keinen Kopf.
Vielen Dank an uname für den Hinweis mit sed, damit habe ich das jetzt gelöst. Mehrere Durchgänge (für "<...@" und "(...@" etc.) plus etwas Handarbeit und schon habe ich ein brauchbares Archiv. Mit "...@" kam Evolution nicht klar, also habe ich "MAIL_REMOVED@" benutzt.
Das mit "Content-Length" ist auch ein guter Hinweis, daran hatte ich gar nicht gedacht. Ich mache mich mal schlau ob der Header vorgeschrieben ist, ich denke die Zeilen kann ich auch einfach raus-"optimieren".
Vielen Dank für die Tipps.
Web-Archiver kommen eher nicht in Frage, mangels öffentlichem Interesse. Es handelt sich um eine Liste mit Amiga-Bezug, die werde ich mit LhA (quasi ZIP für Amiga-User und Japaner ) packen und in einem entsprechenden Amiga-Archiv ablegen. Um Big Data etc. mache ich mir also sowieso keinen Kopf.
Vielen Dank an uname für den Hinweis mit sed, damit habe ich das jetzt gelöst. Mehrere Durchgänge (für "<...@" und "(...@" etc.) plus etwas Handarbeit und schon habe ich ein brauchbares Archiv. Mit "...@" kam Evolution nicht klar, also habe ich "MAIL_REMOVED@" benutzt.
Das mit "Content-Length" ist auch ein guter Hinweis, daran hatte ich gar nicht gedacht. Ich mache mich mal schlau ob der Header vorgeschrieben ist, ich denke die Zeilen kann ich auch einfach raus-"optimieren".
Vielen Dank für die Tipps.