Kaputte Umlaute, etc...

Warum Debian und/oder eine seiner Spielarten? Was muss ich vorher wissen? Wo geht es nach der Installation weiter?
Antworten
Benutzeravatar
liesmich.txt
Beiträge: 307
Registriert: 20.04.2005 12:30:09
Kontaktdaten:

Kaputte Umlaute, etc...

Beitrag von liesmich.txt » 26.04.2008 15:12:20

Moin mal wieder :)

Hab da mal wieder nen Problemchen..
Ich wollte gestern meinen Backup Ordner aufräumen und neu durchsortieren.
Leider musste ich feststellen, dass ich sehr viele kaputte Umlaute in den Datei und Ordnernamen habe. Sogar die Umlaute in bestimmten dateien sind kaputt (Textdateien beispielsweise)...
Warscheinlich kommt das von der hin und her kopiererei im Laufe der Jahre (Einige Daten sind noch aus meiner Windows Zeit ..)

Gibt es irgendwie eine Möglichkeit, den kompletten Ordnerinhalt nach kaputten Umlauten zu durchsuchen und diese wieder herzustellen? Also nen Ö sieht bei mir so aus: ö und sollte dann in Oe, oder so umbenannt werden.

Evtl. gibt es da ja ein Script für, oder so. Aber beim googlen hab ich nicht das Richtige zu meinem Problem gefunden. Zumindest nicht für Linux...

Danke schonmal für eure Hilfe :)

pluvo

Re: Kaputte Umlaute, etc...

Beitrag von pluvo » 26.04.2008 16:26:20

Hallo liesmich.txt,

die Dateinamen kannst mit dem Programm convmv wieder in Ordnung bringen. Es gibt auch einige Themen hier im Forum zu diesem Programm. Die Suchfunktion des Forums sollte dir weiterhelfen können. :wink:

So kannst du dein Ordner (inklusive Unterordner und Dateien) mit convmv wieder in Ordnung bringen:

Code: Alles auswählen

convmv --notest -r -f iso-8859-1 -t utf-8 Ordnername/
(Ohne --notest simuliert convmv nur den Ablauf.)


convmv
http://packages.debian.org/convmv


mfg pluvo :)
Zuletzt geändert von pluvo am 29.04.2008 02:34:30, insgesamt 1-mal geändert.

rendegast
Beiträge: 15041
Registriert: 27.02.2006 16:50:33
Lizenz eigener Beiträge: MIT Lizenz

Re: Kaputte Umlaute, etc...

Beitrag von rendegast » 26.04.2008 17:36:18

Für die Dateinamen gibt es noch utf8migrationtool aus utf8-migration-tool.

Code: Alles auswählen

find  /Ordnerpfad  -type f  -exec  file  -e soft  {}  \;
Damit findest Du schonmal die utf8 bzw. iso8859-1*.

Zumindest die linefeed der windows-Dateien kanst Du mit todos|fromdos erledigen.
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")

guennid

Re: Kaputte Umlaute, etc...

Beitrag von guennid » 26.04.2008 19:33:05

Dieses Thema beschäftigt mich auch schon eine ganze Weile. Gibt es eigentlich irgendwo eine wirklich kompetente Beschreibung, die folgende Fragen beantwortet:

1. Welches Windows benutzt welchen Zeichensatz
2. Welches debian benutzt welchen Zeichensatz
3. Welche Konsequenzen hat es, wenn man auf Dateientransfer mit welchem windows angewiesen ist und doch debian-standard, d.h. utf8, benutzt.

Das, was ich hier so lese, erscheint mir wenig gründlich und häufig von missionarischem Eifer bestimmt.

Grüße, Günther

rendegast
Beiträge: 15041
Registriert: 27.02.2006 16:50:33
Lizenz eigener Beiträge: MIT Lizenz

Re: Kaputte Umlaute, etc...

Beitrag von rendegast » 27.04.2008 02:40:29

1. nt40: wordpad und notepad benutzen unterschiedliche Zeichensätze.
xp: editor = wordpad+notepad =? ascii|utf8 (automatisch?)
2. Das, was Du als Standard festlegst.
Hauptanwendungen sind utf8-fähig, vieles (noch) nicht.
3. Transfer über samba, Dateinamen: Als Server funktioniert es mit Clients ab w2k|xp problemlos als utf8.
Mit nt40 ab Zeichensatz mit "€" als 'dos charset = iso8859-15'.
Für w9* als 'dos charset = cp850', was auch der samba-Standard ist.
Als client mit 'mount.cifs' gibt es 'iocharset'.

Das sind die "Spieloptionen".
Zuletzt geändert von rendegast am 27.04.2008 13:45:58, insgesamt 1-mal geändert.
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")

guennid

Re: Kaputte Umlaute, etc...

Beitrag von guennid » 27.04.2008 10:06:09

Danke für die info!
Das ist für mich allerdings ein wenig zu "dicht", will sagen: Ich benötige wohl Vorkenntnisse, die ich nicht habe.
samba interessiert mich nicht.
Gehe ich recht in der Annahme, dass es einen "Königsweg" in der Lösung der Probleme nicht gibt, d.h. ich muss damit leben, dass Dateinamen der von einem win-user übers internet geschickten .docs bei meinem etch (iso 8859-15) mitunter verstümmelt ankommen und umgekehrt.
Dabei beobacht ich zwei Varianten der Verstümmelung: Umlaute werden mitunter in der von pluvo beschriebenen Weise durch andere (Sonder-)Zeichen ersetzt oder aber "verschluckt", einfach ausgelassen.

Grüße, Günther

Benutzeravatar
uwepr
Beiträge: 657
Registriert: 03.02.2007 12:13:01
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Halle/S.
Kontaktdaten:

Re: Kaputte Umlaute, etc...

Beitrag von uwepr » 27.04.2008 10:48:46

Seid gegrüßt!
Der Zeichensatzsalat ist noch viel schlimmer: Einer hält sich grundsätzliche nicht an Standards, NICHT MAL AN ISO: Windows benutzt für den Zeichensatz "Code Page". Dabei hat die auf deutschen Systemen verwendete Code Page 1252 große Ähnlichkeit mit Latin-1 (= ISO-8859-1). Wie die bei MS das mit dem € gelöst haben, weiß ich nicht. Dazu habe ich mich schon zu lange mit Windows nicht mehr beschäftigt. Unter Debian sind zwei Zeichensätze/Zeichensatzgruppen üblich:
ISO-8859-X
UTF-8
Alle Zeichensätze enthalten ASCII (127 Zeichen gesamt, a-z,A-Z,0-9 + Interpunktionszeichen). Solange man sich auf die beschränkt, gibt es keine Probleme (für Datei-Namen meiner Meinung nach empfehlenswert).
Die Entwicklung geht zu UTF-8. Zumindest für die europäischen Sprachen sind da meines Wissens so gut wie alle Sonderzeichen abgedeckt. Probleme machen auch die unterschiedlich gelösten Zeilenumbrüche unter Linux, Mac und Windows.
Wenn jemand Webseiten schreibt, ist er mit UTF-8 klar im Vorteil (vorausgesetzt, bei'm Webhoster gibt es keine Einschränkungen).
Wenn jemand in großem Umfang im Datei-Austausch mit der Windowswelt steht, ist er eher mit ISO-8859-15 gut bedient, wird aber u.U. auf deutschsprachigen Kommandozeilenausgaben mit Zeichensalat konfrontiert.
Wenn sich der Datei-Austausch mit der Windows-Welt überwiegend auf E-Mail beschränkt, kann man ohne weiteres UTF-8 als Grundeinstellung für das System verwenden und lediglich im E-Mail-Programm ISO-8859-15 einstellen.
Viele Grüße! Uwe Pr.
squeeze/fluxbox

Antworten