40MB-Datei Zeichen für Zeichen auslesen

Vom einfachen Programm zum fertigen Debian-Paket, Fragen rund um Programmiersprachen, Scripting und Lizenzierung.
Antworten
Benutzeravatar
matman
Beiträge: 744
Registriert: 03.07.2008 10:50:07
Lizenz eigener Beiträge: GNU Free Documentation License
Wohnort: Hamburg
Kontaktdaten:

40MB-Datei Zeichen für Zeichen auslesen

Beitrag von matman » 06.08.2008 11:11:29

Hallo,

ich schreibe gerade ein PHP-Skript was eine knapp 40MB grosse CSV Datei auslesen soll. Meine Frage dazu hat allerdings weniger mit PHP zu tun. Vermutlich hätte ich das selbe Problem mit C, C++ oder einem Shell-Skript.

Problem ist für mich im Moment, dass die ersten Zeichen in der Textdatei offensichtlich keine gültigen Zeichen für normalen Text sind. Ich habe sogar extra nochmal mit gEdit die erste Zeile gelöscht, nochmal neu rein getippt und die Datei erneut abgespeichert. Eigentlich sollte das erste Zeichen in der Datei ein einfaches Anführungszeichen sein, das zweite ein p, das dritte ein N, aber wenn ich für diese Zeichen den ASCII-Code ausgeben lasse kommt das hier bei raus: 239, 187, 191, erst dann kommen die Zeichen, die ich im Texteditor als erste Zeichen sehen kann. Wie ist das möglich, wo kommen diese drei zusätzlichen Zeichen bzw. Werte her?

Erwähnt sei noch, dass die CSV Datei im uft-8 Format vorliegt.
System: Bullseye
Hardware: Gigabyte 970A-DS3P mit AMD FX-6300, Kingston HyperX DDR3-1333 (4x4GB), Samsung SSD 860 EVO, HGST Travelstar 7K1000, Samsung DVD-ROM SH-D162D, Geforce GTX 1050, SoundBlaster Live! Platinum, Hauppauge WinTV-HVR-5525

nepos
Beiträge: 5238
Registriert: 05.01.2005 10:08:12

Re: 40MB-Datei Zeichen für Zeichen auslesen

Beitrag von nepos » 06.08.2008 12:01:47

UTF-8 ist das Stichwort: dein Editor scheint hier den BOM (Byte Order Mark) für UTF-8 an den Anfang der Datei zu schreiben: http://de.wikipedia.org/wiki/Byte_Order_Mark
Sollte aber kein Problem sein, die 3 Zeichen wegzuschneiden. Oder halt dem Editor abgewöhnen, dass er das macht.

Benutzeravatar
matman
Beiträge: 744
Registriert: 03.07.2008 10:50:07
Lizenz eigener Beiträge: GNU Free Documentation License
Wohnort: Hamburg
Kontaktdaten:

Re: 40MB-Datei Zeichen für Zeichen auslesen

Beitrag von matman » 07.08.2008 15:37:12

Hey cool, dann weiss ich ja jetzt, woran man eine utf-8 kodierte Datei erkennen kann. :D

Was allerdings lustig ist: ich war selbst der schusselige Verursacher des Problemes. Es gab nämlich eine Kopie der betreffenden Datei über die ich das Skript laufen lassen wollte und die BOM entfernte ich im Original.

Nunja, da ich die Kopie vergessen hatte dachte ich schon, Linux macht da irgendwas mit grösseren Dateien, wovon ich noch nichts weiss. Aber o.k.; jetzt ist es ja geklärt.

gEdit setzt die BOM allerdings nicht automatisch. Die CSV Datei stammt auch nicht von mir. Und darauf verlassen, dass ein utf-8 kodiertes File auch ein BOM hat kann man sich vermutlich auch nicht?
System: Bullseye
Hardware: Gigabyte 970A-DS3P mit AMD FX-6300, Kingston HyperX DDR3-1333 (4x4GB), Samsung SSD 860 EVO, HGST Travelstar 7K1000, Samsung DVD-ROM SH-D162D, Geforce GTX 1050, SoundBlaster Live! Platinum, Hauppauge WinTV-HVR-5525

nepos
Beiträge: 5238
Registriert: 05.01.2005 10:08:12

Re: 40MB-Datei Zeichen für Zeichen auslesen

Beitrag von nepos » 07.08.2008 15:42:35

Nein, soweit ich das verstanden habe, ist die optional.

Spasswolf
Beiträge: 3472
Registriert: 30.11.2005 10:32:22
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Wald

Re: 40MB-Datei Zeichen für Zeichen auslesen

Beitrag von Spasswolf » 07.08.2008 15:46:26

Und darauf verlassen, dass ein utf-8 kodiertes File auch ein BOM hat kann man sich vermutlich auch nicht?
Auf keinen Fall, Skripte dürfen zum Beispiel kein BOM haben, da dort die ersten Zeichen "#!" sein müssen (siehe der Wikipedia Artikel).

Benutzeravatar
matman
Beiträge: 744
Registriert: 03.07.2008 10:50:07
Lizenz eigener Beiträge: GNU Free Documentation License
Wohnort: Hamburg
Kontaktdaten:

Re: 40MB-Datei Zeichen für Zeichen auslesen

Beitrag von matman » 07.08.2008 15:59:34

Spasswolf hat geschrieben:Skripte dürfen zum Beispiel kein BOM haben, da dort die ersten Zeichen "#!" sein müssen
Den Artikel habe ich ja gelesen. Anders würde die Sache allerdings aussehen, wenn jedes Programm das eine Datei öffnet nach einer BOM ausschau hält und diese gegebenenfalls überspringt. Sinnvoll wäre es ja schon, wenn man bei Textdateien die Kodierung mit speichert. So könnte vermieden werden, dass Textdateien mit der falschen Kodierung angezeigt oder verarbeitet werden. Aber naja..... daran hat wohl bei der Einführung von utf-8 keiner gedacht. :|
System: Bullseye
Hardware: Gigabyte 970A-DS3P mit AMD FX-6300, Kingston HyperX DDR3-1333 (4x4GB), Samsung SSD 860 EVO, HGST Travelstar 7K1000, Samsung DVD-ROM SH-D162D, Geforce GTX 1050, SoundBlaster Live! Platinum, Hauppauge WinTV-HVR-5525

Antworten