In der zweiunddreißigsten Episode des Anwendungsentwickler-Podcasts gehe ich einige Fragen aus meiner Lernzielkontrolle zum Thema Zeichensätze und -kodierung durch.
Inhalt
Zeichensatz vs. Zeichencodierung
ASCII: 7 Bit, lateinische Buchstaben, Zahlen usw.
Wichtige Sonderzeichen: Line Feed (\n, Position 10), Carriage Return (\r, Position 13)
Windows-Zeilenumbrüche: \r\n, Linux: \n
zusätzliches Bit -> ISO 8859
ANSI vs. ASCII
Unicode vs. UTF-8
Häufige Fehler
Sonderzeichen werden als Fragezeichen dargestellt: Text ist in ISO 8859 codiert, wird aber als UTF-8 interpretiert
Sonderzeichen werden als zwei andere Zeichen dargestellt: Text ist in UTF-8 codiert, wird aber als ISO 8859 interpretiert
Literaturempfehlungen
*(direkt beim Rheinwerk-Verlag bestellen*)
Das passende Kapitel im OpenBook: 16 Weitere Datei- und Datenformate - Rheinwerk Computing :: IT-Handbuch für Fachinformatiker
Links
Permalink zu dieser Podcast-Episode
RSS-Feed des Podcasts
Zeichensatz – Wikipedia
Zeichenkodierung – Wikipedia
American National Standards Institute – Wikipedia
American Standard Code for Information Interchange – Wikipedia
ISO 8859 – Wikipedia
ISO 8859-1 – Wikipedia
UTF-8 – Wikipedia
The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) - Joel on Software
Character Encodings For Modern Programmers
Eine ausführliche Betrachtung der Historie von Zeichensätzen: RFCE013: ASCII