Schlüsseltechnologie

STP025: Datenkompression


Listen Later

Trotz des Themas haben wir es nicht geschafft, uns kurz zu fassen. Xyrill musste den Preis dafür zahlen. In dieser Sendung: Ein Einstieg mit flachen Witzen, gezinkte Münzen, naive Betrachtungsweisen und schwierige Abwägungen.

Shownotes
  • Einführungsbeispiel: simulierte schlechte Leitung ("xxxxxx heute xxxxxx Podcast xxxxxx Thema xxxxxx Kompression xxxxxx" -> "In unserer heutigen Folge unseres Podcasts ist das Thema die Datenkompression.")

    • naiver Impuls eines Erstsemester-Linguistikstudenten: "Warum sagt man nicht gleich 'heute Podcast Thema Kompression'?"
    • Sprache ist so gestaltet, dass auch teilweise fehlerhafte Informationen noch korrekt ankommen
    • beim Hören intuitiver Einsatz eines Vorhersagemodells, um kommende Silben/Wörter/Phrasen vorherzusagen
    • theoretische Grundlagen

      • Bit: Basiseinheit für Informationsgehalt (enstprechend der Auswahl aus zwei gleich wahrscheinlichen Möglichkeiten), allerdings nicht im SI-System verankert
      • Beispiel Münzwurf:
        • ideale Münze (50% Kopf + 50% Zahl) liefert 1 Bit pro Wurf
        • reelle Münze liefert mehr als 1 Bit pro Wurf (z.B. 49,5% Kopf + 49,5% Zahl + 1% Kante -> 1,07 Bit pro Wurf)
        • gezinkte Münze liefert weniger als 1 Bit pro Wurf (z.B. 10% Kopf + 90% Zahl -> 0,469 Bit pro Wurf)
        • gute Komprimierbarkeit = niedriger Informationsgehalt -> häufiger, als man denkt (Bsp. nebeneinanderliegende Pixel eines Bildes sind ähnlich)
        • Zusammenhang mit physikalischer Entropie: Systeme mit geringer Entropie (z.B. Eisblock) sind einfach vorherzusagen, Beobachtungen haben geringen Informationsgehalt; Systeme mit hoher Entropie (z.B. Wasserdampf) sind schwer vorherzusagen, Beobachtungen haben hohen Informationsgehalt
        • "naive" Kompressionsmethoden (die man auch als Mensch überblicken kann)

          • Nutzung von Allgemeinwissen
            • Beispiel aus der Vorbereitung: "Schachbrett" im Kontext von Exponentialfunktionen ruft die Assoziation einer ganzen Geschichte auf
            • Wörterbuchmethode für Text
              • Beispiel aus Wikipedia: "wenn Fliegen hinter Fliegen fliegen, fliegen Fliegen Fliegen nach" -> "wenn Fliegen hinter \2 fliegen, \5 \2 \2 nach"
              • RLE (Run-Length Encoding) z.B. in Bildern wie dem Coverart dieses Podcasts
              • Huffman-Kodierung wie im Morse-Code (Verbindung zur Linguistik!)
              • Minifizierung von Skripten
                • Beispiel: jQuery 3.6 ohne Minifizierung und mit Minifizierung
                • zwei fundamentale Abwägungen

                  • Geschwindigkeit vs. Stärke (z.B. Debian-Pakete mit zwei getrennten Bereichen, die verschiedene Kompressionsverfahren nutzen)
                  • verlustfrei vs. verlustbehaftet (Bsp. Pentaradio vom Mai 2022: Radiofassung als FLAC 271,7 MiB; Endprodukt als Opus 52,0 MiB)
                  • Kompressionsmethoden im Audio-Video-Bereich beispielhaft anhand ihres Verlustverhaltens

                    • Blockartefakte bei JPEG
                    • Psychoakustik bei MP3
                    • Datamoshing bei Videos (Beispiel) illustriert Bedeutung von Intra-Frames
                      • siehe auch dasselbe Video, 1000-mal komprimiert und dekomprimiert
                      • Einfluss fester Bitrate auf Audio/Videos
                      • theoretische Grenze: Kolmogorow-Komplexität

                      • Fußnoten:

                        • ttimeless fühlt sich verpflichtet, auf den RFC-Podcast zu verlinken
                        • David Kriesel: "Traue keinem Scan, den du nicht selbst gefälscht hast"
                        • ...more
                          View all episodesView all episodes
                          Download on the App Store

                          SchlüsseltechnologieBy Xyrillian Noises


                          More shows like Schlüsseltechnologie

                          View all
                          Chaosradio by Chaos Computer Club Berlin

                          Chaosradio

                          7 Listeners

                          Freak Show by Metaebene Personal Media - Tim Pritlove

                          Freak Show

                          10 Listeners

                          Logbuch:Netzpolitik by Metaebene Personal Media - Tim Pritlove

                          Logbuch:Netzpolitik

                          7 Listeners

                          Methodisch inkorrekt! by Methodisch inkorrekt!

                          Methodisch inkorrekt!

                          14 Listeners

                          c’t uplink - der IT-Podcast aus Nerdistan by c’t Magazin

                          c’t uplink - der IT-Podcast aus Nerdistan

                          7 Listeners

                          Jung & Naiv by Tilo Jung

                          Jung & Naiv

                          40 Listeners

                          heiseshow by heise online

                          heiseshow

                          2 Listeners

                          Übermedien by Übermedien

                          Übermedien

                          3 Listeners

                          Lage der Nation - der Politik-Podcast aus Berlin by Philip Banse & Ulf Buermeyer

                          Lage der Nation - der Politik-Podcast aus Berlin

                          220 Listeners

                          Die Wochendämmerung - Der stabile Wochenrückblick by Katrin Rönicke und Holger Klein (hauseins)

                          Die Wochendämmerung - Der stabile Wochenrückblick

                          15 Listeners

                          Sicherheitshalber by Der Podcast zur sicherheitspolitischen Lage in Deutschland, Europa und der Welt.

                          Sicherheitshalber

                          45 Listeners

                          Bit-Rauschen: Der Prozessor-Podcast von c’t by c't Magazin

                          Bit-Rauschen: Der Prozessor-Podcast von c’t

                          1 Listeners

                          Legion by rbb | NDR | Undone

                          Legion

                          5 Listeners

                          Haken dran – das Social-Media-Update der c't by Gavin Karlmeier

                          Haken dran – das Social-Media-Update der c't

                          2 Listeners

                          Passwort - der Podcast von heise security by Dr. Christopher Kunz, Sylvester Tremmel

                          Passwort - der Podcast von heise security

                          3 Listeners