Akademik

Komprimierung
Kompression; Druck; Verdichtung; Pressung

* * *

Kom|pri|mie|rung, die; -, -en:
das Komprimieren; das Komprimiertwerden.

* * *

Komprimierung,
 
die Umwandlung von Dateien in eine verkürzte Form, aus der sich die ursprünglichen Daten durch Dekomprimieren wieder rekonstruieren lassen. Man spricht auch vom »Packen« und »Entpacken« einer Datei. Der Begriff der Komprimierung bedeutet, korrekt aufgefasst, eine verlustfreie Dateiverkleinerung. Die in der Datei enthaltene »echte« Information bleibt dabei unverändert, der Komprimierungseffekt ist ausschließlich auf die Minimierung von redundanter Information zurückzuführen. Wenn dagegen die rekonstruierten Daten nicht mehr identisch mit den ursprünglichen sind, spricht man von verlustbehafteter Dateiverkleinerung oder von Datenreduktion; in diesem Fall werden nicht nur Redundanzen, sondern auch informationstragende Datenbereiche entfernt, der Informationsgehalt selber wird also reduziert. Sowohl im allgemeinen Sprachgebrauch als auch in der Fachsprache werden allerdings die Begriffe »Komprimierung« und »Reduktion« oft synonym gebraucht, sodass man nur aus dem Kontext erschließen kann, ob verlustfreie oder verlustbehaftete Speicherung gemeint ist. Nachfolgend soll »Komprimierung« allgemein für Dateiverkleinerung stehen.
 
Welche Komprimierungsart angewendet wird, hängt vom Typ der Information ab. Bei Text-, Tabellenkalkulations- oder Datenbankdateien ist prinzipiell nur eine verlustfreie Komprimierung erwünscht, denn man möchte nach dem Entpacken selbstverständlich genau den Inhalt zur Verfügung haben, wie er vor der Komprimierung vorlag. Das gilt auch für ausführbare Dateien (also Programmdateien). Die wichtigsten heute verwendeten Formate zur verlustfreien Dateikomprimierung sind:
 
-. zip: ursprünglich vom DOS-Programm Pkzip/Pkunzip, heute WinZip, meistverbreitetes Komprimierungsformat;
 
-. sit: von StuffIt, Hauptarchivformat in der Mac-Welt;
 
-. tar: Abk. f. »Tape Archive«, ursprünglich nicht komprimierendes Unix-Backup-Format, später in Verbindung mit Komprimierung als. tar.z (.taz),. tar.gz (.tgz).,. tar.zip;
 
-. arj,. lha,. ace: »Überbleibsel« aus der DOS-Zeit;
 
-. gz: vom Programm gzip, das Teil von GNU und damit auch von Linux ist;
 
-. z: vom Unix-Befehl »compress«, der wie. lha auf dem LZW-Algorithmus beruht;
 
-. cab: besonderes stark komprimierendes Format, in dem u. a. Windows-Installationen geliefert werden.
 
Bei der Komprimierung von Grafik-, Bild-, Video- und Audiodateien kommt der Faktor Mensch ins Spiel, genauer: die physiologischen Abläufe bei der Wahrnehmung. Bestimmte optische oder akustische Eindrücke lassen sich auch erzielen, wenn nicht die vollständige Information angeboten wird. Gewisse Qualitätsverluste können in Kauf genommen werden, wenn die entscheidende Information vermittelt und gleichzeitig Speicherplatz eingespart werden kann. Das heißt, in diesen Fällen wird sehr häufig die verlustbehaftete Komprimierung eingesetzt.
 
Die Grundlage jedes Komprimierungsverfahrens liegt in der Tatsache, dass alle Dateien Wiederholungen enthalten. Ein einfaches, das allgemeine Prinzip verdeutlichendes Beispiel ist die Buchstabenfolge BBBBBBBEEE, welche zehn Byte beansprucht (pro Buchstaben ein Byte). Das simpelste verlustfreie Komprimierungsverfahren besteht dann einfach darin, zu notieren, wie oft ein bestimmter Buchstabe vorkommt, im vorliegenden Fall also: 7B3E. Diese komprimierte Buchstabenfolge, die dieselbe Information wie die Originalbuchstabenfolge enthält, beansprucht nur 4 Byte, d. h., es konnte 60 % des Platzes gespart werden!
 
Speziell bei Textdateien kann noch ein weiteres Merkmal ausgenutzt werden: Bestimmte Zeichenfolgen tauchen sehr häufig auf, etwa die Wörter »und«, »der«, »die«, »dann« usw. Indem man ihnen ansonsten nicht benötigte Buchstaben aus dem ASCII-Zeichensatz (ASCII) zuweist, kann man sie durch ein Byte anstelle von drei und mehr Byte darstellen. Insgesamt schrumpfen Textdateien auf diese Weise beim Komprimieren auf etwa ein Viertel der ursprünglichen Größe zusammen. Handelt es sich um ein Dokument eines größeren Textverarbeitungsprogramms, kann man noch stärker komprimieren, da solche Dateien viele Format- und ähnliche Zusatzinformationen enthalten, die sehr gut zusammengefasst werden können.
 
Ausführbare Programme, sog. Exe-Dateien, und viele System-Files lassen sich wegen des hohen Anteils an Maschinensprache nicht sehr stark komprimieren. Maschinencode ist nämlich bereits recht effektiv in der Nutzung von Speicherplatz, jede Redundanz würde zu einer Verringerung der Rechnergeschwindigkeit führen. Dennoch können gute Komprimierungsprogramme die Länge einer ausführbaren Datei auf etwa die Hälfte verkleinern.
 
Noch besser als Texte kann man Bilder komprimieren. Der Grund hierfür ist die Tatsache, dass die meisten Bilder große Bereiche enthalten, in denen keine oder fast keine Änderungen auftreten: einfarbige oder leere Bereiche. Auch homogene gerade Linien sind bereits durch ihre Breite, die Koordinaten von Anfangs- und Endpunkt sowie eine einheitliche Farb- und Helligkeitsangabe definiert; es sind nur wenige Zeichen nötig, um diese Angaben zu repräsentieren. Dadurch wird minimaler Speicherplatz verbraucht im Vergleich zu einer Auflistung der (immer gleichen) Farb- und Helligkeitswerte an allen von der Linie überdeckten Pixeln. Abhängig von der Art eines Bildes (Kleinräumigkeit von Strukturen, Kontrast, Farbumfang) lassen sich Bilder verlustfrei auf die Hälfte bis auf weniger als ein Zehntel ihrer Ausgangsgröße komprimieren. Dieser hohe Komprimierungsgrad ist allerdings nur bei Bildern erreichbar, die im Format des Programms vorliegen, mit dem sie erzeugt wurden, die also nicht bereits über ein anderes Verfahren verlustbehaftet »vorkomprimiert« wurden.
 
Die bekanntesten Beispiele für verlustbehaftete Komprimierungsmethoden sind die Abspeicherung im JPEG- oder GIF-Format bei Grafiken und Bildern sowie im MPEG-Format bei Videodaten und im MP3-Format bei Audiodaten. Die Komprimierungsgrade hängen hier sehr stark von der Komplexität der Originaldatei ab, darüber hinaus von der Qualität, die im komprimierten Format erreicht werden soll. Einzelheiten dazu sind unter den jeweiligen Stichwörtern zu finden.
 
Zur verlustlosen Komprimierung werden spezielle Komprimierungsprogramme eingesetzt, die beliebige Dateien verkleinern können. Die komprimierten Dateien liegen dann im ZIP- oder ARJ-Format vor, um nur die bekanntesten Formate zu nennen. Diesen Formaten liegen unterschiedliche Verfahren der Erzeugung der komprimierten Datei zugrunde. Denn es gibt mehrere Wege, wie eine lange Originalzeichenfolge durch eine kurze, also komprimierte ersetzt werden kann. Man spricht auch von unterschiedlichen Kodierungsmethoden. ZIP und ARJ basieren z. B. auf der LZ-Kodierung in Kombination mit der Huffman-Kodierung, oft auch als LZH-Verfahren bezeichnet.
 
Die verlustbehaftete Komprimierung ist z. B. aus dem jeweiligen Anwendungsprogramm heraus möglich, mit dem die Originaldatei erzeugt wurde, und zwar meist, indem der Befehl »Speichern unter. ..« oder »Exportieren als. ..« aufgerufen wird.
 
TIPP:
 
Auch komprimierte Dateien können Computerviren enthalten. Sie sollten daher vor dem Dekomprimieren mit einem Antivirenprogramm geprüft werden.

* * *

Kom|pri|mie|rung, die; -, -en: das Komprimieren, Komprimiertwerden.

Universal-Lexikon. 2012.