Studio & Heimstudio
Audio Equipment und Musikinstrumente Studio & Heimstudio
  • Textgrösse erhöhen oder verringern
  • Drucken

Eine Einführung in die Kodierung von Musik

Audio Encoding: Was bringt die Zukunft?
  • Like
  • Tweet
  • +1
  • Pin it
  • Mail

In der heutigen 'hochdefinierten' Welt erwarten wir von jedem Film, Bild und Klang die höchstmögliche Qualität. Es scheint so, als ob der Blue-Ray Standard den Markt schon bald übernehmen wird und den DVD Standard auf dasselbe Abstellgleis wie einst das VHS Band stellt.

Auf ähnliche Art und Weise sehen wir, wie die digitale Klangverarbeitung ein sehr ähnliches Ziel zu verfolgen scheint. Obwohl die Popularität des iPod und des MP3 Standards ein Zeitalter überkomprimierter, qualitativ minderwertiger Musik eingeläutet haben, so sehen wir auch ein erneutes Interesse an Schallplatten und Entwicklungen wie die Super Audio CD (SACD) von Sony. Diese neue Arten Audio zu kodieren könnte schon bald eine neue Ära der digitalen Klangqualität einläuten...vorausgesetzt diese Standards setzen sich durch.

Analog vs. Digital

Um zu verstehen, was Audio-Kodierung eigentlich bedeutet, sollte man erst einmal ein klares Verständnis haben, wo die Unterschiede zwischen analog und digital liegen. Ein analoges Signal ist ein natürlicher, reiner Klang. Die menschliche Stimme, eine Gitarre und eine Schallplatte sind alles sehr gute Beispiele dafür. Wenn eine Schallplatte aufgenommen wird so übernimmt eine Nadel die Vibrationen einer Klangquelle und schneidet diese direkt ins Vinyl. Deshalb wird auch heute noch gesagt, dass Vinyl die höchste Klangqualität besitzt. Ein analoges Signal kann alle Frequenzen übertragen – auch diejenigen, die für das menschliche Gehör nicht mehr hörbar sind. Deshalb tönt ein Orchester 'live' auch 'voller' als ein aufgenommenes.

OuvertureEin digitales Signal ist ein durch ein Haufen Einser und Nullen repliziertes Audio Signal. Das ganze kann man sich wie ein Bild vorstellen, dessen einzelne Pixel ebenfalls in Nullen und Einsen unterteilt werden. Die Musik auf einem iPod, CD oder MP3 sind allesamt Beispiele für digitale Reproduktion. Sogar eine Menge moderner Musikinstrumente haben digitalen Sound integriert: von digitalen Keyboards bis hin zu E-Drums und Effektpedalen für Gitarren. Die digitale Klangerzeugung findet mit einem Chip anstatt eines Schaltkreises statt und ist weitaus zuverlässiger, günstiger und einfacher in der Masse zu produzieren. Die Nachteile in der digitalen Wiedergabe liegen da eher in der reduzierten Klangqualität – doch dies sind Nachteile die durch neue Algorithmen und höhere Prozessorleistungen schon bald minimiert werden könnten.

Pulse Code Modulation (PCM)

Seit es die CD gibt ist die Methode mit der Audio digital kodiert wird die Pulse Code Modulation (PCM). Bei PCM wird das analoge Signal einer Stimme oder Musikinstrumentes in regelmässigen Zeitabständen ausgelesen und digital neu aufgebaut. Dies kann mit einem Taschenkino verglichen werden wo durch schnelles Blättern eine flüssige Animation entsteht. Es ist somit keine genaue Kopie des ursprünglichen Materials, aber eine sehr präzise Annäherung. Es gibt jedoch bei PCM zwei Einschränkungen durch die PCM trotz seiner bereits langen Lebensdauer zukünftig nicht mehr die ideale Technologie sein wird.

Plan de groupeSampling Frequenz

Das erste Problem mit PCM liegt in der Sampling Frequenz. Einfach gesagt ist dies die Anzahl 'Aufnahmen' pro Sekunde. Bei einer Standard Audio CD entspricht dies 44'100 mal pro Sekunde. Wenn man den mathematischen Begriff nehmen möchte so entspricht 'pro Sekunde' dem Wert Hertz (oder Hz). Demnach sind 44'100 Samples pro Sekunde gleich viel wie 44.1kHz (kiloHertz),
Wenn man die Frequenz eines Audio Signals wissen möchte, dann kommt Hertz ebenfalls zur Anwendung. Jede Note entspricht einer bestimmten Frequenz und jedes Instrument kann eine ganze Bandbreite solcher Frequenzen erzeugen. So ist zum Beispiel die E-Saite einer Bassgitarre in etwa 40Hz, während die höchste Note der G-Saite bei etwa 500-600Hz zu liegen kommt. Das menschliche Gehör kann etwa einen Frequenzgang von 20 Hz – 20kHz wahrnehmen.
Die höhere Grenze nimmt mit fortschreitendem Alter ab und mit der übermässig lauten Musik heutzutage kann der Durchschnitt wohl nur bis etwa 15kHz Signale wahrnehmen. Dennoch ist dies eine ziemlich grosse Bandbreite die von der digitalen Reproduktion abgedeckt werden muss.

Wenn ein Audio Signal digitalisiert wird muss es dem 'Nyquist Theorem' folgen. Dieser besagt, dass die Sampling Rate mindestens zweimal der Bandbreite des Audio Signals entsprechen muss. Somit muss eine Wellenform bei 1000 Hz eine Sampling Rate von mindestens 2000 Hz besitzen. Wenn man also ein Orchester mit allen hörbaren Frequenzen aufnimmt (also 20'000 Hz), dann sollte die Sampling Rate auf 40'000 Hz (oder 40kHz) gesetzt werden. Die Entscheidung die Standard Sampling Rate bei 44'1 kHz zu fixieren rührt von frühen Videorekordern her.
Auch wenn CDs keine Video Funktion besitzen, so verwendeten die ersten Aufnahmeprozesse dieselben Bauteile. Für Video Aufnahmen gab es damals zwei unterschiedliche Standards: PAL und NTSC. Beide besassen unterschiedliche Frequenzen. Die Festlegung auf 44.1 kHz war lediglich ein Kompromiss zwischen Sony und Philips um im Audio Recording Bereich eine globale Kompatibilität zu schaffen.
Somit wurde 44.1kHz die Standard Sampling Rate für Audio Dateien. Da sie kompatibel mit der Nyquist Frequenz ist können alle hörbaren Frequenzen aufgefangen werden. Dennoch sagt dies noch nichts über die Bit-Tiefe aus – die andere Limitierung der PCM.

Bit Tiefe

Plan de groupe


Bit Tiefe (oder Quantisierung) steht grundsätzlich für die Anzahl Speicherplätze die ein Audiosignal einnehmen kann. Im Binärcode bedeuten die Anzahl Bits eine Potenz der Nummer 2. Somit besitzt eine 16 bit Audio CD 2`16 – oder 65'536 – Quantisierungsstufen. Ein besseres Beispiel für Bit Tiefe kann in der Grafik rechts gesehen werden.
Hier sehen wir das analoge Signal (welches durch die rote Linie gekennzeichnet wird) und die Anzahl Quantisierungsstufen (die durch die grünen Linien angezeigt werden).


Plan de groupe



In der nächsten Grafik sehen wir die 'Annäherung' der analogen Wellenform als eine digitale Nachzeichnung (wird durch die blaue Linie angezeigt)
In diesem Beispiel sehen wir 10 Quantisierungsstufen auf denen das Signal verteilt werden kann. Wenn wir uns das analoge Signal anschauen, dann ist klar, dass dies nicht annähernd an das Original rankommt. Sobald jedoch die Anzahl 'bits' erhöht wird so wird auch das Abbild der Kurve genauer.






Plan de groupeIn dieser Grafik sehen wir ein Audio Signal mit 40 Quantisierungsstufen – somit wurde sie mit einer 4-fachen Sampling Rate derjenigen der ersten Grafik bearbeitet.

Es ist klar, dass mit Erhöhen der Quantisierungsstufen auch die Qualität des reproduzierten Audio Signals erhöht wird. Jedenfalls ist die Standard Audio CD auf 16 bit und 44.1 kHz fixiert worden. Auch wenn die CD klanglich weniger gut als die Schallplatte ist, so ist sie doch noch um Welten besser als eine MP3 Datei. Die bit Rate einer CD (die Anzahl bits die pro Sekunde übertragen werden) liegt bei ungefähr 1,411.2 kilobit/second (16 bit/Sample x 44100 Samples/Sekunde x 2 Kanäle / 1000 bits/kilobit). Wenn man das ganze in eine MP3 Datei umwandelt, dann werden die Anzahl bits/Sekunde drastisch reduziert. Eine Standard MP3 Datei liegt bei 128 kbit/s. Sogar die beste MP3 Datei kodiert nur bei 320 kbit/s. Die ist weitaus schlechter als eine Audio CD – welche ja für sich bereits nur eine 'Annäherung' an das analoge Signal darstellt! Sollten neue Entwicklungen im Bereich High Definition Audio in einer platzsparenden Art und Weise implementiert werde können, dann könnte es für MP3 schon bald wieder aus sein.

1-Bit Modulation

In den letzten Jahren hat eine andere Art der Audio Kodierung an Popularität gewonnen. Die SACD ist eines dieser Beispiele und Firmen wie Sony vermarkten Home Theatre Systeme mit 'High Definition Audio' in unterschiedlichen Produkten. Der Unterschied zwischen diesem neuen 'High Definition Audio' und dem 'Standard Audio' liegt in den meisten Geräten darin wie das Signal kodiert wurde. Anstatt PCM wird eine andere Technologie mit dem Namen 1-Bit Delta-Sigma Encoding verwendet.

Zwischen dem 1-Bit Sampling und der PCM gibt es ein paar fundamentale Unterschiede. Die Methode der Quantisierung ist wohl die offensichtlichste. In 16-bit PCM kann das Signal in 2^16, bzw. 65'536 Stufen erfasst werden. Obwohl die Auflösung durch Erhöhen der Bit-Zahl vergrössert werden kann, so wird durch durch jedes zusätzliche Bit ein weiterer Widerstand für die DAC (digital to analog conversion) benötigt. Somit werden in 16 bit insgesamt 16 Widerstände benötigt, die parallel das Signal erfassen. Bei einer 32 bit Kodierung steigt die Anzahl der Widerstände auf 32 Stück. Eine höhere Auflösung bedeutet somit nicht nur mehr Schaltkreise, sondern vor allem eine teurere Konstruktion.

Direct Stream Digital (DSD)

Im 1-Bit Sampling wird nur eine Quantisierungsstufe benötigt. Das Signal wird durch die DSD (Direct Stream Digital) Methode erfasst. In dieser Methode wird anstatt der gesamten Amplitude des Signals nur die jeweilige Veränderung registriert. Jedes Sample besitzt lediglich zwei Referenzpunkte – einen für ansteigende und einen für abfallende Amplitudenwerte. Somit kann über die 1-Bit Methode jede Instanz als 'on' oder 'off' klassifiziert werden. Es wird ein 'Treppen'-ähnliches System verwendet wo jedes Bit das analoge Signal als entweder 'rauf' oder 'runter' liest.
Dies wird in der untenstehenden Grafik gezeigt. Mit DSD nimmt der Kodierungsprozess zwar mehr Zeit in Anspruch, aber die Resultate besitzen eine weitaus höhere Auflösung.


Plan de groupe



Quantisierungsrauschen

Plan de groupeDa nur ein Bit verwendet wird besteht eine weitaus grössere Chance, dass Störgeräusche das Signal verzerren. Bei digitalem Audio wird 'noise' als die ungewollte Information beschrieben, die als Nebenprodukt von Aufnahme/Sampling Techniken auftreten kann. Ein bekanntes Beispiel dafür ist der 'Schnee' in einem Fernseher. In jedem digitalen Wandler (sei dies jetzt PCM oder 1-Bit) werden im Sampling Prozess Nebengeräusche erzeugt, die man 'Quantisierungsrauschen' nennt. Bei der PCM ist es nicht Möglicht diese Störgeräusche zu eliminieren. Das 1-Bit Sampling jedoch verwendet einen Feedback Loop in welchem das Ausgangssignal mit dem Eingangssignal verglichen wird um das Störgeräusch entsprechend zu 'formen'. Indem der Feedback Loop verwendet wird kann die Energie des Eingangssignales mit dem des Ausgangssignales verglichen und zusätzlich Störgeräusche effektiv unterdrückt werden. Die Störgeräusche werden aus ihrer ursprünglichen Bandbreite weit in den unhörbaren Bereich geschoben.
In der Grafik links sehen wir ein Beispiel für Noise Shaping.

Indem der Feedback Loop mehrere Male verwendet und mehrere unterschiedliche Samples mit dem ursprünglichen Signal verglichen werden, kann ein weitaus höherer Rauschabstand erzeugt werden (Signal-to-Noise-Ratio).

In der Grafik unten wird der entsprechenden Rauschabstand (SNR) bei unterschiedlichen Sampling Frequenzen angezeigt.

Plan de groupe


 


Oversampling

Plan de groupeMan beachte die Oversampling Rate auf der x-Achse in der letzten Grafik. Dieser existiert da ein 1-Bit Modulator nicht bei einer Frequenz von 44.1 kHz arbeitet. Um das Quantisierungsrauschen mit einzubeziehen muss eine weitaus höhere Frequenz verwendet werden. Dieser Wert entspricht oftmals dem 64-fachen der gewünschten Frequenz – als 64 x 44.1 kHz, oder 2.8 Ghz!
Indem so viele Samples genommen werden kann das unerwünschte Quantisierungsrauschen für jedes Sample entsprechend geformt und der Rauschabstand optimiert werden. Jedes Mal wenn die Sampling Frequenz verdoppelt wird bedeutet dies eine Reduktion des Quantisierungsrauschens. Je mehr sogenannte 'Modulators' geschaltet werden können, desto höher wird dieser Wert. Somit wird natürlich bei einem 64-fachem Wert der Sampling Frequenz der Rauschabstand massiv verbessert.

Die Grafik rechts zeigt den Frequenzgang für den Rauschabstand bei einem Modulator erster Ordnung und einem zweiter Ordnung.

Bei tiefen Frequenzen wird das Rauschen mit jeder weiteren Instanz effizienter unterdrückt. Dennoch werden hohe Frequenzen wegen des 'Noise-Shaping' bei der 1-Bit Modulation häufig verzerrt. Dazu gibt es im Vergleich bei der PCM über das gesamte Frequenzspektrum Quantisierungsrauschen.

Da das menschliche Gehör nur Frequenzen bis 20 kHz wahrnehmen kann erzeugt eine Sample Rate von 2.8 Ghz eine Menge redundante Datenmengen. Um das Signal wieder in ein 'vernünftiges' Format zu bringen wird ein Vorgang mit dem Namen 'Decimation' (also Dezimierung) verwendet um das Ausgangssignal wieder auf 44.1 kHz zu reduzieren. Dies wird durch Verwenden jedes 64. Samples bewerkstelligt.

Ein visuelles Beispiel dafür kann man in der nachfolgenden Grafik sehen.

Plan de groupe



Fazit

Die 1-Bit Modulation wurde bereits in einer Menge neuer 'High Definition' Audio Geräte verbaut und Entwickler werden diesen Prozess wohl in der Zukunft immer mehr verwenden, um 'Multi-Bit Modulators' und andere Hybrid Konvertierungen zu realisieren. Der Standard wurde von 'Audiophilen' akzeptiert und übernimmt langsam den Platz von PCM.

Ist aber der eine Standard wirklich besser als der andere? Die Debatte dazu hält an. Es kann aber gesagt werden, dass die 1-Bit Modulation einfachere Schaltkreise verwendet und vor allem in den tieferen Frequenzen einen höheren Rauschabstand besitzt. Der Signal-to-Noise-Ration ist weitaus besser – vielleicht mit Ausnahme der ganz hohen Frequenzen. Doch dort fallen die meisten Einstreuungen auch nicht mehr so ins Gewicht.

Das Design ist jedenfalls einiges einfacher und verwendet eine 'digitalere' Implementierung als PCM. Mit fortschreitender Programmierung werden wahrscheinlich Funktionen wie Noise Shaping ebenfalls verbessert werden. Sobald die 1-Bit Modulation in den zahlbaren Bereich vordringt, wird Konsumenten die schlechte Qualität von MP3 Dateien auffallen. Es werden dann bald Schritte vorgenommen um 1-Bit Audio in den portablen Markt zu übertragen und 'High Definition' Audio wird schon bald zur Norm werden. Bis dahin werden wohl nur ein paar Auserwählte wissen um wie viel besser die Klangqualität eigentlich in Wirklichkeit sein könnte.

Referenzen:

[1] John Watkinson, The Art of Digital Audio, 2nd edition, pg. 104[2] James C. Candy, Gabor C. Temes. “Oversampling Methods for A/D D/A Conversion, Oversampling Delta-Sigma Converters,” New Jersey, IEEE Press, 1992., p. 3-7.
[2] Figures 1,2, & 3 were Adapted from "Why does it say 1-bit Dual D/A converter on my CD player?". April 23, 2001 http://entertainment.howstuffworks.com/question620.htm (November 12, 2007)
[3] Figure 4. 1-bit sampling of standard sine wave. Adapted from An Introduction to Delta-Sigma Converters, Uwe Beis, August 2007. http://www.beis.de/Elektronik/DeltaSigma/DeltaSigma.html
[4] Figure 5. Noise shaping removes the quantization noise from a Delta-Sigma Modulator. Adapted from "Getting the Most Out of Delta-Sigma Converters," Russell Anderson, Analog Zone. http://www.analogzone.com/acqt0310.pdf
[5] Figure 6. Delta Sigma Conversion Noise - SNR vs. Oversampling Rate and Modulator Order (0 – 5). Adapted from An Introduction to Delta Sigma Converters, Uwe Beis, August 2007. http://www.beis.de/Elektronik/DeltaSigma/DeltaSigma.html
[6] Figure 7. Frequency Responses Causing Noise Shaping. Adapted from An Introduction to Delta Sigma Converters, Uwe Beis, August 2007. http://www.beis.de/Elektronik/DeltaSigma/DeltaSigma.html
[7] Figure 8. Decimation in the Time Domain. Adapted from A Brief Introduction to Sigma Delta Conversion, David Jarman, May 1995. http://www.intersil.com/data/an/AN9504.pdf
Sind Sie der erste, der auf diesen Artikel reagiert
  • Like
  • Tweet
  • +1
  • Pin it
  • Mail