WETTBEWERB ZUR BILDKOMPRESSION MIT WAVELETS





Inhalt

 1. Ausgangssituation
 2. Testszenario und Ablauf der Auswertung
     2.1. Subjektive Bewertung bei Farb- und Graustufenbildern
         2.1.1. Testprozedur
         2.1.2. Auswertung
     2.2. Objektive Bewertung bei Farb- und Graustufenbildern
         2.2.1. Testprozedur
         2.2.2. Auswertung
     2.3. Zusammenfassende Bewertung bei Farb- und Graustufenbildern
     2.4. Subjektive Bewertung bei CR- CT-Bildern
         2.4.1. Testprozedur
         2.4.2. Auswertung
     2.5. Objektive Bewertung bei CR- CT- und Satellitenbildern
 3. Zusammenfassung
 4. Verfahrenstabelle
 5. Ergebnisse der Auswertung
       Beurteilung der Verfahren bezüglich PSNR
       Subjektive Beurteilung von Standardbilder / Farbbilder
       Subjektive Beurteilung der medizinischen Bilder
       Wertung der Verfahren bezüglich der Rechenzeitenzeiten
       Wertung der Verfahren bezüglich RAM-Nutzung
 6. Testbilder des Wavelet Wettbewerbes

1. Ausgangssituation

In der c't, Ausgabe 1/99, wurde zu einem Wettbewerb zur Beurteilung der Leistungsfähigkeit waveletbasierter Standbild-kompressionsverfahren aufgerufen. Bis zum 15.02.99 konnten entsprechende Verfahren bei den Veranstaltern - Prof. Heinz-Otto Peitgen (Universität Bremen) und Prof. Peter Maaß (Universität Potsdam) - eingereicht werden.

Anhand dieses Wettbewerbs sollte eine Übersicht über die Leistungsfähigkeit dieser Verfahren erarbeitet werden. Darauf aufbauend werden Vorschläge für die Standardisierung von waveletbasierten Kompressionsalgorithmen entwickelt. Da zwei der Einsender an der Vorbereitung des JPEG-2000-Standards beteiligt sind, werden die Erkenntnisse aus dem Wettbewerb auch in die zukünftigen Standardisierungsbemühungen eingearbeitet.

Erfreulicherweise war die Resonanz auf diesen Aufruf recht hoch. Dies verdeutlicht das Potential, das Forschung und Industrie dieser Problematik beimessen. Nicht weniger als 7 Verfahren wurden in diesem Wettbewerb verglichen.

Die Auswertung fand in der Zeit vom 16.02.99 bis 12.03.99 an den Universitäten Bremen und Potsdam unter der Leitung von Prof. H.-G. Stark (FH Würzburg-Schweinfurt-Aschaffenburg) statt.

Ein Kompressionsverfahren wird umso besser sein, je weniger die komprimierten Bilder von den Originalen abweichen. Um hierzu möglichst umfassende und praxisgerechte Aussagen zu erhalten, wurden folgende Beurteilungskriterien herangezogen:

Die obige Mischung aus subjektiven und objektiven Kriterien berücksichtigt die Tatsache, daß bei der Bildbeurteilung durch Betrachter häufig Gesichtspunkte eine Rolle spielen, die durch meßbare Größen alleine nicht erfaßt werden. Die Frage, ob sich derartige Kriterien überhaupt quantitativ werden messen lassen können, ist nach wie vor offen und kann hier nicht entschieden werden.

2. Testszenario und Ablauf der Auswertung

Basis für die Auswertung war der folgende Satz an Testbildern:
 
Kategorie Anzahl Verlangte Kompressionsraten
Farbbilder 6 1:10, 1:30, 1:100 
Graustufenbilder 2 1:10, 1:20, 1:40
Röntgenbilder 2 1:8, 1:16, 1:32 
CT-Bilder 2 1:4, 1:8, 1:16 
Satellitenbilder 2 1:8, 1:16, 1:32

Insgesamt gingen damit 42 komprimierte Bilder in die Auswertung ein. Die Farbbilder stellen Alltagssituationen dar, erfordern also kein Expertenwissen. Dasselbe trifft auf die ausgewählten Graustufenbilder zu, die in die Auswertung mit einbezogen wurden, da sie sich in den letzten Jahren als "Quasistandard" zur Beurteilung der Güte von Kompressionsverfahren etabliert hatten. Bei beiden Bildklassen wurde die subjektive Bewertung durch eine Auswahl unvoreingenommener Betrachter vorgenommen. Da die Interpretation von Röntgen- CT- und Satellitenbildern entsprechendes Fachwissen erfordert, wurde diese Bewertung von Experten durchgeführt.

2.1. Subjektive Bewertung bei Farb- und Graustufenbildern

2.1.1. Testprozedur

Obige Tabelle führt zu 8*3=24 Testbildern, bei denen die einzelnen Verfahren miteinander verglichen werden können. Diese Prozedur wurde dreimal durchgeführt, so daß sich insgesamt 72 Experimente ergeben, die von 10 Testpersonen durchgeführt wurden. Dabei wurde folgendermaßen vorgegangen:

2.1.2. Auswertung

Abb. 1: Subjektive Bewertung bei Graustufenbildern



Abb. 2: Subjektive Bewertung bei Farbbildern
2.2. Objektive Bewertung bei Farb- und Graustufenbildern

2.2.1. Testprozedur

Die Messungen wurden für jedes der in 2.1.1 erwähnten 24 Bilder durchgeführt

und umfaßten im einzelnen:

2.2.2. Auswertung

Abb. 3: PSNR-Gesamtwertung bei Graustufenbildern


Abb. 4: PSNR-Gesamtwertung bei Farbbildern

Die zu den jeweiligen Spezifikationen nach Kompressionsraten gehörenden Diagramme können unter Beurteilung der Verfahren bezüglich PSNR eingesehen werden.

2.3. Zusammenfassende Bewertung bei Farb- und Graustufenbildern

Es fällt auf, daß bei den Graustufenbildern im oberen Bereich eine sichtbare Korrelation zwischen subjektiver Bewertung und objektiver Bewertung anhand des PSNR-Abstands besteht: Bei Abb. 1 und Abb. 3 schält sich dasselbe Spitzentrio heraus. Andererseits gilt dies im unteren Bereich nicht: Das nach PSNR-Maßstäben "schlechteste" Verfahren wurde subjektiv keineswegs als solches empfunden. Die gute Korrelation im oberen Bereich ist bei den Farbbildern nicht mehr so deutlich: Abb. 2 und Abb. 4 isolieren nur noch dasselbe Spitzenduo, das zudem mit dem "Farb-Spitzenduo" nicht identisch ist. Grundsätzlich bleibt aber festzuhalten, daß - sowohl bei den PSNR-Messungen als auch der objektiven Bewertung - die Schwankung bei der Gesamtbewertung unter den besten 6 der untersuchten Verfahren relativ gering ist. Dabei sind die Unterschiede in der subjektiven Bewertung etwas signifikanter, als bei der Bewertung anhand der PSNR-Messung. Dies wird insbesondere bei der Ausdifferenzierung der Diagramme nach Bildarten und Kompressionsraten deutlich (s. obige Webadresse) - ein Hinweis darauf, daß subjektives Empfinden und PSNR-Messung nicht vollständig korreliert sind.

2.4. Subjektive Bewertung bei CR- CT-Bildern

2.4.1. Testprozedur

Die Begutachtung der medizinischen Testbilder erfolgt unter diagnostischen Gesichtspunkten, die Kriterien der Bildverarbeitung wurden nicht berücksichtigt. Bei der Bestimmung einer qualitativen Reihenfolgen der Wettbewerbsbeiträge fanden nur die Bilder mit der höchsten Kompressionsstufe Verwendung. Angesicht der guten Qualität der komprimierten Bilder war es den Testpersonen nicht möglich bei niedrigen Kompressionsraten ein eindeutiges Ranking vorzunehmen. Die komprimierten Bilder wurden drei Radiologen zur Beurteilung vorgelegt. Unter der Variation des Kompressionsverfahrens legte jeder Gutachter eine eindeutige Reihenfolge unter den Bilder fest. Das beste Kompressionsergebnis wurde mit (1), das schlechteste Resultat mit (7) bewertet. Aufgrund der eingeschränkten Testmenge waren für diese Testprozedur 3*4*7=84 Experimente durchzuführen. Für die Versuche fanden die folgenden Testbilder Verwendung:
 

Testbild
Verlangte Kompressionsrate
Röntgenbild Thorax
1:32
Röntgenbild Bein
1:32
CT-Aufnahme Thorax
1:16
CT-Aufnahmen Kopf
1:16

2.4.2. Auswertung

In Analogie zu den in 2.1.2 beschriebenen Verfahren wurde die subjektive Bewertung vorgenommen. Unter der Variation der Kompressionsverfahren vergab jeder Gutachter die Noten (1) Gut – 7 (Schlecht) an die jeweiligen Testbilder. Die Addition der drei Benotungen ordnete jedem Verfahren bezüglich der vier Testbilder einen Wert zu. Je geringer dieser Wert, desto besser die subjektive Qualität des Bildes.


Abb. 5: Subjektive Bewertung bei CT-Aufnahme Thorax

Die zu den verlangten Kompressionsraten gehörenden Teilwertungen können unter Subjektive Beurteilung der medizinischen Bilder abgerufen werden..
 

2.5. Objektive Bewertung bei CR- CT- und Satellitenbildern

Testprozedur und Auswertung erfolgten genauso, wie in 2.2.1 bzw. 2.2.2 für Farb- und Grauwertbilder beschrieben.
Die PSNR-Gesamtwertungen sind in den Abbildungen 6-8 dargestellt.
 
 


Abb. 6: PSNR-Gesamtwertung bei CR-Bildern


Abb. 7: PSNR-Gesamtwertung bei CT-Bildern


Abb. 8: PSNR-Gesamtwertung bei Satellitenbildern

Die zu den 3 verlangten Kompressionsraten gehörenden Teilwertungen können wieder unter Beurteilung der Verfahren bezüglich PSNR abgerufen werden..

Zu Speicherbedarf und Laufzeitverhalten:

Die zugehörigen Daten wurden mit den entsprechenden Werten bei Farb- und Graustufenbildern zusammengefaßt und sind in den Abbildungen 9 und 10 dargestellt.


Abb. 9: Gesamtwertung bzgl. Rechenzeit


Abb. 10: Gesamtwertung bzgl. Speicherbedarf

3. Zusammenfassung

Die Ergebnisse dieser Untersuchung zeigen, daß offensichtlich die mit der Waveletkompression verknüpften Erwartungen mittlerweile erfüllt werden können: Die bei einem definierten Qualitätsanspruch erzielbaren Kompressionsraten übertreffen die Werte des JPEG-Standards bei weitem und dies bei vertretbarem Verhalten hinsichtlich Programmlaufzeit und Speicherbedarf. Die Tatsache, daß die besten 6 der 7 untersuchten Verfahren keine drastischen Qualitätsunterschiede aufweisen, weist weiterhin darauf hin, daß das zugrundeliegende Know-How (Waveletauswahl, Parametersetting, Codierverfahren,...) in der "Entwicklergemeinde" mittlerweile einen Stand erreicht hat, der Waveletmethoden im Hinblick auf die eingangs angesprochene JPEG-2000-Standardisierung eine solide Ausgangsposition verschafft. Ist man an einer möglichst breiten Anwendbarkeit der Kompessionstechnologie interessiert, so haben sich die Verfahren 1 und 3 als Spitzenreiter erwiesen: Bei der Zusammenfassung der Messungen über alle Bildarten und Kompressionsraten hinweg lieferten sie die besten Ergebnisse. Ein Vergleich mit den Abbildungen 11 und 12 zeigt, daß erfreulicherweise diese Verfahrensgüte nicht mit einem erhöhten Ressourcenaufwand einhergehen muß. Es sollte aber abschließend nochmals betont werden, daß die Unterschiede in den Leistungsdaten der besten 6 Verfahren nicht so gravierend sind, daß sie eindeutige "Sieger" oder "Verlierer" liefern: Differenziert man die Leistungsdaten nach Bildmaterial und Kompressionsraten (s. obige Abbildungen und die angegebene Webadresse), so zeigt sich, daß die Verfahren ihre spezifischen Stärken und Schwächen haben, die wohl an die Entstehungsgeschichte und die ursprünglichen Anforderungsprofile der jeweiligen Algorithmen gekoppelt sind.

4. Verfahrenstabelle
 
Nummer Entwickler
1 Zipproth
2 Uni Rostock
3 FHTW/ Telekom BERKOM
4 Luratech
5 Image&Video Compr.
6 Uni Potsdam
7 MeVis/CeVis, Uni Bremen