deutschenglishImpressumSitemap
Universität Konstanz Fachbereich Informatik & Informationswissenschaft
Datenanalyse und Visualisierung Prof. Dr. Daniel A. Keim

Text Visualisierung

Bücher, Zeitungen, Patente, Service Reports, Protokolle, ... – ein großer Teil der schriftlich festgehaltenen Informationen liegt nicht in strukturierter Form vor sondern als Text. Nicht selten scheitert die Nutzung dieser wertvollen Informationsquellen daran, dass es zu viel Zeit in Anspruch nehmen würde, alle diese Texte zu lesen und entsprechend der jeweiligen Interessen auszuwerten.

Durch eine Kombination von automatischen und visuellen Techniken, kann diese Arbeit deutlich erleichtert und unterstützt werden. Unser Ziel ist es, Verfahren zu entwickeln, die es erlauben eine Dokumentenmenge im Hinblick auf eine bestimmte Fragestellung zu analysieren, ohne sie zu lesen.

Eines unserer Projekte auf diesem Gebiet beschäftigt sich beispielsweise mit der Analyse der öffentlichen Meinung in Bezug auf ein bestimmtes Produkt. Marketingabteilungen müssen wissen, wie ihr neues Produkt bei der Bevölkerung ankommt, welche Eigenschaften geschätzt werden und welche vermisst werden. Weiter ist es aber auch von Interesse, ob sich alle Personen einig sind und ob sich verschiedene Gruppen erkennen lassen. Da im Zuge von Web 2.0 immer mehr Menschen ihre Meinung im Internet kund tun und dieses somit auch in der öffentlichen Meinungsbildung eine immer größere Rolle spielt, stellt das Internet eine einfach zugängliche und interessante Informationsquelle dar, um Antwort auf die oben genannten Fragen zu bekommen. Eine solch große Menge an möglicherweise relevanten Texten ist ohne automatische Unterstützung aber praktisch nicht zu bewältigen.

Andere Projekte am Lehrstuhl beschäftigen sich mit der Analyse von Texten im Hinblick auf die Veränderung einer bestimmten Texteigenschaft über die Zeit oder mit der automatischen Strukturanalyse von Textquellen, um anschließend gezielter weitere Informationen extrahieren zu können.

Allen diesen Verfahren ist gemeinsam, dass zunächst die für die Fragestellung relevanten Aspekte des Textes algorithmisch erfasst werden. Somit wird es möglich, interessante Textquellen automatisch aufzufinden und die entsprechenden Informationen zu extrahieren. Anschließend werden die Ergebnisse der Analyse komprimiert und benutzerfreundlich dargestellt. Durch die Kombination von visuellen und automatischen Verfahren kann der Analyst in dem kompletten Prozess auf effektive Weise beteiligt werden. Somit wird es möglich, selbst die Aspekte des Textes zu berücksichtigen, die schwierig vollautomatisch erfassbar sind, sowie die individuellen Vorstellungen des Analysten einfließen zu lassen.

   

 

Anwendungsbeispiel 1: Age Suitability

Für Filme gibt es Kriterien zur Festlegung eines Mindestalters der Konsumenten. Doch wie kommen eigentlich Bücher zu ihrer Altersempfehlung? Hier sind es die Verleger und Buchhändler, die die Altersgrenze oft willkürlich festlegen. Dabei wissen Eltern, dass sich das so allgemein gar nicht sagen lässt. Kinder sind unterschiedlich sensibel. Und zwei Kinder im gleichen Alter können mit ganz unterschiedlichen Themen schon vertraut sein. Eine konkrete Altersempfehlung ist daher prinzipiell schwierig.

Johannes Fuchs und Franz Wanner haben ein Programm entwickelt mit dem sich analysieren lässt, ob ein Buch für eine bestimmte Altersgruppe geeignet ist.  Dafür haben sie zunächst Buchhändler befragt, welche Kriterien ihrer Meinung nach berücksichtigt werden sollten. Diese Kriterien haben sie dann in ihrem Computerprogramm messbar gemacht.

Ein von den Buchhändlern genannter Aspekt war beispielsweise die Komplexität der Handlung. Während manche Geschichten nur wenige Akteure haben und diese auch immer gemeinsam auftreten, springt bei anderen die Erzählung permanent hin und her. Um dies zu messen, bestimmen die Informatiker Johannes Fuchs und Franz Wanner in ihrem Programm zunächst die einzelnen handelnden Charaktere. Dafür suchen sie nach Hauptwörtern, die gehäuft in Verbindung mit sogenannten Kommunikationsverben wie „sagt“, „erzählt“ oder „fragt“ auftreten.  Anschließend wird in einer visuellen Darstellung gezeigt, wann welcher Charakter im Verlauf des Textes auftritt. So sieht man auf einen Blick, wie kompliziert oder einfach der Handlungsablauf eines Buches ist.

Weitere von den Buchhändlern genannte Aspekte waren die Emotionen, die beim Leser ausgelöst werden, aber auch die Verständlichkeit der Sprache und die Anzahl der Seiten des Buches. Darüber hinaus können auch die im Buch angesprochenen Themen darüber entscheiden, für welches Alter eine Geschichte geeignet ist. Nicht alle Kinder können mit Texten umgehen, in denen von Krieg und Verbrechen die Rede ist. Auch Sex und Horror sind Kategorien, die für jüngere Kinder nicht unbedingt geeignet sind. 

Das Programm analysiert alle diese Aspekte separat und präsentiert die Ergebnisse in einer übersichtlichen Darstellung. Vielleicht werden wir in Zukunft beim Einkauf von Kinderbüchern nicht nur über den Klappentext wählen, sondern auch andere Aspekte zu Rate ziehen können.

Wie komplex ist die Handlung des Buches? Die untenstehende Graphik zeigt die 7 Hauptakteure des Buches Harry Potter und der Stein der Weisen im Verlauf des Textes. Jede Zeile stellt einen Charakter dar. Je stärker eine Zelle eingefärbt ist, desto häufiger tritt der entsprechende Charakter in dem jeweiligen Absatz auf. Wie zu erwarten kommt Harry Potter selbst fast in jedem Abschnitt vor. Interessant ist aber, dass manche Charaktere wie beispielsweise Dumbledore und Dudley fast nie zusammen vorkommen.

 

Pressemitteilung zum Projekt: http://www.aktuelles.uni-konstanz.de/presseinformationen/2011/32/

Ansprechpartner: Johannes Fuchs und Franz Wanner

   

 

Anwendungsbeispiel 2: Lesbarkeitsanalyse

Gutes Schreiben leicht gemacht. Mit dem Programm VisRA zur Lesbarkeitsanalyse lassen sich schnell Sätze ausfindig machen, die einer Überarbeitung bedürfen. Im Unterschied zu normalen Tools zur Lesbarkeitsanalyse geht VisRA allerdings noch einen Schritt weiter. Eine zusätzliche automatische Analyse der Ursachen für die schlechte Lesbarkeit erlaubt es dem Nutzer gezielt Rückmeldung zu geben, was geändert werden muss, um den Text sprachlich zu verbessern.

Beispielgraphik: Links eine Übersichtsdarstellung die zeigt, wie hoch der Schwierigkeitsgrad der einzelnen Sätze ist. Rot steht hierbei für schwierig zu lesende Sätze, blau für einfache. In der Detaildarstellung auf der rechten Seite lässt sich sogar erkennen, durch was die schlechte Lesbarkeit verursacht wird. Neben jedem Satz wird einzeln aufgeschlüsselt, wie gut er im Hinblick auf die verschiedenen Aspekte (Komplexität der Satzstruktur, Satzlänge, Vokabular etc.) lesbar ist.

 

Ansprechpartner: Daniela Oelke und David Spretke

 

 

Anwendungsbeispiel 3: Meinungsanalyse

Wer kennt das nicht: Kurz vor dem Urlaub soll noch schnell eine neue Kamera gekauft werden. Bevor man ins Geschäft geht, informiert man sich im Internet über die derzeit verfügbaren Produkte. Besonders interessant sind dabei die Erfahrungen von anderen Kunden, wie sie auf vielen Verkaufsportalen veröffentlicht werden. Doch die vielen Informationen sind oftmals regelrecht erschlagend. Was dem einen Kunden gefällt, hat bei einem anderen die Ansprüche nicht erfüllt. Und selbst wer nur einen kleinen Teil der Kundenrezensionen liest, verliert schnell den Überblick.

Ziel der automatischen Meinungsanalyse ist es, in Rezensionen rechnergestützt die positiven und negativen Aussagen zu einem Produkt herauszufinden. Dabei wird zunächst bestimmt, welche Produkteigenschaften überhaupt häufig von den Kunden kommentiert werden. Anschließend wird jeder einzelne Text daraufhin untersucht, ob er eine Eigenschaft positiv oder negativ bewertet.

Um einem potenziellen Nutzer der Software langwieriges Durchforsten von Zahlenreihen zu ersparen, werden die gewonnenen Erkenntnisse visuell dargestellt. Dazu wird automatisiert ein tabellenartiges Bild erzeugt (siehe Graphik). Jede Zeile fasst die Kundenrezensionen eines bestimmten Produktes (in diesem Fall einer bestimmten Spiegelreflex-Kamera) zusammen. Für jede Produkteigenschaft, die kommentiert wurde, gibt es eine eigene Zelle. Über den Farbwert der Zelle wird dargestellt, wie stark positiv oder negativ ein bestimmter Aspekt der Kamera im Durchschnitt bewertet wurde. Blautöne drücken dabei eine positive Bewertung aus, wohingegen Abstufungen von Rottönen verwendet werden, um negative Bewertungen anzuzeigen. Die Größe des inneren Rechtecks gibt einen Hinweis darauf, wie viele Kunden die entsprechende Produkteigenschaft bewertet haben. Diese Information ist wichtig, da es immer einzelne Kunden gibt, die eine Sondermeinung haben und diese nicht überbewertet werden sollte.

In der Beispielgraphik unten ist leicht zu erkennen, welche Stärken und Schwächen die einzelnen Kameras haben. So scheinen die Lebensdauer der Batterien sowie das mitgelieferte Objektiv bei keinem der betrachteten Geräte ein ernsthaftes Problem zu sein. Wohl aber der LCD-Monitor und die Bedienungsanleitung. Hier zeigen sich deutliche Unterschiede zwischen den einzelnen Kameras.

Gerade solche Aspekte, die bei einem Produkt positiv bewertet wurden und bei einem anderen negativ, sind für die Kaufentscheidung besonders interessant. Hier gilt es die Vor- und Nachteile gegeneinander abzuwägen. Eine Entscheidung, welches Produkt das Beste ist, lässt sich meist nicht allgemein treffen. Und somit auch nicht vollautomatisch. Es kommt entscheidend darauf an, worauf der Kunde Wert legt. Eine aussagekräftige graphische Darstellung hat hier klare Vorteile gegenüber einem bloßen Ranking nach der Gesamtbewertung.

Beispielgraphik: Visuell dargestellt lassen sich schnell die Stärken und Schwächen der einzelnen Kameras erkennen. Verarbeitet wurden ca. 2000 Kundenrezensionen zu 7 verschiedenen Spiegelreflex-Kameras.

 

Ansprechpartnerin: Daniela Oelke

   

 

Herausgeber: Universität Konstanz
Zuletzt geändert am 16.04.2012, 16:31 durch: webmaster

Kontakt zum Webmaster »