Datenauswertung

Wilfried Schütte

Hier finden Sie eine Einführung in die qualitative Datenanalyse (QDA) und Kurzdarstellungen von QDA-Programmen, die auch für die Gesprächsforschung interessant sind. Außerdem werden hier Datenbanken zur Verwaltung von und Recherche in Korpora gesprochener Sprache sowie Konvertierprogramme vorgestellt, mit denen Transkripte aus unterschiedlichen Anwendungen konvertiert und in einer gemeinsamen Oberfläche verwaltet werden können. Die Darstellung stützt sich z.T. auf die Abstracts, die die Aussteller zur Fachmesse zur Korpustechnologie am 11.3.2009 während der IDS-Jahrestagung eingereicht haben.

Überblick

ANNEX

ANNEX mit Oszillogramm- und Timeline-Ansicht:

Zur Großdarstellung in einem neuen Fenster/Tab bitte auf die Bildvorschau klicken!

ANNEX steht für "ANNotation EXploration" und ist ein Werkzeug für die webbasierte Recherche in annotatierten Korpus-Ressourcen (einschl. Video, Audio und Text).

Eine manuelle Annotation gestreamter Medien-Daten, von Zeitreihen-Daten und Text-Sequenzen, wie sie in vielen Bereichen der Sprachwissenschaft und darüber hinaus durchgeführt wird, ist eine zeitaufwändige Arbeit. Eine Reihe von leistungsstarken Werkzeugen unterstützen Forscher bei ihrer Arbeit, aber die meisten dieser Annotation-Tools operieren auf lokalen Computern. Da jedoch mehr und mehr die sprachlichen Ressourcen in einem Web-Archiv zugänglich sind, wollen die Forscher von den neuen Möglichkeiten profitieren. ANNEX soll diese Lücke füllen; es bietet eine web-basierte Analyse von komplexen kommentierten Medien-Streams. Derzeit ist ANNEX nur ein Werkzeug für den Ansichts-Modus, aber bald sollen Annotationen auch editierbar werden. Bei der Verwendung von ANHANG müssen Benutzer keine Sprach-Ressourcen herunterladen. Für ihre linguistische Arbeit können sie einfach eine normalen Web-Browser und frei verfügbare Browser-Plugins verwenden.

In ANNEX gibt es eine klare Trennung zwischen der Datenverarbeitung auf dem Server und der Anzeige von Daten auf dem Client. Ressource-Dateien, die auf dem Server in unterschiedlichen Annotationsformaten (Shoebox, CHAT, ELAN) gespeichert sind, werden automatisch in ein einziges (und einfaches) XML-Format konvertiert. Die einzige Voraussetzung, um ANNEX mit weiteren Annotaionsformaten nutzen zu können, ist ein Parser zur Konvertierung dieser Formate in das erforderliche XML-Format.

Daten werden zwischen Server und Client in XML und in Nur-Text-Formaten (für numerische Daten zum Oszillogramm) ausgetauscht. Durch diese klare Trennung zwischen Server und Client wird es ermöglicht, die gegenwärtige ANNEX-Schnittstelle mit anderen Servern für Korpus-Ressourcen zu verbinden und mehrere Benutzer-Schnittstellen auf der Client-Seite zu schaffen, z.B. um unterschiedlich komplexe Benutzeroberflächen entwickeln, andere Entwicklungstechnologien für Clients wie AJAX, Silverlight oder JavaFX benutzen und auf denselben ANNEX-basierten Server für Korpus-Ressourcen zugreifen zu können.

Kontakt:
Thomas Koller (thomas.koller@mpi.nl)

http://www.lat-mpi.eu/tools/annex/

BAS - Bayerisches Archiv für Sprachsignale

Das Bayerische Archiv für Sprachsignale BAS erstellt und vertreibt Sprachkorpora für die Entwicklung von Sprachtechnologie sowie die phonetische und linguistische Grundlagenforschung. Zwei aktuelle Korpora sind:

  • Ph@ttSessionz ist eine Sprachdatenbank mit den Stimmen Jugendlicher, aufgenommen über das Internet an Gymnasien in Deutschland. Das Sprachmaterial besteht aus gelesenem anwendungsnahem Vokabular (Ziffern, Zahlen, Datums- und Zeitangaben), phonetisch reichen Sätzen und freien Antworten auf einfache Fragen (Was habt ihr in den letzten Ferien gemacht?). In der ersten Ausgabe enthält die Sprachdatenbank über 110.000 Äußerungen von 864 Sprecherinnen und Sprechern im Alter von 12-20 Jahren. Sämtliche Äußerungen sind orthographisch transkribiert. Insgesamt umfasst die Sprachdatenbank 89 Stunden Sprachdaten (53 h anwendungsorientiert, 23 h phonetisch reich, 13 h spontan) in technisch hoher Qualität (Nahbesprechungs- und Raummikro, 22,05 kHz bei 16 Bit stereo). Die erfassten demographischen Angaben zu den Sprechern sind Geschlecht, Alter, Akzent, eigene und die Muttersprache der Eltern, Aufnahmeort, Größe und Gewicht.

  • ALC ist eine Sprachdatenbank mit Aufnahmen von Personen in alkoholisiertem und nüchternem Zustand. ALC ist eine Kooperation des BAS mit dem Institut für Rechtsmedizin der LMU. Die Sprachdatenbank bildet die Grundlage für empirische Untersuchungen der Stimmqualität und der Sprachleistung unter Alkoholeinfluss. ALC enthält gelesene Items, Zungenbrecher und frei gesprochene Äußerungen. Die Aufnahmen erfolgen im stehenden Fahrzeug über ein Nahbesprechungs- und ein Raummikrofon in 44,1 kHz 16 Bit stereo. In der Endfassung soll ALC 200 verschiedene Sprecher mit einem Gesamtumfang von 2 Mio. phonetischen Segmenten enthalten.

Für beide Korpora wird die vom BAS entwickelte Software SpeechRecorder eingesetzt. Diese ist Plattform-unabhängig und frei verfügbar.

Kontakt:
Christoph Draxler (draxler@phonetik.uni-muenchen.de)

http://www.bas.uni-muenchen.de/forschung/Bas/BasHomedeu.html

COMA - Corpus Manager

coma-screenshot-800.jpg

Zur Großdarstellung in einem neuen Fenster/Tab bitte auf die Bildvorschau klicken!

Mit dem EXMARaLDA Corpus-Manager (Coma) lassen sich EXMARaLDA-Transkriptionen und die dazugehörigen Aufnahmen mit Metadaten anreichern und zu Korpora zusammenfassen. Es können jeweils Metadaten zu den beteiligten Sprechern, zu den Kommunikationen (Konstellationsdaten), den Aufnahmen und den eigentlichen Transkriptionen erfasst werden. Über Suchfunktionen lassen sich über diese Daten Teilkorpora zusammenstellen, die anderen EXMARaLDA-Werkzeugen als Basis dienen können. Die Java-Anwendung ist unter Windows, Linux und MacOS (ab 10.3) sowie anderen Betriebssystemen mit einer aktuellen Java-Laufzeitumgebung lauffähig.

Kontakt:
Kai Wörner (kai.woerner@uni-hamburg.de)

http://www.exmaralda.org/coma.html

DAT - Datenbankanwendung zur Analyse von Transkripten

Im Zentrum steht die praktische Vorführung einer Software zur Verwaltung, Annotation und komplexen Auswertung von Gesprächstranskripten. Das Programm stellt Werkzeuge für die Analyse von Transkripten bereit. Grundlage für die Arbeit in DAT sind importierte Transkripte, die hier mit zusätzlichen Kodierungsspuren versehen und ausgewertet werden können. Die Anwendung ist als Access-Projekt realisiert, bei dem die relationale Datenbank "SQL Server 2005 Express" für die Datenhaltung eingesetzt wird. Zusätzlich zu der Access-Version der Datenbank gibt es eine Web-Version (DATonline), die den für Auswertungen nötigen Funktionsumfang bietet.

Das Programm hat folgende Funktionsschwerpunkte:

  • Einteilung des Datenbestandes nach Forschungsprojekten

  • Allgemeine Verwaltungsfunktionen

  • Import und Export von Daten in einem XML-Format, das zu EXMARaLDA kompatibel ist

  • Verschiedene Darstellungen der Daten eines oder mehrerer Transkripte

  • Hinzufügen und Entfernen von Auswertespuren (Kodierung)

  • Definition von Kennzahlen und deren Einbeziehung in die Auswertungen

  • Verschiedene Such- und Zählfunktionen für alle Transkripte über mehrere Ebenen

  • Darstellung der Ergebnisse im HTML- und Excel-Format

  • Speicherung, Zusammenfassung und Reproduktion von Abfragen

Beim Kodieren ist eine Überwachungsfunktion aktiv, die nur solche Eingaben zulässt, die mit einem vorher festgelegten Vorrat der erlaubten Kodierzeichen übereinstimmen. Damit wird sichergestellt, dass eine spätere Suche korrekte Werte liefert. Als Erweiterung des Kodiersystems kann der Benutzer eigene Kennzahlen (z.B. "Die mittlere Satzlänge einer Spur") definieren. Diese werden anschließend automatisch berechnet und einzelnen Spuren bzw. Segmenten zugeordnet. Zur Auswertung sind Such- und Zählfunktionen für die gleichzeitige Suche auf bis zu fünf Ebenen möglich.

Kontakt:
Sebastian Frank (sefrank@rumms.uni-mannheim.de)

http://www.anglistik.uni-mannheim.de/anglistik_i/forschung/dat_datenbank_fuer_transkripte/index.html

EXAKT

exakt.gif

Zur Großdarstellung in einem neuen Fenster/Tab bitte auf die Bildvorschau klicken!

Mit dem EXMARaLDA-Suchwerkzeug EXAKT ("EXMARaLDA Analyse- und Konkordanztool") lassen sich Korpora nach transkribierten und annotierten Phänomenen durchsuchen.

Kontakt:
Thomas Schmidt (thomas.schmidt@ids-mannheim.de)

http://www.exmaralda.org/exakt.html

FOLK - Forschungs- und Lehrkorpus gesprochenes Deutsch

Während inzwischen verschiedene gut stratifizierte Korpora des geschriebenen Deutsch wissenschaftsöffentlich zugänglich sind, gibt es noch keine vergleichbare Sammlung des gesprochenen Deutsch. Mit FOLK baut das IDS ein kontinuierlich wachsendes Korpus auf, welches Gesprächsdaten aus unterschiedlichen Bereichen des gesellschaftlichen Lebens (Arbeit, Freizeit, Bildung, Medien) im deutschen Sprachraum via Internet zugänglich macht. Für viele linguistische und gesprächsanalytische Untersuchungen wird damit die Notwendigkeit entfallen, eigene Korpora zu erstellen. Kultur- und medienwissenschaftliche Untersuchungen können durch FOLK vielfältige Einblicke in die Realität der sozialen Kommunikation im Deutschland der Gegenwart gewinnen. Der germanistischen Hochschullehre im In- und Ausland und dem Unterricht im Fach DaF bietet FOLK Anschauungsbeispiele des heutigen gesprochenen Deutsch.

Alle Aufnahmen werden mit dem Transkriptionseditor FOLKER konform zu GAT 2 als Minimaltranskripte in literarischer Umschrift transkribiert. Die Transkripte werden dabei mit dem Ton aligniert, sodass zu jeder Transkriptstelle der zugehörige Audioausschnitt unmittelbar zur Verfügung steht. Jedes Gespräch verfügt über umfassende Metadaten, in denen die Gesprächsumstände und soziodemographischen Sprecherdaten dokumentiert werden.

FOLK wird der wissenschaftlichen Öffentlichkeit über die Datenbank für Gesprochenes Deutsch (DGD 2.0) zur Verfügung gestellt, die sich derzeit im öffentlichen Beta-Test befindet. Über die DGD können Dokumentationsdaten, Transkripte und Zusatzmaterialien zu FOLK eingesehen und über eine Volltextrecherche durchsucht werden. Erweiterungen von FOLK werden in den kommenden Jahren regelmäßig über die DGD veröffentlicht werden.

Kontakt:
Dr. Thomas Schmidt (folk@ids-mannheim.de)

http://agd.ids-mannheim.de/folk.shtml

[moca2] - multimodal oral corpus Administration

moca2.png

Zur Großdarstellung in einem neuen Fenster/Tab bitte auf die Bildvorschau klicken!

[moca2] ist ein Online-System zur Verwaltung mündlicher Sprachkorpora, in dem Audio- und/oder Videoaufnahmen sowie zugehörige Transkripte gespeichert werden. Die Transkripte liegen in alignierter Form vor: Mit dem Text der Sprechbeiträge wird auch die Sprecher- und Zeitinformation erfasst. So lässt sich in einem Internetbrowser direkt die entsprechende Aufnahme zu einer Transkriptstelle als Mediastream abspielen - auch Videodateien können über den Browser gestreamt werden. Neben den Transkripten können auch soziolinguistische Metainformationen zur Aufnahmesituation und den beteiligten Sprechern strukturiert verwaltet werden. Über die Vergabe sogenannter Labels für Äußerungen (manuelles Tagging) können umfangreiche Kollektionen eines linguistischen Phänomens erstellt und ausgewertet werden.

Über detaillierte Suchmöglichkeiten lassen sich bestimmte Aufnahmen, Sprecher, Transkriptausschnitte und Labels finden. Beispielsweise kann man aus den vorhandenen Daten Aufnahmen aus einer bestimmten Region auswählen, um Analysen darauf zu beschränken, oder nach Sprechern zu suchen, die einer bestimmten Altersgruppe angehören. Darüber hinaus ist es möglich, in Transkripten nach Intonationsphrasen zu suchen, die bestimmte Wortformen, ihre Kombinationen oder Teile davon enthalten.

Ziel von [moca2] ist dabei, einen intuitiven, sicheren und personifizierten Zugang zu den Korpora zu gewährleisten. Dabei unterstützt das System eine unbegrenzte Anzahl von Nutzern, denen individuell der Zugriff auf bestimme Daten gestattet oder verweigert werden kann. [moca2] kann von praktisch jedem internetfähigen Computer genutzt werden, ohne dass besondere technische Anforderungen oder Kenntnisse erforderlich sind.

In der aktuellen Test-Installation haben die Nutzer die Rechte alle Daten zu modifizieren und zu löschen.

Kontakt:
Daniel Alcón López (daniel.alcon@romanistik.uni-freiburg.de)
Oliver Ehmer (oliver.ehmer@romanistik.uni-freiburg.de)

http://moca.phil2.uni-freiburg.de/moca_test (Benutzerkennung für die Test-Installation erforderlich!)

Transformer

Transformer.gif

Zur Großdarstellung in einem neuen Fenster/Tab bitte auf die Bildvorschau klicken!

Der Transformer ist ein Programm für Wissenschaftler, die mit transkribierten sprachlichen Daten arbeiten. Es richtet sich an Gesprächsanalytiker, Phonetiker, Anthropologen und andere Sozialwissenschaftler, die digitale Audio- oder Video-Daten und Sprache analysieren wollen. Das Transformer-Programm verwaltet und konvertiert transkribierte sprachliche und text-ton-synchronisierte Daten auf eine schnelle, sichere und einfache Weise.

Die meisten der aktuellen Transkriptionsprogramme bieten die Möglichkeit, Transkriptionen mit den digitalen Medien-Dateien zu alignieren. Dies bedeutet, dass nicht nur verbale, sondern auch zeitliche Daten verfügbar sind, zum Beispiel für Anfang und Ende eines Redebeitrags. Die direkte Verbindung zwischen Transkript und gesprochenem Wort bietet u.a. einen schneller Zugriff auf bestimmte Stellen der Aufnahme.

Die meisten der Transkriptions-Werkzeuge haben aber zwei wesentliche Nachteile:

  • Mangel an Schnittstellen: Die meisten Transkriptionsprogramme können nicht die Datei-Formate von anderen Programmen lesen. Dies wäre jedoch wünschenswert, denn jedes Programm bietet verschiedene Möglichkeiten, um Daten zu analysieren. Noch schlimmer ist die fehlende Möglichkeit des Exports in eine Datenbank.

  • Fehlende Präsentationsmöglichkeiten: Die meisten Programme können sprachliche Daten nicht auf unterschiedliche Weise visualisieren, z.B. nur in Form einer Anzeige des Transkripts oder auch einer Timeline. Dies ist von großer Bedeutung nicht nur für die Analyse, sondern auch die Veröffentlichung von Sprachdaten.

Der Transformer will diese Lücke schließen.

  • Der Transformer kann Datei-Formate unterschiedlicher Annotationsprogramme lesen und schreiben. So lassen sich Daten in verschiedenen Programmen verwenden oder in einer Datenbank ablegen.

  • Der Transformer kann Daten auf unterschiedliche Weise darstellen, im Transformer wie auch in einem Textverarbeitungsprogramm.

Der Transformer ist kein Annotationsprogramm, erlaubt es aber, das Format der Daten zu ändern und sie in einer Vielzahl von Formaten auszugeben.

Merkmale der aktuellen Version 6 gegenüber der früheren Version 4.1g sind:

  • Transkripte/Aufnahmen können strukturiert in Ordnern oder Subcorpora verwaltet werden

  • Check-In/Check-Out System, wenn mehrere Personen mit einem Corpus arbeiten

  • Erweiterte Suche

  • Verfassen von Notizen im Programm

  • Bookmarks zur Kennzeichnung relevanter Stellen im Transkript

  • Transkripte können in der Fließtextansicht direkt bearbeitet werden

  • "Automatische" Bearbeitungsfunktionen wie Suchen+Ersetzen + []-Klammern untereinander positionieren

  • Einzelnen Tiers können Anzeigestile zugewiesen werden wie etwa Rot und Kursiv

  • Direkte Speicherung im RTF Format ohne Word

  • Direkter Austausch mit Praat und Integration des Praat-Textgrid-Editors in die Transformer-Oberfläche

Die Version 6 kannn derzeit noch nicht wie die Vorgängerversion eine Partitur darstellen, das ist allerdings geplant.

Kontakt:
Oliver Ehmer (oliver.ehmer@romanistik.uni-freiburg.de)

http://www.oliverehmer.de/transformer/

Edit | Attach | Watch | Print version | History: r19 < r18 < r17 < r16 < r15 | Backlinks | Raw View | Raw edit | More topic actions
Topic revision: r19 - 2015-12-23 - schuette
 
This site is powered by the TWiki collaboration platform Powered by Perl