MediaCategorizer

Sprecherprofilverwaltung

Autor Tobias Kiertscher kiertscher@fh-brandenburg.de Fachhochschule Brandenburg

Datum 29.04.2014

Version 0.6.0

Voraussetzungen

MediaCategorizer verwendet für die Verschriftlichung das Microsoft Speech API, welches Bestandteil von Microsoft Windows ist. Für MediaCategorizer wird das Betriebssystem Microsoft Windows 7 in deutscher Sprache benötigt.

Für die Spracherkennung sind ein oder mehrere Sprecherprofile erforderlich. Diese kleine Anleitung erklärt die Verwaltung der Sprecherprofile.

Sprecherprofil erzeugen

Windows 7 erstellt bei der Installation automatisch ein nicht trainiertes Sprecherprofil mit dem Namen Standard. Es können beliebig viele weitere Profile erstellt werden. Dafür muss zunächst die Seite Spracherkennung in der Systemsteuerung geöffnet werden (siehe Abbildung 1).

Abbildung 1: Die Spracherkennung in der Systemsteuerung

Über den Link oben links Erweiterte Sprachoptionen wird der Dialog Spracheigenschaften geöffnet (siehe Abbildung 2). Der Karteireiter Spracherkennung enthält die Liste der existierenden Sprecherprofile. Über die Schaltfläche Neu… kann ein neues Sprecherprofil angelegt werden (siehe Abbildung 3).

Abbildung 2: Der Dialog Spracheigenschaften — Abbildung 2: Der Dialog “Spracheigenschaften”

Abbildung 3: Der Dialog Profil hinzufügen… — Abbildung 3: Der Dialog “Profil hinzufügen…”

Sprecherprofil trainieren

Ein existierendes Profil kann durch das Vorlesen eines vorgegebenen Textes trainiert werden. Der Trainingsassistent wird durch die Schaltfläche Profil trainieren im Dialog Spracheigenschaften aufgerufen (siehe Abbildung 2).

Das Training findet in ein oder mehreren Phasen statt. Die besten Ergebnisse werden erreicht, wenn alle Phasen des Trainings absolviert werden.

Sprecherprofil exportieren

Sprecherprofile können in eine SPF-Datei exportiert und so auf ein anderes System übertragen werden. Diese Funktionalität steht leider nicht über die Benutzeroberfläche von Windows zur Verfügung. Jedoch bietet Microsoft für diesen Zweck das kleine Programm Speech Profile Manager zum Download an (siehe Abbildung 4).

Abbildung 4: Der Speech Profile Manager von Microsoft

Um ein Profil zu exportieren genügt es, dieses im Speech Profile Manager auszuwählen und auf die Schaltfläche Export… zu klicken. Im anschließenden Dialog kann der Pfad der SPF-Datei angegeben werden in die das Profil exportiert werden soll.

Sprecherprofil importieren

Sprecherprofile können aus einer SPF-Datei importiert werden. Dazu ist das Programm Speech Profile Manager erforderlich (siehe Abschnitt Sprecherprofil exportieren).

Um ein Profil zu importieren, genügt es im Speech Profile Manager auf die Schaltfläche Import… zu klicken und anschließend die SPF-Datei auszuwählen. Das Programm warnt, wenn das zu importierende Profil den gleichen Namen besitzt wie ein bereits installiertes Profile und ermöglicht es, einen neuen Namen für das zu importierende Profil anzugeben.

Nach erfolgreichem Import fragt das Programm zunächst nach, ob das importierte Profil zum Standardprofil gemacht werden soll. Diese Frage kann mit No beantwortet werden. Anschließen bietet das Programm an, die Mikrofoneinrichtung für das Profil durchzuführen. Für die Verschriftlichung mit MediaCategorizer ist dies nicht erforderlich, da dabei nicht das am PC angeschlossene Mikrofon zum Einsatz kommt. Deshalb kann auch dieser zweite Dialog mit No beantwortet werden.

Hinweise zum Einsatz von Sprecherprofilen

Vor der Ausführung eines Projektes in MediaCategorizer kann auf der Seite Sprecherprofile die Auswahl jener Sprecherprofile getroffen werden, die für die Verarbeitung genutzt werden sollen. MediaCategorizer wählt während der Ausführung nacheinander verschiedene Sprecherprofile als aktuelles Standardprofil aus und führt anschließend die Sprachererkennung durch. In der Regel wird das vor dem Start der Ausführung als Standardprofil ausgewählte Sprecherprofil, nach Abschluss der Verarbeitung wieder als Standardprofil gewählt.

Sind mehrere Sprecherprofile im System installiert und für die Ausführung aktiviert, wählt MediaCategorizer für jedes Video das Sprecherprofil mit der besten Erkennungsleistung aus.

Für gute Erkennungsergebnisse mit unbekanntem Videomaterial ist es empfehlenswert eine kleine Anzahl von Profilen (z.B. 8) zu verwenden, die von Sprechern mit möglichst unterschiedlichen Stimmen und unterschiedlicher Aussprache trainiert wurden. Eine große Anzahl unterschiedlicher Profile erhöht die Wahrscheinlichkeit einer guten Erkennungsleistung, erhöht aber auch deutlich den Rechenaufwand für die Profilauswahl.

Sind die Sprecher der Videos bekannt, erzielt man die besten Ergebnisse, wenn Profile verwendet werden, die durch diese Sprecher trainiert wurden.

Wenn im Dateipaket von MediaCategorizer ein Verzeichnis mit SPF-Dateien enthalten ist, können diese Profile für einen ersten Einsatz importiert werden (siehe Abschnitt Sprecherprofil importieren).