Kategorien
Allgemein

Spracherkennung mit Diktiergerät

Die Spracherkennungsprogramme des Herstellers Nuance sind gut, sie sind sogar sehr gut. Wer in neuerer Zeit eines der Programme aus der Dragon Produktfamilie erworben und installiert hat, gleich ob es sich bspw. um die Dragon Professional Individual oder die Dragon Professional Group handelt, ist begeistert. Die Erkennungsgenauigkeit des gesprochenen Wortes ist von der ersten Minute an sehr gut, die integrierte Deep-Learning-Technologie — das nächste große „Internet-Ding“ — sorgt dafür, dass sogar diese Trefferquote richtiger Sprachumsetzung sich im Verlauf des Programmverlaufs noch steigert.

Einen Nachteil hat die mit den Jahren enorm verbesserte Spracherkennungssoftware: Sie ist von Hause aus nicht allzu gut auf einen Workflow eingestellt, den Leute mit Eingabegeräten wie Diktiermikrofonen und Diktiergeräten benötigen. Oder Leute wie z.B. Schreibkräfte, die einen Fußschalter zum lavieren durch Audiodaten und Texte effizient und komfortabel finden. Im Prinzip sind Headsets die einzigen Eingabegeräte, die Nuance zu kennen scheint, wiewohl die Zeit der zu den Programmpaketen zählenden Headsets inzwischen auch längst vorbei ist. Beworben werden die Vorteile, die Hardwareprodukte in Verbindung mit Spracherkennungsprgrammen erlangen, — und umgekehrt: die Aufwertung, die Spracherkennung durch geeignete Eingabegeräte erfährt — , nicht.

Das ist verständlich. Nuance ist kein Hardwarehersteller. Im Grunde kann dem Monopolisten die Anbindung spezialisierter Eingabegeräte so halbwegs egal sein. Aber das ist auch ein Denkfehler: Die Spracherkennung gewinnt ungemein, wenn sie die Ausgangsdaten („Audio“) des Erkennungsprozesses bewahren und verwalten kann — und auch den Prozeß, den die entstehenden Dokumente durchlaufen, variantenreich abbildet und unterstützt.

Die Hersteller von Diktiergeräten wie dem DS-9000 oder dem SpeechAir haben die Lücke längst erkannt. Seit Jahren haben sie in die einschlägigen Programme wie das Olympus Dictation Management System (ODMS, Einmalgebühr) oder die PHILIPS SpeechExec Programmversionen, gar in SpeechLive Schnittstellen integriert, die den wünschenswerten Komfort für Vieldiktierer aus den Dragon Spracherkennungsprogrammen herausholen. Leider bleiben diese Anwendungsvorteile oft unter der Wahrnehmungsschwelle Desjenigen, der sich ein Dragon-Paket gekauft hat und damit auch zufrieden ist. Ihm ist nicht klar, dass sich diese Zufriedenheit noch steigern läßt.

Die Schnittstellen in den Diktatverwaltungsprogrammen der etablierten Hersteller sorgen einerseits dafür, dass man vom sogenannten „Online-Diktat“ weg kommt. Das heißt, dass man nicht starren Blicks auf den Bildschirm der Spracherkennung folgen muß. Dieses Herangehen, das Nuance mit den Dragon Programmen zu forcieren scheint, ist zumindest für alle uninteressant, die wirklich diktieren können und die fernab des PCs diktieren wollen oder müssen. Das Online-Diktat bedeutet, dass man nicht seriell diktiert, diktieren kann. Vielmehr „bestaunt“ man die Textentstehung und greift sofort in notwendige Korrekturen ein. Damit verlängert man den Korrekturprozeß und verhindert die mnemotechnische Leistung des im Kopf zu Ende geführten Gedankens im Diktierprozess. Wer so „diktiert“, wird niemals diktieren lernen. Außerdem ignoriert man den in vielen Büros eingeführten Modus der Arbeitsteilung. Warum soll ein u.U. hoch bezahlter Autor für die Korrektur seines Wortausstoßes verantwortlich sein, wenn eine Schreibkraft das mit ein paar Mausklicks erledigen kann?

Ein höherer Diktat-Aussaß wird erreicht, wenn der Diktant nach seinem Gusto diktieren kann. Mag er mit dem Diktiergerät in der Gegend herumlaufen. Mag er sich bei häufig wiederkehrenden Phrasen auf einen „Sprachkommentar“, zwei Stichworte außerhalb der Spracherkennung, beziehen, mag er seinen Blick während des Diktats lieber auf Literaturquellen als den entstehenden Text richten. Das alles ist viel besser möglich, wenn er „offline“ diktiert, wenn er sich nur auf seine Aufgabe und bspw. ein Diktiergerät konzentriert.

Diktatverwaltungsprogramme mit integrierter Spracherkennungsschnittstelle sind auf die Bedürfnisse des klassischen Diktanten und seines „Backoffices“ eingerichtet. Sie können neu erstellte Diktate auf einem Diktiergerät identifizieren und automatisch herunterladen. Sie können diese Diktate dem gewollten Sprachverabeitungsprozeß automatisiert zuführen. Auf Grund beim Diktat vergebener Merkmale wird ein Spracherkennungsprogramm oder eine Schreibkraft/Sekretärin für die weitere Verarbeitung beansprucht. Die zugrundeliegenden Audiodaten werden Korrekturkräften übergeben und sind somit im Korrekturgeschehen zur Kontrolle abrufbar. Eventuelle Korrekturen von Dritten werden an das Sprachverarbeitungsprogramm als Lernmaterial zurück gegeben. Rückmeldungen über Arbeitsstati der Korrektur, gleich ob von menschlichen Helfern oder der Spracherkennung verursacht, gehen dem Autor zu. Der gesamte Sprachverabeitungsprozeß wird mit Zeitstempeln und Verantwortlichkeiten in den Verwaltungsprogrammen dokumentiert. Um es kurz zu machen: Die tradierten Hersteller haben alles daran gesetzt, um die Spracherkennung noch besser zu machen. Nicht in der Erkennungsleistung: im Handling. In der Anwendungsfreundlichkeit. Es ist ganz klar, das er zahlenmäßig viel gewichtigere Verkauf von Spracherkennungspaketen als Katalysator für den Absatz von Diktiergeräten gesehen wird, die Spracherkennung noch besser machen.

Das kann absurde Blüten treiben. So gab es zahlreiche Versuche, Voicetracer oder Notetaker im Bündle mit leistungsmäßig limitierter Spracherkennung zu verkaufen. Die beteiligte Hardware wurde in diesen Fällen zum „Diktiergerät“ hochgelobt, Verwaltungssoftware wurde ihr nicht beigefügt und die Einschränkungen der Spracherkennung selbstverständlich nicht beworben. So tritt der oben beschriebene Zugewinn aus der Kombination von Diktiergerät und Spracherkennung definitiv nicht ein. Der erfordert ein Diktiergerät mit Software-Schnittstelle zur Spracherkennung wie bspw. das DPM 8000 , das DS-9500 usw. Die beteiligte Spracherkennung muß mindestens die Dragon Professional Individual sein, optimal ist eine der Dragon-Group-Versionen.