Universität des Saarlandes
Fachschaft Computerlinguistik
Proceedings 17. StuTS

Wie ist ein Sprachsynthesesystem aufgebaut?

Jürgen Trouvain · Universität des Saarlandes
Fachbereich 8.7, Phonetik · 66041 Saarbrücken
e-Mail: trouvain@coli.uni-sb.de


Anmerkung des Herausgebers

Da im HTML-Format, welches für das World-Wide-Web benutzt wird, zur Zeit noch keine phonetischen Symbole verfügbar sind, sind die entsprechenden Stellen in dieser Online-Version nicht korrekt wiedergegeben. Es wird daher hierzu auf den gedruckten Band verwiesen; allerdings sind die entsprechenden Stellen für phonetisch »Vorbelastete« vom Zusammenhang her dennoch erschließbar.

Der nachfolgende Beitrag soll den prinzipiellen Aufbau eines Systems erläutern, das geschriebene Texte in gesprochene Sprache umwandelt. Es gibt andere, mehr mit statistischen Methoden arbeitende Ansätze; die linguistisch basierten Systeme arbeiten jedoch vorwiegend mit einer Architektur, die der vorgestellten ähnelt.

Beispieltext

Die einzelnen Verarbeitungsschritte, die durchgeführt werden, bis das akustische Sprachsignal erzeugt worden ist, sollen am folgenden Beispiel gezeigt werden:
Vom 24. bis zum 28. Mai 1995 finden an der Universität des Saarlandes die beiden Studententagungen StuTS & TaCoS statt.

Textvorverarbeitung

Unter den Schritt der Textvorverarbeitung (text preprocessing) fällt zum Beispiel die Umwandlung von Ziffern in eine ausbuchstabierte Vollform; außerdem wird von dieser Stufe erkannt, daß es sich bei »1995« um eine Jahreszahl handelt. Schließlich werden Sonderzeichen in ausbuchstabierte Vollformen umgesetzt; im Beispiel betrifft dies das »&« und die Punkte nach den Ziffern.
Vom vierundzwanzigsten bis zum achtundzwanzigsten Mai neunzehnhundertfünfundneunzig finden an der Universität des Saarlandes die beiden Studententagungen StuTS und TaCoS statt.

Morphologische Dekomposition: Morphemlexikon

Die einzelnen Wörter des Textes werden aufgrund eines Morphemlexikons analysiert. Dieses Lexikon enthält die wichtigsten Morpheme und die für die Sprachsynthese relevanten Informationen. Bei Lexemen sind dies Angaben zur Wortbildung, zur phonemischen Form und zur Setzung des Wortakzents; zu Affixen werden die phonemische Form, der Wortakzent und die Silbengrenze gespeichert. So könnte ein Lexikon für unser Beispiel einen Eintrag für das Simplex »Universität« enthalten, wobei dort die Information zu finden wäre, daß bei diesem Wort die letzte Silbe betont wird.

Aufgrund der Einträge im Morphemlexikon können zudem Komposita analysiert werden: »Studententagungen« wird in Student-en-tag-ung-en zerlegt. Dagegen wird ein Sprachsynthesesystem wohl nichts mit den Wörtern »StuTS« und »TaCoS« anfangen können; diese unbekannten Wörter werden daher gesondert behandelt.

Morphologische Dekomposition: Unbekannte Wörter

Wörter, die von der Morphologie-Komponente nicht verarbeitet werden können, dürfen nicht einfach übersprungen werden, da sonst der Text unvollständig vorgelesen würde. Daher sollten unbekannte Wörter soweit als möglich interpretiert werden: StuTS und TaCoS weisen wegen ihrer unregelmäßigen, aber für Abkürzungen typischen graphemischen Form auf eine Abkürzung hin, die als ein normal auszusprechendes Wort zu behandeln wäre (also Stuts, Tacos); ebenfalls denkbar wäre ein Buchstabiermodus. Es ist ein erstaunlich schwieriges Problem, zu bestimmen, ob eine Abkürzung als Wort ausgesprochen oder buchstabiert wird: »USA« wird im Deutschen buchstabiert, »UNO« als Wort gesprochen.

Morphologische Dekomposition: Silbengrenzen

Nachdem die Wörter des auszusprechenden Textes phonemisiert wurden, sind als nächstes die Silbengrenzen zu bestimmen. Dazu braucht man zum einen morphologische Angaben, zum anderen werden eigene Silbifizierungsregeln benötigt. Die Silbengrenze kann mit der Morphemgrenze übereinstimmen, muß es jedoch nicht zwangsläufig. Beispielsweise trifft beim Wort »beerdigen« die erste Silbengrenze (be-erdigen) mit einer Morphemgrenze zusammen, die restlichen Silbengrenzen (beer-di-gen) jedoch nicht.

Morphologische Dekomposition: Wortakzente

Die Wortakzente sind für die Morpheme bereits im Lexikon angegeben; für neue Wörter (zum Beispiel Komposita) müssen Regeln angewendet werden, um die Wortakzente zu bestimmen.

Das Wort »Studententagungen« besteht aus den beiden Morphemgruppen »Studenten« und »tagungen«, die sich jeweils um ein Stammorphem bilden. Eine entsprechende Regel für Wortakzente könnte festlegen, daß bei solchen Komposita der Wortakzent auf dem ersten der beiden Teile stärker ist.

Graphem-zu-Phonem-Umwandlung

Gänzlich unbekannte Wörter, aber auch Wörter mit unbekannten Morphemen, müssen mittels sogenannter Graphem-zu-Phonem-Regeln phonemisiert werden. Je weniger im Lexikon und bei der morphologischen Analyse zur Phonemisierung beigetragen wird, desto besser muß die Umwandlung der orthographischen in die phonemische Form in diesem Schritt verlaufen. Die Silbifizierung und die Zuweisung des Wortakzents geschieht auch bei unbekannten Wörtern nach den oben beschriebenen Regeln, sobald eine phonemische Form bestimmt wurde.

Nach dem Durchlaufen der besprochenen Schritte könnte im fiktiven Beispielsystem der Text zu folgender Form umgewandelt sein:

fçm-fir-Unt-tsvan-tsIgs-t´n-bIs-axt-Unt-tsvan-tsigst´n-maI-nçYn-tsen-hUn-d´rt-fYnf-Unt-nçYn-tsig-fIn-d´n-an-der-u-ni-vEr-zi-tEt-d´s-zar-lan-d´s-di-baI-d´n-StU-d´n-t´n-ta-gU-N´n-StUts-Unt-ta-kçs-Stat

Phonologische Regeln

Die nun erzeugte abstrakte phonemische Ebene der Sprachlaute muß als nächstes zu einer realistischeren phonetischen Ebene umgewandelt werden, die jene Lauteinheiten enthält, die für die Sprachsignalerzeugung relevant sind.

Beispielsweise wird in /fir/ für das /r/ die vokalische Variante [a] eingesetzt; diese Variante wird immer innerhalb einer Silbe nach Langvokalen gewählt.

Das /g/ in /tsIgs/ wird entweder durch die sog. Auslautverhärtung zu [k] oder wird zu [C]; diese Erscheinung tritt immer dann auf, wenn einem stimmhaften Obstruenten /b, d, g, v, z/ entweder ein stimmloser Laut (wie in /tsIgs/) oder eine Silbengrenze (wie in /tsIg/) folgt.

Das /t/ in /StU/, in /Stat/ und in /StUts/wird ohne Aspiration realisiert, da ein /s/ oder /S/ vorhergeht; im Gegensatz zu /ta/ in TaCoS, das aspiriert ist [tH].

Nach dem Anwenden der phonologischen Regeln erhält man als Ergebnis eine Kette phonetischer Symbole:

fçm-fia9-Unt-tsvan-tsIks-t´n-bIs-/axt-Unt-tsvan-tsiks-t´n-maI-nçYn-tsen-hUn-d´a9t-fYnf-Unt-nçYn-tsik-fIn-d´n-an-dea9-/u-ni-vEr-zi-tHEt-d´s-zar-lan-d´s-di-baI-d´n-StU-d´n-t´n-ta-gU-N´n-StUts-Unt-tHa-kçs-Stat

Syntaktische Analyse

Die syntaktische Analyse benötigt Angaben aus der Morphologie, damit eine Struktur des Satzes gefunden werden kann. Von Bedeutung sind hier unter anderem Informationen zur Wortklasse oder zu Genus, Kasus und Numerus.

Das Ergebnis des Analyse unseres Beispielsatzes zeigen wir als Baumstruktur an, wie sie intern dargestellt werden könnte:

(S
  (VORFELD
           (PP-AUFZAEHLUNG (PP (P-KLITISCH vom) (ORDINAL 24.))
                           (PP (P bis) (DATUM 28. Mai 1995))))
  (FIN-V finden)
  (MITTELFELD (PP (P an) (NP (DET der)
                             (N-BAR (N Universitaet)
                                    (NP (DET des) (N-BAR (N Saarlandes)))))
              (MITTELFELD (NP (DET die)
                              (N-BAR (N-BAR (ADJ beiden)
                                            (N-BAR (N Studententagungen))))
                                     (NP (KOORDINATION (N Stuts)
                                                       (KONJUNKTION und)
                                                       (N Tacos)))))))
  )
  (V-PRAEFIX statt)
)

Phrasierung und Satzprosodie

Aufgrund der Aufteilung des Satzes in seine syntaktischen Bestandteile wird nun versucht, eine Gliederung in prosodische Gruppen vorzunehmen. Solchen Einheiten von Wörtern, die eine »Sinneinheit« bilden, kann daraufhin ein Akzent zugeordnet werden; durch diese Stufe wird also entschieden, welche Silben besonders hervorgehoben sein sollen. Hauptsächlich auf diesen Akzenten spielt sich das intonatorische Geschehen ab, dessen Länge von der Phrasengrenze abhängt und dessen Art vom Satzmodus bestimmt wird. Hierbei kommt auch die Bestimmung des Wortakzentes zum Einsatz.
vom 24. | bis zum 28. Mai 1995 || finden | an der Universität | des Saarlandes || die beiden Studententagungen | StuTS | & TaCoS statt.

Akzent, Intonationskontur und Phrasengrenze

Bevor das akustische Signal generiert werden kann, müssen noch Informationen zur Stärke des Akzents, die Intonationskontur sowie die Phrasengrenzen der segmentellen bzw. silbifizierten Kette zugeordnet werden. All dies hat Auswirkungen auf phonetische Parameter wie Dauer, Intensität, spektrale Eigenschaften (Klangqualität) und Grundfrequenzänderung.

Erzeugen des Sprachsignals: Formantsynthese

Als letzter Schritt muß die phonetische Form (inkl. aller zusätzlichen Parameter zur Intonation etc.) in ein Signal umgewandelt werden, das über einen Lautsprecher hörbar ist. Zwei verschiedene Verfahren sind verbreitet: Zum einen konkatenative Verfahren wie die Diphonsynthese (siehe hierzu den Artikel von Caren Brinckmann in diesem Band), zum anderen die sogenannte Formantsynthese. Bei dieser wird das Sprachsignal nicht aus vorher aufgenommenen Signalstückchen erzeugt, sondern es wird sozusagen »aus dem Stand heraus« berechnet.

Dabei werden verschiedene Parameter modelliert, die aus der Analyse von Sprachschall bekannt sind. Die bekanntesten und auch wichtigsten sind die Formanten mit deren Frequenzen, Bandbreiten und Amplituden.

Formanten sind Energiegipfel in bestimmten Frequenzbereichen, die durch Positionen und Bewegungen der Artikulatoren, vor allem des Zungenrückens, verändert werden und für eine andere Qualität (Klangfarbe) hauptsächlich von Vokalen sorgen.

Andere Parameter sind beispielsweise die sogenannten Anti-Resonatoren oder Zeros (= Energietäler in bestimmten Frequenzbereichen), die vor allem für Nasale wichtig sind. Ein weiterer wichtiger Parameter ist die Dauer von Lautsegmenten.

Um koartikulatorischen Erscheinungen (gegenseitige Beeinflussung von Lauten), Assimilationen (Anpassung eines Lautes an den benachbarten), Reduktionen (Reduzierung bestimmter Parameter eines Lautes) und Transitionen (Übergänge zwischen den Lauten) adäquat zu modellieren, werden kontextsensitive Regeln eingesetzt, um die entsprechenden Parameter für einen bestimmten Zeitabschnitt zu verändern.

Eingesetzt werden kann die Formantsynthese hervorragend für Untersuchungen zur Sprachperzeption, da viele Parameter konstant gehalten, andere verändert werden können. Man erhält Erkenntnisse darüber, welche Veränderungen welcher Parameter für welches Phänomen sprachlicher Wahrnehmung verantwortlich sind. Allerdings wird das Resultat einer Formant-, verglichen mit einer Diphonsynthese, von vielen Hörern als wesentlich schlechter beurteilt.

Literatur

[Allen/Sharon/Klatt 1987]
Allen, J. H./Sharon, M./Klatt, D.: From Text to Speech: The MITalk System. Cambridge Studies in Speech Science and Communication. Cambridge [etc.]: Cambridge University Press, 1987.

[Klatt 1987]
Klatt, D. H.: Review of Text-to-Speech Conversion for English. In: Journal of the Acoustical Society of America [JASA] 82, S. 737­793.

[Traber 1995]
Traber, C.: SVOX: The Implementation of a Text-to-Speech System for German. Diss. ETH Zürich. Zürich: vdf Hochschulverlag, 1995.

Anhang: Aufbau eines fiktiven Sprachsynthesesystems

Struktur-Grafik


Zurück zur Übersicht der Beiträge