Ein Sprachsynthesizer nimmt
text als primäre Eingabe. Dieser Text kann in verschiedenen Formaten sein:
* Klartext: Das häufigste Format, das nur Zeichen und Zeichensetzung enthält.
* Formatierter Text: Beinhaltet Formatierungselemente wie mutige, kursive und leitende Pausen.
* Phonetische Transkriptionen: Verwenden von phonetischen Symbolen zur Darstellung der Töne des Textes.
* Prosodische Informationen: Zusätzliche Informationen über den Rhythmus, die Intonation und den Schwerpunkt des Textes.
Jenseits des Textes können einige Sprachsynthesizer zusätzliche Eingaben akzeptieren:
* Sprachparameter: Ermöglichen, dass Benutzer die synthetisierte Stimme wie Geschlecht, Alter, Akzent und emotionaler Ton anpassen können.
* Audiosignale: Bei Anwendungen wie Echtzeit-Sprachumwandlung, bei denen der Synthesizer ein vorhandenes Audiosignal verändert.
Die Art und Weise, wie der Synthesizer diese Eingaben verarbeitet, kann stark variieren und reicht von einfachen regelbasierten Systemen bis hin zu komplexen Deep-Learning-Modellen. Das Kernprinzip bleibt jedoch gleich: Text in Sprachsignale umwandeln.