Audio samples from "Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining"

Paper: arXiv (Comming Soon)

Takaaki Saeki, Soumi Maiti, Xinjian Li, Shinji Watanabe, Shinnosuke Takamichi and Hiroshi Saruwatari

Abstract: While neural text-to-speech (TTS) has achieved human-like natural synthetic speech, multilingual TTS systems are limited to resource-rich languages due to the need for paired text and studio-quality audio data. This paper proposes a method for zero-shot multilingual TTS using text-only data for the target language. The use of text-only data allows the development of TTS systems for low-resource languages for which only textual resources are available, making TTS accessible to thousands of languages. Inspired by the strong cross-lingual transferability of multilingual language models, our framework first performs masked language model pretraining with multilingual text-only data. Then we train this model with a paired data in a supervised manner, while freezing a language-aware embedding layer. This allows inference even for languages not included in the paired data but present in the text-only data. Evaluation results demonstrate highly intelligible zero-shot TTS with a character error rate of less than 12% for an unseen language. All experiments were conducted using public datasets and the implementation will be made available for reproducibility.

Evaluations on unseen language (Section 3.3)

Comparing our framework and baseline methods for the unseen language. Baseline (Phones multilingual) corresponds to previous work [1].

Spanish (es x-vector)

NaturalOracle (Phones monolingual)Oracle (Phones multilingual)Baseline (Bytes multilingual)Baseline (Phones multilingual)Proposed (Bytes multilingual)Proposed (Phones multilingual)
1: Se me representaba el sonido de las campanas de la iglesia, tocadas por los cuatro muchachos o por el ingrato padre.
2: Pero la gente honesta y timorata brama contra tal novedad,
3: No satisfecho, sin embargo, con tan poca ración, llevé mis exploraciones hasta lo más profundo de aquellos sacos de cuero,

Spanish (fr x-vector)

NaturalOracle (Phones multilingual)Baseline (Bytes multilingual)Baseline (Phones multilingual)Proposed (Bytes multilingual)Proposed (Phones multilingual)
1: Se me representaba el sonido de las campanas de la iglesia, tocadas por los cuatro muchachos o por el ingrato padre.
2: Pero la gente honesta y timorata brama contra tal novedad,
3: No satisfecho, sin embargo, con tan poca ración, llevé mis exploraciones hasta lo más profundo de aquellos sacos de cuero,


Evaluations on seen languages (Section 3.2)

Comparing our method with baseline methods for seen languages. Baseline (Bytes multilingual w/ LIDs) corresponds to previous work [2] and Baseline (Phones multilingual w/ LIDs) corresponds to previous work [3].

German

NaturalBaseline (Phones monolingual)Baseline (Bytes multilingual w/o LIDs)Baseline (Bytes multilingual w/ LIDs)Baseline (Phones multilingual w/o LIDs)Baseline (Phones multilingual w/ LIDs)Proposed (Bytes multilingual)Proposed (Phones multilingual)
1: der von den drei Sätzen immer nur den einen gelernt hat: Ich liebe dich.
2: «Es ist kein Fest», sagte das Mädchen und war rot und leuchtete wie eine Fackel,
3: Die lebhafte Brise, die mit den Kleidern der Kinder spielte,

French

NaturalBaseline (Phones monolingual)Baseline (Bytes multilingual w/o LIDs)Baseline (Bytes multilingual w/ LIDs)Baseline (Phones multilingual w/o LIDs)Baseline (Phones multilingual w/ LIDs)Proposed (Bytes multilingual)Proposed (Phones multilingual)
1: Ses vingt-trois blessures me touchent moins que le crachat au front de Jésus-Christ. César est poignardé par les sénateurs; Christ est souffleté par les valets.
2: On se fie sur ce que les femmes n'ont pas reçu l'éducation des hommes, on les empêche de lire, on les empêche de penser, on les empêche de s'occuper de politique;
3: Elles sont positives. À priori, l'insurrection leur répugne; premièrement, parce qu'elle a souvent pour résultat une catastrophe,

Russian

NaturalBaseline (Phones monolingual)Baseline (Bytes multilingual w/o LIDs)Baseline (Bytes multilingual w/ LIDs)Baseline (Phones multilingual w/o LIDs)Baseline (Phones multilingual w/ LIDs)Proposed (Bytes multilingual)Proposed (Phones multilingual)
1: Погоди же! Ты искупишь эти свидания неслыханной болью
2: а его спутник поспешно вошел туда и бросился к седому цыгану, лежавшему на охапке травы.
3: оставивший гимназию после пятого класса и поступивший потом в какую-то клерикальную школу в Кракове.

Finnish

NaturalBaseline (Phones monolingual)Baseline (Bytes multilingual w/o LIDs)Baseline (Bytes multilingual w/ LIDs)Baseline (Phones multilingual w/o LIDs)Baseline (Phones multilingual w/ LIDs)Proposed (Bytes multilingual)Proposed (Phones multilingual)
1: Muutaman kerran hän sanoi Pekalle, ettei niitä päreitä enää taideta tarvitakaan,
2: Eipä silti, että Aapo ennenkään olisi ketään puheellaan pulaan pannut.
3: sillä hän on Kallen salainen kihlattu, on ollut jo helluntaipyhistä saakka. Istuu sitten aitan kynnykselle, leuka käteen nojaten,


Ablation studies (Section 3.4)

This demonstration compares the different configurations of our method.

French (Seen)

NaturalProposed (Bytes multilingual)w/o bottleneck layerw/o language IDw/o initializing encoderUpdating scheme
1: Ses vingt-trois blessures me touchent moins que le crachat au front de Jésus-Christ. César est poignardé par les sénateurs; Christ est souffleté par les valets.
2: On se fie sur ce que les femmes n'ont pas reçu l'éducation des hommes, on les empêche de lire, on les empêche de penser, on les empêche de s'occuper de politique;
3: Elles sont positives. À priori, l'insurrection leur répugne; premièrement, parce qu'elle a souvent pour résultat une catastrophe,

Spanish (Unseen)

NaturalProposed (Bytes multilingual)w/o bottleneck layerw/o language IDw/o initializing encoderUpdating scheme
1: Se me representaba el sonido de las campanas de la iglesia, tocadas por los cuatro muchachos o por el ingrato padre.
2: Pero la gente honesta y timorata brama contra tal novedad,
3: No satisfecho, sin embargo, con tan poca ración, llevé mis exploraciones hasta lo más profundo de aquellos sacos de cuero,


Different unseen languages (Section 3.5)

German

NaturalOracle (Phones monolingual)Oracle (Phones multilingual)Baseline (Phones multilingual)Proposed (Bytes multilingual)
1: der von den drei Sätzen immer nur den einen gelernt hat: Ich liebe dich.
2: «Es ist kein Fest», sagte das Mädchen und war rot und leuchtete wie eine Fackel,
3: Die lebhafte Brise, die mit den Kleidern der Kinder spielte,

Hungarian

NaturalOracle (Phones monolingual)Oracle (Phones multilingual)Baseline (Phones multilingual)Proposed (Bytes multilingual)
1: A török megnézi egynéhány fának a hátát, és felvizsgálódik a lombokra is. Azután magyar szóval kiált: -
2: Az is igaz, hogy a toronyőr ott ül az ablakban, s egy mozdulatra lehuzan az orgona, vagyis azok a vasrudak, amelyek a kapu alját orgonasípok alakjában fogják védeni.
3: Az asszonyok rúdra öltött üstökben cipelik a forró ólmot és forró olajat.


Effects of text data (Appendix A)

French (Seen)

NaturalSpoken TextWritten TextSpoken+Written Text
1: Ses vingt-trois blessures me touchent moins que le crachat au front de Jésus-Christ. César est poignardé par les sénateurs; Christ est souffleté par les valets.
2: On se fie sur ce que les femmes n'ont pas reçu l'éducation des hommes, on les empêche de lire, on les empêche de penser, on les empêche de s'occuper de politique;
3: Elles sont positives. À priori, l'insurrection leur répugne; premièrement, parce qu'elle a souvent pour résultat une catastrophe,

Spanish (Unseen)

NaturalSpoken TextWritten TextSpoken+Written Text
1: Se me representaba el sonido de las campanas de la iglesia, tocadas por los cuatro muchachos o por el ingrato padre.
2: Pero la gente honesta y timorata brama contra tal novedad,
3: No satisfecho, sin embargo, con tan poca ración, llevé mis exploraciones hasta lo más profundo de aquellos sacos de cuero,

Reference