@Towarzysz_Szmaciak: No najpierw to tworzysz własny model, ewentualnie jakiś kradniesz, ale z tym to jest różnie, potem nagrywasz swoim głosem co papież ma powiedzieć, przepuszczasz przez model aż będzie zgadzało się z oczekiwaniami, potem trochę poprawek narzucasz już na wygenerowanym pliku jak niewyraźnie wyszło no i masz gotowe. Ewentualnie tworzysz model text to speech, ale ciężko wtedy z naturalnością i jakimikolwiek emocjami w głosie