"Neyron kodek dili modeli" olan VALL-E yüksək keyfiyyətli fərdi nitqi cəmi 3 saniyəlik qeydlə sintez etmək üçün hazır neyron audio kodek modelindən əldə edilən diskret kodlardan istifadə edir.
Azmedia.Az xəbər verir ki, Süni intellekt 7000-dən çox unikal spikerlə 60.000 saat ingilis dilində nitqlə öyrədilir. Bütün bu məlumatlar Libri-Light-dan götürülmüşdür, Meta-ya məxsus audiokitabxana, danışıq ingilis dili audiolarını toplayır.
O, həmçinin natiqin emosional tonunu və akustik mühitini təqlid edə bilər.
"Təcrübənin nəticələri göstərir ki, VALL-E nitqin təbiiliyi və dinamik oxşarlığı baxımından ən müasir sıfır atışlı TTS sistemini əhəmiyyətli dərəcədə üstələyir",- deyə Microsoft tədqiqatçıları öz məqalələrində bildiriblər.
Üç saniyəlik səs daxiletməsi daha yaxşı nəticə əldə etmək üçün təqdim edilən təlim məlumatlarında bəzi digər nümunələrlə uyğun olmalıdır. Buna görə də VALL-E gələcəkdə daha müxtəlif olmalıdır. Microsoftdan qeyd edilir ki, təlim məlumatları prosodiya, nitq tərzi və natiq oxşarlığı perspektivlərinin performansını yaxşılaşdırmaq üçün genişləndiriləcək.
Elmir Həsənov
Mənbə: Microsoft
Azmedia.Az