🏆 Лидерборд TTS моделей для русского языка

Этот лидерборд предназначен для сравнения различных Text-to-Speech моделей.

UTMOS (↑): Оценка качества речи, основанная на мнении слушателей (Mean Opinion Score). Больше — лучше.
CER (↓): Character Error Rate (коэффициент ошибок по символам). Показывает, насколько часто синтез делает ошибки в произношении. Меньше — лучше.
FAD (↓): Fréchet Audio Distance. Объективная метрика, измеряющая расстояние между распределениями реального и синтезированного аудио. Меньше — лучше.
Похожесть Avg (↑): Средняя оценка схожести голоса с оригиналом при клонировании. Больше — лучше.
xRT GPU/CPU (↓): Real-Time Factor. Во сколько раз синтез быстрее (если < 1) или медленнее (если > 1) реального времени на GPU/CPU. Меньше — лучше.
Железо: Тип оборудования, на котором производился тест (Cloud - облачный сервис, Local GPU/CPU - локальное железо, RTX 4090 - конкретная видеокарта).

Кликните на заголовок колонки для сортировки. По умолчанию отсортировано по дате (сначала новые).

✉️ Чтобы добавить свою модель, а также вопросы и предложения пишите в Telegram @bceloss

✉️ Добавляйтесь в чат "Распознавание и синтез речи" @speech_recognition_ru

👥 Авторы: Nikolay Shmyrev @nshmyrev, Denis Petrov @bceloss