Russian TTS inference

Установка

Вы можете установить пакет с помощью pip:

pip install TeraTTS

Также вы можете установить используя Git:

pip install -e git+https://github.com/Tera2Space/RUTTS#egg=TeraTTS

Ошибки

1)Если на Windows у вас ошибка при установке,нужно просто скачать Visual Studio здесь и при установке выбрать галочку около Разработка классических приложений на С++

2)Если после установки не работает что-то, убедитесь что модуль скачан последней версии(удалить и скачать) и так же что названия моделей есть на https://huggingface.co/TeraTTS

3)Если ничего не помогло обратитесь за помощью в https://t.me/teraspace_chat

Использование

text = "Привет, мир!"

from TeraTTS import TTS

# Опционально: Предобработка текста (улучшает качество)
from ruaccent import RUAccent
accentizer = RUAccent()

# Загрузка моделей акцентуации и словарей
accentizer.load(omograph_model_size='turbo', use_dictionary=True)

# Обработка текста с учетом ударений и буквы ё
text = accentizer.process_all(text)
print(f"Текст с ударениями и ё: {text}")


# Примечание: Вы можете найти все модели по адресу https://huggingface.co/TeraTTS, включая модель GLADOS
tts = TTS("TeraTTS/natasha-g2p-vits", add_time_to_end=1.0, tokenizer_load_dict=True) # Вы можете настроить 'add_time_to_end' для продолжительности аудио, 'tokenizer_load_dict' можно отключить если используете RUAccent


# 'length_scale' можно использовать для замедления аудио для лучшего звучания (по умолчанию 1.1, указано здесь для примера)
audio = tts(text, lenght_scale=1.1)  # Создать аудио. Можно добавить ударения, используя '+'
tts.play_audio(audio)  # Воспроизвести созданное аудио
tts.save_wav(audio, "./test.wav")  # Сохранить аудио в файл


# Создать аудио и сразу его воспроизвести
tts(text, play=True, lenght_scale=1.1)

Some errors

Ошибки при запуске:

Traceback (most recent call last):
  File "s:\my_folder\main.py", line 16, in <module>
    accentizer.load(omograph_model_size='big_poetry', use_dictionary=True) 
  File "S:\python\Lib\site-packages\ruaccent\ruaccent.py", line 78, in load
    self.omograph_model.load(
  File "S:\python\Lib\site-packages\ruaccent\omograph_model.py", line 11, in load
    self.tokenizer = AutoTokenizer.from_pretrained(path)
                     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "S:\python\Lib\site-packages\transformers\models\auto\tokenization_auto.py", line 754, in from_pretrained
    return tokenizer_class_fast.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "S:\python\Lib\site-packages\transformers\tokenization_utils_base.py", line 1854, in from_pretrained
    return cls._from_pretrained(
           ^^^^^^^^^^^^^^^^^^^^^
  File "S:\python\Lib\site-packages\transformers\tokenization_utils_base.py", line 1886, in _from_pretrained
    slow_tokenizer = (cls.slow_tokenizer_class)._from_pretrained(
                     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "S:\python\Lib\site-packages\transformers\tokenization_utils_base.py", line 2017, in _from_pretrained
    tokenizer = cls(*init_inputs, **init_kwargs)
                ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "S:\python\Lib\site-packages\transformers\models\bert\tokenization_bert.py", line 213, in __init__
    if not os.path.isfile(vocab_file):
           ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "<frozen genericpath>", line 30, in isfile
TypeError: stat: path should be string, bytes, os.PathLike or integer, not NoneType

Код взят с примера:

from RUTTS import TTS

# Создание модели TTS с указанным именем
# Примечание: Вы можете найти все модели по адресу https://huggingface.co/TeraTTS, включая модель GLADOS
tts = TTS("TeraTTS/natasha-g2p-vits", add_time_to_end=0.8)  # Вы можете настроить 'add_time_to_end' для продолжительности аудио

text = "Привет, мир!"
# Опционально: Предобработка текста (улучшает качество)
from ruaccent import RUAccent
accentizer = RUAccent(workdir="./model")

# Загрузка моделей акцентуации и словарей
# Доступны две модели: 'medium' (рекомендуется) и 'small'.
# Переменная 'dict_load_startup' управляет загрузкой словаря при запуске (больше памяти) или загрузкой его по мере необходимости во время выполнения (экономия памяти, но медленнее).
# Переменная disable_accent_dict отключает использование словаря (все ударения расставляет нейросеть). Данная функция экономит ОЗУ, по скорости работы сопоставима со всем словарём в ОЗУ.
accentizer.load(omograph_model_size='big_poetry', use_dictionary=True)

# Обработка текста с учетом ударений и буквы ё
text = accentizer.process_all(text)
print(f"Текст с ударениями и ё: {text}")

# Синтез речи
# 'length_scale' можно использовать для замедления аудио для лучшего звучания (по умолчанию 1.2, указано здесь для примера)
audio = tts(text, lenght_scale=1.2)  # Создать аудио. Можно добавить ударения, используя '+'
tts.play_audio(audio)  # Воспроизвести созданное аудио
tts.save_wav(audio, "./test.wav")  # Сохранить аудио в файл

# Создать аудио и сразу его воспроизвести
tts(text, play=True, lenght_scale=1.2)

tera2space / teratts Goto Github PK

teratts's Introduction

Russian TTS inference

Установка

Ошибки

Использование

teratts's People

Contributors

Stargazers

Watchers

Forkers

teratts's Issues

Можете сделать приложение-сервис для андроид?

Some errors

Requires audio library evenwhen it's unused

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent