Giter Club home page Giter Club logo

pocketsphinx-rest's Introduction

Простой веб-сервис распознавания речи с помощью PocketSphinx.

Docker

docker run -d \
  --name=rhvoice-rest \
  -p 8085:8085 \
  --restart unless-stopped \
  ghcr.io/aculeasis/pocketsphinx-rest:latest

Поддерживаемые архитектуры:

Architecture Available Tag
x86-64 amd64
arm64 arm64v8
armhf arm32v7

Для автоматического обновления можно использовать Watchtower.

Сборка и запуск докера

git clone https://github.com/Aculeasis/pocketsphinx-rest
cd pocketsphinx-rest
# Указать Dockerfile под целевую архитектуру
docker build -t pocketsphinx-rest -f Dockerfile.arm64v8 .
docker run -d -p 8085:8085 pocketsphinx-rest

API

Просто отправить файл через POST

POST /stt
Host: SERVER
Content-Type: audio/x-wav 
(wav file)

Требования к файлу:

  • Формат - wav
  • Число каналов - 1 (моно)
  • Частота дискретизации - 16 000 Гц
  • Квантование - 16 бит.

Если нужно, перекодируйте файл перед отправкой.

Сервер пришлет ответ в json, где:

  • code - код ошибки или 0
  • text - распознанный текст если code равен 0 иначе сообщение об ошибке

Работа с API

examples

Для проверки сервера можно использовать pocketsphinx_rest_file.py FILE [URL]

Примечания

  • Из-за большого словаря для запуска нужно минимум 1 GB RAM.
  • Распознование происходит в однопоточном режиме, что накладывает высокие требования на производительность CPU core. На OPI Prime распознование фраз занимает от 10 до 40 секунд.
  • Веб-сервер также запущен в однопоточном режиме.
  • Качество распознования оставляет желать лучшего ужасно.
  • Поддерживается только русский язык.

Ссылки

pocketsphinx-rest's People

Contributors

aculeasis avatar

Stargazers

 avatar  avatar  avatar  avatar

Watchers

 avatar  avatar

Forkers

beaujr

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.