Giter Club home page Giter Club logo

py_speech_recognition's Introduction

Audio Transcription Script

Este repositorio contiene un script para convertir archivos de audio en formato M4A a texto utilizando ffmpeg, speech_recognition y pydub. El script convierte el archivo de audio a formato WAV, lo divide en fragmentos manejables, y luego transcribe cada fragmento a texto, guardando la transcripción en un archivo de texto en una carpeta llamada transcription.

Requisitos

  • Python 3.6 o superior
  • ffmpeg
  • speech_recognition
  • pyaudio
  • pydub

Instalación

macOS

  1. Instalar Homebrew (si no está instalado):

    /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
  2. Instalar ffmpeg y portaudio:

    brew install ffmpeg portaudio
  3. Crear un entorno virtual (opcional pero recomendado):

    python3 -m venv .venv
    source .venv/bin/activate
  4. Instalar las dependencias de Python:

    pip install SpeechRecognition pyaudio pydub

Windows

  1. Descargar e instalar ffmpeg desde el sitio oficial: FFmpeg Download. Asegúrate de agregar ffmpeg al PATH del sistema.

  2. Instalar portaudio y pyaudio:

    2.1 Descargar e instalar portaudio desde el sitio oficial: PortAudio Download.

    2.2 Descargar el instalador de PyAudio desde aquí y luego instalarlo:

    pip install path/to/your/downloaded/pyaudio-*.whl
  3. Crear un entorno virtual (opcional pero recomendado):

    python -m venv .venv
    .venv\Scripts\activate
  4. Instalar las dependencias de Python:

    pip install SpeechRecognition pydub

Ubuntu Linux

  1. Actualizar los repositorios e instalar ffmpeg y las dependencias necesarias:

    sudo apt update
    sudo apt install ffmpeg libportaudio2
  2. Instalar portaudio y pyaudio:

    sudo apt install portaudio19-dev python3-pyaudio
  3. Crear un entorno virtual (opcional pero recomendado):

    python3 -m venv .venv
    source .venv/bin/activate
  4. Instalar las dependencias de Python:

    pip install SpeechRecognition pydub

Uso

  1. Clonar el repositorio:

    git clone https://github.com/tu_usuario/tu_repositorio.git
    cd tu_repositorio
  2. Asegúrate de que los archivos de audio M4A estén en la carpeta media.

  3. Ejecutar el script:

    python transcribe_audio.py
  4. La transcripción se guardará en un archivo de texto en la carpeta transcription con el mismo nombre que el archivo de audio original.

Manejo de archivos de audio largos

El script está diseñado para manejar archivos de audio largos dividiéndolos en fragmentos más pequeños de 60 segundos. Cada fragmento se procesa y transcribe por separado, y las transcripciones se concatenan en un solo archivo de texto. Si necesitas ajustar el tamaño del fragmento, puedes modificar la constante CHUNK_LENGTH_MS en el script transcribe_audio.py.

Notas

  • Asegúrate de que los archivos de audio estén correctamente ubicados y que las rutas en el script sean precisas.
  • Si encuentras problemas durante la instalación de las dependencias, consulta la documentación oficial de cada herramienta para obtener más ayuda.

Licencia

Este proyecto está licenciado bajo los términos de la licencia MIT. Consulta el archivo LICENSE para más detalles.

py_speech_recognition's People

Contributors

elgrunge avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.