این مدل (whisper) یک مدل تشخیص گفتار اتوماتیک (ASR) منبع باز است که توسط OpenAI توسعه یافته است. این مدل با استفاده از مجموعه داده عظیم از داده های نظارت شده چند زبانه و چند وظیفه ای که از وب جمع آوری شده است، آموزش دیده است. Whisper قادر است صدای گفتار را به متن به زبان گفتاری (ASR) و همچنین ترجمه به انگلیسی (ترجمه گفتار) رونویسی کند.
مدل ارایه شده نسبت به مدل های ASR قبلی در برابر لهجه ها، نویز پس زمینه و زبان فنی مقاوم تر است. همچنین می تواند گفتار را به چند زبان رونویسی و ترجمه کند. لینک کولب:
https://colab.research.google.com/drive/1KODMNZ-CIxkfVvf-DddrcGS0U3Nd7hO_?usp=sharing
Whisper is an open-source automatic speech recognition (ASR) model developed by OpenAI. It is trained on a massive dataset of multilingual and multitask supervised data collected from the web. Whisper is capable of transcribing speech audio into the text in the language it is spoken (ASR) as well as translating into English (speech translation). Whisper is more robust to accents, background noise, and technical language than previous ASR models. It can also transcribe and translate speech in multiple languages. Whisper is still under development, but it has the potential to revolutionize the way we interact with computers and other devices. Here are some of the potential applications of Whisper:
-Transcribing meetings, lectures, and other audio recordings -Creating subtitles for videos and movies -Developing voice-controlled interfaces for devices and applications -Translating speech in real time for communication between people who speak different languages -Improving the accuracy of automated customer service systems
#link:
https://openai.com/research/whisper
(ALL RIGHTS RESERVED TO OPENAI)