这个工具可以将一段文本转换为视频,并保存到指定的本地,初衷是想实现小说的可视化阅读功能。
效果图如下:
- 将文本进行分段,现在没有想到好的办法,就是通过标点符号句号分段,分成一个个的句子
- 通过句子生成图片,生成声音,图片开源的有很多,本方案采用 stable-diffusion,语言转文字使用 edge-tts
- 在通过 opencv 将图片合并为视频,目前输出 mp4 格式的视频,句子作为字母贴到视频内容的底部区域。
- 音频是一个有时间概念的东西,恰好可以通过音频控制一张画面的播放时长
- 在通过 ffmpeg 将音频合并到原始视频中。
最终,一个有画面,有字幕,有声音的视频就出现了,咱们实现了一个 文本转视频
。
开发时,需要安装的环境是 macOS
python 3.10.12
,其他环境可能存在兼容性问题
pip install -r requirements.txt
token 申请地址:https://huggingface.co/settings/tokens
因为,该项目中使用了 huggingface 上的开源文生图模型生成图片,中文生成图片效果不大好,因此,本项目对中文进行了翻译,感谢有道,直接使用有道翻译,比较方便。翻译后,生成图的质量有一定的提高。
token 可以写入到 .env 文件里面
因为视频合成声音需要
python3.10 app.py
http://127.0.0.1:5000/
欢迎加群讨论技术?随意打赏,请备注 github 名
![image](https://private-user-images.githubusercontent.com/4476322/302306907-7c457992-a0bc-49a3-9bd6-f23b5f1a595e.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MjEzMjIzMTgsIm5iZiI6MTcyMTMyMjAxOCwicGF0aCI6Ii80NDc2MzIyLzMwMjMwNjkwNy03YzQ1Nzk5Mi1hMGJjLTQ5YTMtOWJkNi1mMjNiNWYxYTU5NWUuanBnP1gtQW16LUFsZ29yaXRobT1BV1M0LUhNQUMtU0hBMjU2JlgtQW16LUNyZWRlbnRpYWw9QUtJQVZDT0RZTFNBNTNQUUs0WkElMkYyMDI0MDcxOCUyRnVzLWVhc3QtMSUyRnMzJTJGYXdzNF9yZXF1ZXN0JlgtQW16LURhdGU9MjAyNDA3MThUMTcwMDE4WiZYLUFtei1FeHBpcmVzPTMwMCZYLUFtei1TaWduYXR1cmU9MTEyYjMwNTg0Yzk3MTkwNTUzMzRhYjRjNWQ3ODFhMjA0OGMzM2M3MTdhNmU1YWI5MWQ4MjgwZGNmYWZkY2VjNyZYLUFtei1TaWduZWRIZWFkZXJzPWhvc3QmYWN0b3JfaWQ9MCZrZXlfaWQ9MCZyZXBvX2lkPTAifQ.I4XGfpSklm0tecmTIlnD1RhtX2M4-JAu3GUiUKJFIQk)
本项目采用 MIT 许可证授权。