h1ddenadm1n / capswriter-offline Goto Github PK

View Code? Open in Web Editor NEW

This project forked from haujetzhao/capswriter-offline

83.0 83.0 2.0 64.63 MB

Windows端离线语音输入、中译英、字幕转录；在线多译多、云剪贴板

Python 97.16% Batchfile 0.34% AutoHotkey 2.31% CSS 0.19%

capswriter-offline's People

Contributors

Stargazers

Watchers

Forkers

xueminghui

capswriter-offline's Issues

运行提示找不到文件

运行“start_server_gui.exe”提示系统找不到指定的文件是怎么办

使用的时候有低概率出现，弹起后没有恢复声音，需要重启电脑才能恢复。

希望早日修复

支持语音指令

大佬有没有兴趣做一下这个功能？在手机上我们经常让自己的语音小助手执行指令，我在想，电脑上是不是也可以？
我喜欢用 Windows 上的 quicker, 想要实现语音指令执行 quicker 上的动作。

以下是功能：

可以配置语音指令关键词，以及对应单独运行的命令。如：

打开资料:file:///d:\我的资料\
关机:shutdown -s -t 5

支持配置全局语音指令的运行命令，所有的配置好的语音指令关键词都会去调用该命令。可以传入关键字参数,$1代表指令关键词。如：url://xxxxx?$1 。主要是第1点太麻烦，想统一用quicker处理。

quicker:runaction:8ee2466c-2e47-447b-971b-eed4f8e2542c?keyword=$1

为了避免和输入文字冲突。可以按下某个键触发，比如说 control / alt + capslock，或者其他的。( 又或者什么都不用改，执行语音指令的时候，不要有输入焦点就行 )

你觉得该功能可以的话，可以讨论一下

翻译功能无法使用

在本机电脑启动服务端和客户端后离线翻译和在线翻译均正常

但服务端在另一台机器启动就只能正常输入，无法使用翻译功能,离线和在线均不行
即Server端和Client端在不同电脑上（同一局域网，均关闭防火墙，端口畅通）

是不是翻译端口默认给127.0.0.1了

Config文件仅改动了Server地址和目标语言

增加选择设备的功能

期望能够增加选择输入/输出设备的功能，输入设备就是目前的功能。但是开远程会议的时候，有时候也是想要将对面的语音转为语音的，能否将这个功能也实现。谢啦

UnboundLocalError: cannot accesslocal variable'app'where it is not associated withavalue

客户端启动失败

是否可以给翻译功能增加开关？

首先，感谢大佬的辛勤付出。

我觉得这个分支有两个比较优秀的特性：

进行语音输入的时候会有提示（Hint）。
可以自动隐藏到托盘中去，不用看丑陋的任务栏，但是想看日志的时候，又可以在托盘里面看到日志。

但是我不需要它的翻译功能，看起来好像翻译的模型也占了挺大内存。能不能有一个开关来设置关闭掉，不需要的翻译功能，以节省内存？

客户端界面无法通过，任务栏的show菜单显示出来。

  让我感觉到非常疑惑的是，明明软件可以正常的语音识别转文字，但是客户端在首仅仅在首次打开时才有界面，后续在托盘区始终无法显示其界面， 只能让服务端的界面 正常显示出 来，重启软件依然未能解决。难道客户端本来就是 仅在首次打开的时候短暂显示一下吗？
start_server_gui.exe  与 start_client_gui_admin.exe   这两个软件我都有尝试点击，但问题均未解决。

没有声音

我使用了你发布的最新版,但按大小写录不进声音,他并没有起反应,我听了音频文件也是没有声音.
我测试了麦克风但麦克风并没有异常.
我还换成了原项目进行测试发现并没有异常.
请问你对新版本又做出了什么修改？导致他录不进声音

能不能在运行client/server exe的时候自动结束之前的进程？

有时候systray右键退出之后进程并没有结束

这种情况是什么原因呢

这种情况是什么原因呢，我重装了系统，目前系统是win10 LTSC 21H2版本，安装了Python 3.12.2 (64-bit)，现在出现这样的情况，无法打开，重新下载最新的版本也无济于事，还是这样的报错，有没有大佬解惑，到底是什么地方出现了问题。

求一个长语音转录后，高亮关键词功能

转录长文本后，文本中如果有关键词，能显示红色，比如“重点”、“关注”，等关键词，希望能在转录完成的文本中高亮显示，不一样颜色，或者词前有个标记什么的，只要有标识就行，可以吗？非常需要

关于录制开启的问题

你这个按大小写录制时关闭视频的功能,使我想切换大小写时会自动开启我正在看视频,请问这个该如何解决？

输入有延迟，修改配置文件也没用

改为0.1秒但是每次我按下快捷键以后，起码要等一秒钟输入语音，它才能完全识别正确

箭头显示出来的那句话我其时要输入的是输入有延迟，修改配置文件也没用但是它显示的是路有延迟似乎配置文件修改识别的时间好像没有用每次还是起码要等上一秒钟，然后开始说话，它才能识别正确

我在原版上面测试就没有这个问题不知道是什么情况感谢大佬做的这个项目

您好，首先非常感谢您，真的非常有价值。
能否增加功能，实现这样的目的：打开客户端后，客户端立即开始监听设定好的麦克风，并在每段声音出现后转录成文字，将文字内容记入当天的文档中。
设想：这个客户端可以与按下Caps的版本共存（不检测按键）；麦克风中没有声音3秒（可否自定义）就视为一段；
使用背景：办公室有一台bbk录音电话（hcd-198），连接pc并安装话机软件后，会在windows中添加usb phone 的扬声器和usb phone的麦克风，有电话时会自动录音，电话软件也有留言录音功能。因不能一直守着电话，每次回来需要逐一听取是否有留言，所以想通过这个功能记录留言内容，在打开文档后就可以看到文字内容，节省逐一听取录音的时间。
备注：在下计算机水平有限，所以冒昧提出请求，如果有必要可以支付费用，再次感谢。

启动报错：ModuleNotFoundError: No module named 'PySide6'

首次执行.exe文件时，收到报错如题所示。
需要手动预先安装依赖吗？

希望能够选择不启用翻译相关的功能，毕竟这会占用一定程度的资源

就虽然我不使用这个功能，但这个功能也会随着软件一起加载，就会占用一定程度的内存，最好是能够在设置里面把它关掉，从而不启用这部分功能

请求支持更快更准的新模型：sensevoice

Sensevoice 中文readme

更快更准，支持：zh/yue/en/ja/ko，在音频时长增加的情况下，推理耗时无明显增加，这点挺好的。
希望能够支持这个模型。

使用的时候，在主页面里面也有一个表示正在录音的标识

使用时暂停其他的音频，而不是静音

现在使用的时候，它不是暂停，而是静音

那例如你在看什么视频的时候，突然要回 QQ，然后就语音输入 QQ。

然后等你输完之后发现，视频已经播放了好多

理想情况是输入的，同时其他的所有音频都暂停掉，输入结束后，被暂停的音频自动打开

关于文字点电还有标点符号 . 识别有问题

最开始我没有写替换关键词的时候直接说点它会打成标电符号 .

我说一点点它会识别成一电电

当我说一点两点的时候它会识别成一.两点

以下是我的设置

关于翻译引擎可以自己选，并且可以填入自己申请的 api

例如百度翻译、微软翻译之类的

启动start_client_gui_admin时，只启动client而不启动service

启动前者的时候，它只启动客户端，不启动相应的服务

在属性里设为以管理员方式启动后，无法以快捷方式的方式开机自启

简单说，就是在属性里面设置为以管理员方式启动之后，把快捷方式放到 startup 文件夹里

但是重启后，它并不会启动

最好是软件默认提供一个开机自启的选项

2个问题

hot-rules加了这个
回车 = \r\n
换行 = \r\n

原版里面可以执行回车、换行的指令
这个修改版没反应

另外说回车换行会有错误提示：
[WinError 123] 文件名、目录名或卷标语法不正确。: '2024\05\assets\(20240510-095332)gd7jq0il.mp3' -> '2024\05\assets\(20240510-095332)\r\n.mp3'

这个原版也有

1.2.1版，录音时暂停其他音频设置为False后，仍然会将其他音频静音

pause_other_audio = False             # 录音时暂停其他音频播放

1.2.1版
似乎如果设置为True那在按激活键的时候似乎和键盘的play/pause行为相同
设置为false就是纯静音
但是在有多个播放源的时候会造成混乱，比如mpv就不会被暂停，只会被静音

总之有时候还是需要识别PC正在播放的声音的，所以希望加一个完全不做静音的设置值