Giter Club home page Giter Club logo

capswriter-offline's People

Contributors

dennischancs avatar h1ddenadm1n avatar haujetzhao avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar

Forkers

xueminghui

capswriter-offline's Issues

支持语音指令

大佬有没有兴趣做一下这个功能?在手机上我们经常让自己的语音小助手执行指令,我在想,电脑上是不是也可以?
我喜欢用 Windows 上的 quicker, 想要实现语音指令执行 quicker 上的动作。

以下是功能:

  1. 可以配置语音指令关键词, 以及对应单独运行的命令。 如:
打开资料:file:///d:\我的资料\
关机:shutdown -s -t 5

  1. 支持配置全局语音指令的运行命令,所有的配置好的语音指令关键词都会去调用该命令 。 可以传入关键字参数,$1代表指令关键词。如:url://xxxxx?$1 。 主要是第1点太麻烦,想统一用quicker处理。
quicker:runaction:8ee2466c-2e47-447b-971b-eed4f8e2542c?keyword=$1
  1. 为了避免和输入文字冲突。 可以按下某个键触发,比如说 control / alt + capslock,或者其他的。( 又或者什么都不用改, 执行语音 指令的时候,不要有输入焦点就行 )

你觉得该功能可以的话,可以讨论一下

效果不好,

测试了几次,效果不好,出字都难,更别提正确了,这什么没有配置好吗?
image

翻译功能无法使用

在本机电脑启动服务端和客户端后离线翻译和在线翻译均正常

Snipaste_2024-03-22_14-07-44

但服务端在另一台机器启动就只能正常输入,无法使用翻译功能,离线和在线均不行
即Server端和Client端在不同电脑上(同一局域网,均关闭防火墙,端口畅通)

image
image

是不是翻译端口默认给127.0.0.1了

Config文件仅改动了Server地址和目标语言

image

增加选择设备的功能

期望能够增加选择输入/输出设备的功能,输入设备就是目前的功能。但是开远程会议的时候,有时候也是想要将对面的语音转为语音的,能否将这个功能也实现。谢啦

是否可以给翻译功能增加开关?

首先,感谢大佬的辛勤付出。

我觉得这个分支有两个比较优秀的特性:

  1. 进行语音输入的时候会有提示(Hint)。
  2. 可以自动隐藏到托盘中去,不用看丑陋的任务栏,但是想看日志的时候,又可以在托盘里面看到日志。

但是我不需要它的翻译功能,看起来好像翻译的模型也占了挺大内存。能不能有一个开关来设置关闭掉,不需要的翻译功能,以节省内存?

客户端界面无法通过,任务栏的show菜单显示出来。

image

image

  让我感觉到非常疑惑的是,明明软件可以正常的语音识别转文字,但是客户端在首仅仅在首次打开时才有界面,后续在托盘区始终无法显示其界面, 只能让服务端的界面 正常显示出 来,重启软件依然未能解决。难道客户端本来就是 仅在首次打开的时候短暂显示一下吗?
start_server_gui.exe  与 start_client_gui_admin.exe   这两个软件我都有尝试点击,但问题均未解决。

没有声音

我使用了你发布的最新版,但按大小写录不进声音,他并没有起反应,我听了音频文件也是没有声音.
我测试了麦克风但麦克风并没有异常.
我还换成了原项目进行测试发现并没有异常.
请问你对新版本又做出了什么修改?导致他录不进声音

这种情况是什么原因呢

微信图片_20240407222906
这种情况是什么原因呢,我重装了系统,目前系统是win10 LTSC 21H2版本,安装了Python 3.12.2 (64-bit),现在出现这样的情况,无法打开,重新下载最新的版本也无济于事,还是这样的报错,有没有大佬解惑,到底是什么地方出现了问题。

求一个长语音转录后,高亮关键词功能

转录长文本后,文本中如果有关键词,能显示红色,比如“重点”、“关注”,等关键词,希望能在转录完成的文本中高亮显示,不一样颜色,或者词前有个标记什么的,只要有标识就行,可以吗?非常需要

关于录制开启的问题

你这个按大小写录制时关闭视频的功能,使我想切换大小写时会自动开启我正在看视频,请问这个该如何解决?

输入有延迟,修改配置文件也没用

Snipaste_2024-06-08_08-00-37

改为0.1秒 但是每次我按下快捷键以后,起码要等一秒钟输入语音,它才能完全识别正确

箭头显示出来的那句话 我其时要输入的是 输入有延迟,修改配置文件也没用 但是它显示的是 路有延迟 似乎配置文件修改识别的时间好像没有用 每次还是起码要等上一秒钟,然后开始说话,它才能识别正确

我在原版上面测试就没有这个问题 不知道是什么情况 感谢大佬做的这个项目

请求监听转录功能

您好,首先非常感谢您,真的非常有价值。
能否增加功能,实现这样的目的:打开客户端后,客户端立即开始监听设定好的麦克风,并在每段声音出现后转录成文字,将文字内容记入当天的文档中。
设想:这个客户端可以与按下Caps的版本共存(不检测按键);麦克风中没有声音3秒(可否自定义)就视为一段;
使用背景:办公室有一台bbk录音电话(hcd-198),连接pc并安装话机软件后,会在windows中添加usb phone 的扬声器和usb phone的麦克风,有电话时会自动录音,电话软件也有留言录音功能。因不能一直守着电话,每次回来需要逐一听取是否有留言,所以想通过这个功能记录留言内容,在打开文档后就可以看到文字内容,节省逐一听取录音的时间。
备注:在下计算机水平有限,所以冒昧提出请求,如果有必要可以支付费用,再次感谢。

使用时暂停其他的音频,而不是静音

现在使用的时候,它不是暂停,而是静音

那例如你在看什么视频的时候,突然要回 QQ,然后就语音输入 QQ。

然后等你输完之后发现,视频已经播放了好多

理想情况是输入的,同时其他的所有音频都暂停掉,输入结束后,被暂停的音频自动打开

2个问题

hot-rules加了这个
回车 = \r\n
换行 = \r\n

原版里面可以执行回车、换行的指令
这个修改版没反应

另外说回车换行 会有错误提示:
[WinError 123] 文件名、目录名或卷标语法不正确。: '2024\05\assets\(20240510-095332)gd7jq0il.mp3' -> '2024\05\assets\(20240510-095332)\r\n.mp3'

这个原版也有

1.2.1版,录音时暂停其他音频设置为False后,仍然会将其他音频静音

pause_other_audio = False             # 录音时暂停其他音频播放

1.2.1版
似乎如果设置为True那在按激活键的时候似乎和键盘的play/pause行为相同
设置为false就是纯静音
但是在有多个播放源的时候会造成混乱,比如mpv就不会被暂停,只会被静音

总之有时候还是需要识别PC正在播放的声音的,所以希望加一个完全不做静音的设置值

求高亮关键词功能

转录长文本后,文本中如果有关键词,能显示红色,比如“重点”、“关注”,等关键词,希望能在转录完成的文本中高亮显示,不一样颜色,或者词前有个标记什么的,只要有标识就行,可以吗?非常需要

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.