Windows语音识别转文字

admin

145368
文章

119
评论

2025年6月7日13:50:27评论15 views字数 1823阅读6分4秒阅读模式

☆ 背景介绍

有时会在别人说点啥时用录音笔、手机APP等录制音频，事后导出音频文件，重新播放内容，手工整理文字。记者采访，肯定有这需求。需求量大的群体，肯定有TA们专业解决方案。

普通人生活中遇上此需求的不多，但也不是绝对没有。女科学家觉得我特能扯淡，好几次在我正满嘴跑火车之际说：“停，等我录一下…(掏手机)…你接着说…”。她这手机录音导出来是m4a后缀，当时来不及找现成的语音识别转文字工具，她就倍速听录音，根据关键字手工摘录要点。

若录音不涉及隐私，有很多云端解决方案，剪映好像就是云端方案。干网络安全这行，无法接受隐私数据上云。我不是搞媒体的，也不会AI相关编程，需要一个小白式傻瓜化工具，本地离线使用。

还真有，github上的Buzz，是对OpenAI Whisper的离线封装版，缓存相应模型文件后，使用时不要求必须联网；T14笔记本也能跑。

☆ Buzz

https://github.com/chidiwilliams/buzz

OpenAI Whisper是通用语音识别引擎，自己布署使用Whisper，对普通用户有难度。Buzz对之进行离线封装，提供Windows版安装包，简化布署与使用过程。

1) 安装

下载Buzz-1.2.0-windows.exe，有1.51GB。安装目录在

C:Program Files (x86)Buzz

占用空间5.03GB。Buzz是Python开发的，安装目录下_internal子目录有Python 3.11解释引擎。

2) 最简用法

set http_proxy=socks5h://<ip>:<port>set https_proxy=socks5h://<ip>:<port>"C:Program Files (x86)BuzzBuzz.exe"

设代理是防止GFW干扰模型文件的下载过程

"Import File"本来有快捷键Ctrl-O，但Windows中实测不灵，BUG。语音识别结束时会在some.m4a所在目录生成相应的txt、srt文件；文件名有模板，可修改。

初次测试Buzz推荐用"Whisper+Small"。使用某些模型时会崩溃，那就换个模型重试。

2.1) 测试数据

some.m4a大概5m26s，是段两人之间日常对话。各种模型耗时如下:

这种事不能简单看耗时，还得看语音识别效果，上面只是记录耗时参照系。

我觉得"Whisper+Small"、"Whisper+Large-V3-Turbo"够用了。

☆ Win10/11自带语音听写功能 (不推荐)

VB-CABLE Virtual Audio Devicehttps://vb-audio.com/Cable/

非LTSB版Win10/11自带语音听写功能，能识别来自麦克风的音频输入，并自动转成文字输出到某种文本域中，比如打开的记事本。但我们想要的场景是，一边播放音频，一边根据前者自动听写到文本域中；音频输入不用麦克风，而是来自播放器的音频输出。这种需求一般可用第三方软件配合解决，目前没有原生解决方案。

安装虚拟音频设备VB-CABLE，它同时提供虚拟的CABLE Output与CABLE Input设备，所有来自CABLE Input的音频流直接转发到CABLE Output，有点像内录线。稳妥起见，安装结束后重启OS。

实测将输入设备设为"立体声混音"，并不适用此场景，必须装VB-CABLE。

参照下图调整音频相关设置:

假设需要播放中文音频，在桌面右下角托盘区将输入法调成某种中文输入法，比如微软五笔、微软拼音什么的，都可以，不要调成ENG美式键盘；但中文输入法本身可停留在英文输入状态，这个无所谓。若托盘区是ENG美式键盘，将来听写中文音频时各种幺蛾子。

Win+H呼叫自带语音听写功能，会在屏幕正上方出现提示横幅，其左侧有个麦克风图标，点击它，可启用或停止听写功能。通过麦克风色调变化，可看出启用、停止状态。

打开记事本或其他文本处理软件，播放音频，启用听写功能。正上方横幅有一些提示信息，比如正在初始化、正在聆听等等。鼠标焦点要放在记事本中，一切正常的话，慢慢地其中就会出现与所播放音频对应的文字，即自动听写。

听写时勿将焦点从记事本移开，这算是大限制。我用虚拟机规避，这样Guest中不失焦，Host中随便干啥。

Win10的语音听写能力很一般，并不推荐；据说Win11好一些，未实测。

(完整版本看TXT)

原文始发于微信公众号（青衣十三楼飞花堂）：Windows语音识别转文字

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

Windows语音识别转文字

Gemini 2.5Pro的官方新福利，速薅

人工智能时代，企业数据安全应对之策

区块链在网络安全中的实际应用与局限

卫星图揭秘伊朗核设施遭袭背后的暗流涌动与未解之谜

一个关于思科模拟器中如何配置交换机的问题，配置了半天还是不行?

Docker配置了daemon镜像源但未生效，仍走默认源的解决办法

G.O.S.S.I.P 阅读推荐 2025-06-26 RAG Trackback

如何做好IT资产管理

近期勒索软件组织Qilin如此活跃 | 什么来头？

5 分钟零配置！一键搭建局域网文件共享服务器（手机 / 电脑互传必备）

发表评论

在线咨询

微信