一直没发现这么好的语音识别模型

admin

146362
文章

119
评论

2024年4月2日09:58:10评论20 views字数 1094阅读3分38秒阅读模式

之前搞Moss语音对话项目时候，用过百度飞浆的语音转文字，但是相对来说比较臃肿，同时也不支持一些依赖库的最新版本。最近有想搞一个相关的项目，于是决定去寻找新的好用的模型......

Whisper

终于在github上，找到了一个开源项目Whisper，一看竟是OpenAI开源的。

使用体验上我只能说，方便便捷，支持多种语言，你不用再指定音频的格式，它都帮助你自动处理好；考虑到效率问题，whisper给出了五个规格的模型，来满足不同场景下对速度或者准确率的需求；同时它还自带了命令行工具；最重要的是它封装得很好，几行代码就可以直接调用。

具体的细节可以参考项目的README，附上仓库链接：

https://github.com/openai/whisper

安装

首先安装很简单，直接pip就行，而且它会自动把依赖的库包括torch也自动安装好

pip install -U openai-whisper

不过这里我提醒一下，它默认安装的torch是非GPU环境下的，如果想用GPU来运算的话，先删除装好的torch，然后再去装你电脑对应的GPU版本的，可以去官方页面进行选择：

https://pytorch.org/get-started/locally/

一直没发现这么好的语音识别模型以我的来举例

pip uninstall torchpip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

随后就可以使用GPU来运算了。

使用

安装好之后，我就直接上示例代码了，这里我用GPU来跑

import torchimport whisperdevice = "cuda" if torch.cuda.is_available() else "cpu"model = whisper.load_model("small", device=device)result = model.transcribe("test.wav")print(result["text"])

没错，就是这么简单，其中官方提供了五种参数规格的模型，对照表如下：

一直没发现这么好的语音识别模型

这里根据自己对准确率和速度的需要来进行选择，替换load_model中的参数即可，如果你本地没有模型，它会自动下载。

经过测试，抛去最初加载模型的时间，120个字的音频，用tiny模型通过GPU运算1s左右就可以完成识别，CPU大概2s左右，下个项目就用它了，太方便了。

原文始发于微信公众号（飞羽技术工坊）：一直没发现这么好的语音识别模型

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

一直没发现这么好的语音识别模型

工具推荐 HackBrowserData

联想内部工具箱！包含98款实用工具！秒杀一切神器！

Kali Linux 最佳工具之Skipfish简介与方法

Zygisk注入器 - 动动手指轻松注入并隐藏你的SO文件

手把手教你快速上手yakit热加载技能

Unauthorized-Vul【最全未授权访问漏洞批量检测工具】

文件上传绕过FuzzGUI工具可视化Fuzz一键生成百种绕过Payload

QaFuzz：关于测试域名的漏洞挖掘工具

关于信息收集工具转子女神的逆向

🚨🎯 工具推荐 | S3Scanner：

发表评论

在线咨询

微信