开源的语音识别和翻译转文本转字幕神器-Mac电脑本地部署Whisper

2024-05-23 20:38:00
pjd
原创 132

开源地址: https://github.com/openai/whisper

视频教学链接: 【MACOS本地部署whisper ai, 一键生成中英文视频字幕】

OpenAI Whisper是Whisper 是一种通用语音识别模型。 它是在各种音频的大型数据集上进行训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别.这款模型的开源使得研究人员、开发者和企业可以使用它来构建各种语音应用,如语音助手、转录服务或自动化工具等。

Transformer 序列到序列模型针对各种语音处理任务进行训练,包括多语言语音识别、语音翻译、口语识别和语音活动检测。 这些任务联合表示为由解码器预测的标记序列,允许单个模型取代传统语音处理管道的许多阶段。 多任务训练格式使用一组特殊标记作为任务说明符或分类目标。

一、本地安装

1、安装homebrew


2、安装python


3、安装pytorch


4、安装ffmpeg

# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg
# on Arch Linux
sudo pacman -S ffmpeg
# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg
# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg
# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg

5、安装whisper

pip install -U openai-whisper

二、命令行使用

以下命令将使用以下命令转录音频文件中的语音 medium 模型:

whisper audio.flac audio.mp3 audio.wav --model medium

默认设置(选择 small 模型)非常适合转录英语。 要转录包含非英语语音的音频文件,您可以使用 --language 选项:

whisper japanese.wav --language Japanese

添加 --task translate 将把演讲翻译成英语:

whisper japanese.wav --language Japanese --task translate

运行以下命令查看所有可用选项:

whisper --help