开源地址： https://github.com/openai/whisper

视频教学链接：【MACOS本地部署whisper ai, 一键生成中英文视频字幕】

OpenAI Whisper是Whisper 是一种通用语音识别模型。它是在各种音频的大型数据集上进行训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别.这款模型的开源使得研究人员、开发者和企业可以使用它来构建各种语音应用，如语音助手、转录服务或自动化工具等。

Transformer 序列到序列模型针对各种语音处理任务进行训练，包括多语言语音识别、语音翻译、口语识别和语音活动检测。这些任务联合表示为由解码器预测的标记序列，允许单个模型取代传统语音处理管道的许多阶段。多任务训练格式使用一组特殊标记作为任务说明符或分类目标。

一、本地安装

1、安装homebrew

2、安装python

3、安装pytorch

4、安装ffmpeg

# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg
# on Arch Linux
sudo pacman -S ffmpeg
# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg
# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg
# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg

5、安装whisper

pip install -U openai-whisper

二、命令行使用

以下命令将使用以下命令转录音频文件中的语音 medium 模型:

whisper audio.flac audio.mp3 audio.wav --model medium

默认设置（选择 small 模型）非常适合转录英语。要转录包含非英语语音的音频文件，您可以使用 --language 选项:

whisper japanese.wav --language Japanese

添加 --task translate 将把演讲翻译成英语:

whisper japanese.wav --language Japanese --task translate

运行以下命令查看所有可用选项:

whisper --help

SEO族|技术效率工具分享

开源的语音识别和翻译转文本转字幕神器-Mac电脑本地部署Whisper

一、本地安装

二、命令行使用