Skip to Content

语音转文本 (STT)

AcceleAI 提供语音转文本服务,支持音频转录和翻译两种模式,基于 Whisper 系列模型,能够准确识别多种语言的语音内容。

两种模式

模式端点说明
转录 (Transcriptions)/v1/audio/transcriptions将音频转为原始语言的文本
翻译 (Translations)/v1/audio/translations将音频转为英文文本

可用模型

模型特点
whisper-large-v3最新版本,多语言支持,中文识别推荐
whisper-1第一代稳定版本
distil-whisper-large-v3-en优化英语识别,速度更快

请求参数

参数类型必填说明
filefile音频文件,支持 mp3、mp4、mpeg、mpga、m4a、wav、webm,最大 25MB
modelstring模型标识符
languagestring音频语言,ISO-639-1 格式(如 zhenja
promptstring提示文本,引导模型的识别风格和上下文
response_formatstring输出格式:jsontextsrtverbose_jsonvtt
temperaturenumber0-1,默认 0,值越低结果越确定
timestamp_granularities[]array时间戳粒度:wordsegment(仅 verbose_json 格式可用)

返回格式

JSON(默认)

{ "text": "转录的文本内容" }

verbose_json

包含完整的元数据信息:

{ "task": "transcribe", "language": "chinese", "duration": 12.5, "text": "完整的转录文本", "segments": [ { "id": 0, "start": 0.0, "end": 3.2, "text": "第一段文本" } ] }

SRT 字幕格式

1 00:00:00,000 --> 00:00:03,200 第一段文本 2 00:00:03,200 --> 00:00:06,800 第二段文本

VTT 字幕格式

WEBVTT 00:00:00.000 --> 00:00:03.200 第一段文本 00:00:03.200 --> 00:00:06.800 第二段文本

纯文本

直接返回转录文本字符串,不带任何元数据。

使用示例

Python SDK

from openai import OpenAI client = OpenAI( api_key="<ACCELE_AI_API_KEY>", base_url="https://api.acceleai.cn/v1" ) # 转录音频 audio_file = open("meeting_recording.mp3", "rb") transcript = client.audio.transcriptions.create( model="whisper-large-v3", file=audio_file, language="zh", temperature=0.2, response_format="verbose_json" ) print(transcript.text)

生成字幕文件

# 直接输出 SRT 格式字幕 audio_file = open("video_audio.mp3", "rb") srt_content = client.audio.transcriptions.create( model="whisper-large-v3", file=audio_file, language="zh", response_format="srt" ) with open("subtitles.srt", "w", encoding="utf-8") as f: f.write(srt_content)

翻译为英文

audio_file = open("chinese_speech.mp3", "rb") translation = client.audio.translations.create( model="whisper-large-v3", file=audio_file ) print(translation.text) # 输出英文翻译

cURL 示例

curl -X POST https://api.acceleai.cn/v1/audio/transcriptions \ -H "Authorization: Bearer <ACCELE_AI_API_KEY>" \ -F file="@audio.mp3" \ -F model="whisper-large-v3" \ -F language="zh" \ -F response_format="json"

最佳实践

  • 中文音频: 使用 whisper-large-v3,设置 language="zh"temperature=0.2,并通过 prompt 提供上下文
  • 英文音频: 可选择 distil-whisper-large-v3-en 获得更快的处理速度
  • 有噪音的音频: 通过 prompt 参数提示模型过滤噪声
  • 需要时间戳: 使用 verbose_json 格式配合 timestamp_granularities 参数
  • 制作字幕: 直接将 response_format 设为 srtvtt,无需额外格式转换