语音转文本 (STT)

AcceleAI 提供语音转文本服务，支持音频转录和翻译两种模式，基于 Whisper 系列模型，能够准确识别多种语言的语音内容。

两种模式

模式	端点	说明
转录 (Transcriptions)	`/v1/audio/transcriptions`	将音频转为原始语言的文本
翻译 (Translations)	`/v1/audio/translations`	将音频转为英文文本

可用模型

模型	特点
`whisper-large-v3`	最新版本，多语言支持，中文识别推荐
`whisper-1`	第一代稳定版本
`distil-whisper-large-v3-en`	优化英语识别，速度更快

请求参数

参数	类型	必填	说明
`file`	file	是	音频文件，支持 mp3、mp4、mpeg、mpga、m4a、wav、webm，最大 25MB
`model`	string	是	模型标识符
`language`	string	否	音频语言，ISO-639-1 格式（如 `zh`、`en`、`ja`）
`prompt`	string	否	提示文本，引导模型的识别风格和上下文
`response_format`	string	否	输出格式：`json`、`text`、`srt`、`verbose_json`、`vtt`
`temperature`	number	否	0-1，默认 0，值越低结果越确定
`timestamp_granularities[]`	array	否	时间戳粒度：`word`、`segment`（仅 verbose_json 格式可用）

返回格式

JSON（默认）


{
  "text": "转录的文本内容"
}

verbose_json

包含完整的元数据信息：


{
  "task": "transcribe",
  "language": "chinese",
  "duration": 12.5,
  "text": "完整的转录文本",
  "segments": [
    {
      "id": 0,
      "start": 0.0,
      "end": 3.2,
      "text": "第一段文本"
    }
  ]
}

SRT 字幕格式


1
00:00:00,000 --> 00:00:03,200
第一段文本

2
00:00:03,200 --> 00:00:06,800
第二段文本

VTT 字幕格式


WEBVTT

00:00:00.000 --> 00:00:03.200
第一段文本

00:00:03.200 --> 00:00:06.800
第二段文本

纯文本

直接返回转录文本字符串，不带任何元数据。

使用示例

Python SDK


from openai import OpenAI
 
client = OpenAI(
    api_key="<ACCELE_AI_API_KEY>",
    base_url="https://api.acceleai.cn/v1"
)
 
# 转录音频
audio_file = open("meeting_recording.mp3", "rb")
transcript = client.audio.transcriptions.create(
    model="whisper-large-v3",
    file=audio_file,
    language="zh",
    temperature=0.2,
    response_format="verbose_json"
)
 
print(transcript.text)

生成字幕文件


# 直接输出 SRT 格式字幕
audio_file = open("video_audio.mp3", "rb")
srt_content = client.audio.transcriptions.create(
    model="whisper-large-v3",
    file=audio_file,
    language="zh",
    response_format="srt"
)
 
with open("subtitles.srt", "w", encoding="utf-8") as f:
    f.write(srt_content)

翻译为英文


audio_file = open("chinese_speech.mp3", "rb")
translation = client.audio.translations.create(
    model="whisper-large-v3",
    file=audio_file
)
 
print(translation.text)  # 输出英文翻译

cURL 示例


curl -X POST https://api.acceleai.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer <ACCELE_AI_API_KEY>" \
  -F file="@audio.mp3" \
  -F model="whisper-large-v3" \
  -F language="zh" \
  -F response_format="json"

最佳实践

中文音频： 使用 whisper-large-v3，设置 language="zh"，temperature=0.2，并通过 prompt 提供上下文
英文音频： 可选择 distil-whisper-large-v3-en 获得更快的处理速度
有噪音的音频： 通过 prompt 参数提示模型过滤噪声
需要时间戳： 使用 verbose_json 格式配合 timestamp_granularities 参数
制作字幕： 直接将 response_format 设为 srt 或 vtt，无需额外格式转换