语音转文本 (STT)
AcceleAI 提供语音转文本服务,支持音频转录和翻译两种模式,基于 Whisper 系列模型,能够准确识别多种语言的语音内容。
两种模式
| 模式 | 端点 | 说明 |
|---|---|---|
| 转录 (Transcriptions) | /v1/audio/transcriptions | 将音频转为原始语言的文本 |
| 翻译 (Translations) | /v1/audio/translations | 将音频转为英文文本 |
可用模型
| 模型 | 特点 |
|---|---|
whisper-large-v3 | 最新版本,多语言支持,中文识别推荐 |
whisper-1 | 第一代稳定版本 |
distil-whisper-large-v3-en | 优化英语识别,速度更快 |
请求参数
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
file | file | 是 | 音频文件,支持 mp3、mp4、mpeg、mpga、m4a、wav、webm,最大 25MB |
model | string | 是 | 模型标识符 |
language | string | 否 | 音频语言,ISO-639-1 格式(如 zh、en、ja) |
prompt | string | 否 | 提示文本,引导模型的识别风格和上下文 |
response_format | string | 否 | 输出格式:json、text、srt、verbose_json、vtt |
temperature | number | 否 | 0-1,默认 0,值越低结果越确定 |
timestamp_granularities[] | array | 否 | 时间戳粒度:word、segment(仅 verbose_json 格式可用) |
返回格式
JSON(默认)
{
"text": "转录的文本内容"
}verbose_json
包含完整的元数据信息:
{
"task": "transcribe",
"language": "chinese",
"duration": 12.5,
"text": "完整的转录文本",
"segments": [
{
"id": 0,
"start": 0.0,
"end": 3.2,
"text": "第一段文本"
}
]
}SRT 字幕格式
1
00:00:00,000 --> 00:00:03,200
第一段文本
2
00:00:03,200 --> 00:00:06,800
第二段文本VTT 字幕格式
WEBVTT
00:00:00.000 --> 00:00:03.200
第一段文本
00:00:03.200 --> 00:00:06.800
第二段文本纯文本
直接返回转录文本字符串,不带任何元数据。
使用示例
Python SDK
from openai import OpenAI
client = OpenAI(
api_key="<ACCELE_AI_API_KEY>",
base_url="https://api.acceleai.cn/v1"
)
# 转录音频
audio_file = open("meeting_recording.mp3", "rb")
transcript = client.audio.transcriptions.create(
model="whisper-large-v3",
file=audio_file,
language="zh",
temperature=0.2,
response_format="verbose_json"
)
print(transcript.text)生成字幕文件
# 直接输出 SRT 格式字幕
audio_file = open("video_audio.mp3", "rb")
srt_content = client.audio.transcriptions.create(
model="whisper-large-v3",
file=audio_file,
language="zh",
response_format="srt"
)
with open("subtitles.srt", "w", encoding="utf-8") as f:
f.write(srt_content)翻译为英文
audio_file = open("chinese_speech.mp3", "rb")
translation = client.audio.translations.create(
model="whisper-large-v3",
file=audio_file
)
print(translation.text) # 输出英文翻译cURL 示例
curl -X POST https://api.acceleai.cn/v1/audio/transcriptions \
-H "Authorization: Bearer <ACCELE_AI_API_KEY>" \
-F file="@audio.mp3" \
-F model="whisper-large-v3" \
-F language="zh" \
-F response_format="json"最佳实践
- 中文音频: 使用
whisper-large-v3,设置language="zh",temperature=0.2,并通过prompt提供上下文 - 英文音频: 可选择
distil-whisper-large-v3-en获得更快的处理速度 - 有噪音的音频: 通过
prompt参数提示模型过滤噪声 - 需要时间戳: 使用
verbose_json格式配合timestamp_granularities参数 - 制作字幕: 直接将
response_format设为srt或vtt,无需额外格式转换