图像理解
AcceleAI 支持通过多模态大模型同时处理图像和文本输入,实现图像内容理解、视觉问答、多图比较分析等能力。接口兼容 OpenAI Chat Completions 格式。
核心能力
- 图像内容描述(物体、场景、行为识别)
- 基于图像的问答交互
- 多图对比与综合分析
- 图文结合推理
快速开始
from openai import OpenAI
client = OpenAI(
api_key="<ACCELE_AI_API_KEY>",
base_url="https://api.acceleai.cn/v1"
)
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "请描述这张图片的内容"},
{
"type": "image_url",
"image_url": {"url": "https://example.com/image.jpg"}
}
]
}
],
max_tokens=500
)
print(response.choices[0].message.content)图像输入方式
URL 方式(推荐)
适用于公开可访问的网络图片:
{
"type": "image_url",
"image_url": {
"url": "https://example.com/photo.jpg"
}
}要求:
- 图片必须可公开访问
- 支持 PNG、JPEG、WEBP 格式(不支持 GIF)
- 单张图片不超过 20MB
Base64 编码方式
适用于本地文件或私有图片:
{
"type": "image_url",
"image_url": {
"url": "data:image/png;base64,iVBORw0KGgo..."
}
}Python 示例:
import base64
def encode_image(image_path):
with open(image_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
base64_image = encode_image("local_photo.jpg")
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "这张图中有什么?"},
{
"type": "image_url",
"image_url": {
"url": f"data:image/jpeg;base64,{base64_image}"
}
}
]
}
]
)多图输入
单次请求中可传入多张图片,模型会综合所有图片进行分析:
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "请对比这两张图片,指出它们的异同"},
{
"type": "image_url",
"image_url": {"url": "https://example.com/image1.jpg"}
},
{
"type": "image_url",
"image_url": {"url": "https://example.com/image2.jpg"}
}
]
}
]
)detail 参数
通过 detail 参数可以控制图像分析的精度,直接影响 Token 消耗:
| 值 | 说明 | Token 消耗 |
|---|---|---|
low | 快速处理,适合概览场景 | 固定 85 tokens/张 |
high | 高精度分析,提取丰富细节 | 根据图片尺寸动态计算 |
auto | 系统自动选择(默认) | 自动平衡性能与成本 |
使用方式:
{
"type": "image_url",
"image_url": {
"url": "https://example.com/image.jpg",
"detail": "high"
}
}Token 计费说明
- low 模式: 每张图片固定消耗 85 tokens,速度快,成本低
- high 模式: 根据图片分辨率和细节量动态计算,消耗更多 tokens
- 建议: 大多数场景使用默认
auto即可,系统会自动在性能与成本之间取得平衡
cURL 示例
curl -X POST https://api.acceleai.cn/v1/chat/completions \
-H "Authorization: Bearer <ACCELE_AI_API_KEY>" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-4o",
"messages": [
{
"role": "user",
"content": [
{"type": "text", "text": "描述图中的场景"},
{
"type": "image_url",
"image_url": {
"url": "https://example.com/photo.jpg",
"detail": "auto"
}
}
]
}
],
"max_tokens": 500
}'使用建议
- 搭配明确的文本指令能显著提升图像理解效果
- 对于关键输出,建议独立验证,不要将视觉分析作为唯一决策依据
- 如果只需要粗略理解图片,使用
detail: "low"可以大幅降低成本