Vision (视觉)

GPT-4o 和 GPT-4 Turbo with Vision 具有视觉能力，能够处理图像输入并回答有关图像的问题。

能做什么？

物体识别 : 识别图中的物品。
文本识别 (OCR) : 读取图像中的手写或打印文字。
描述与说明 : 为图像生成标题或详细描述。
图表分析 : 解释数据图表、信息图。
空间关系 : 理解物体之间的相对位置。

如何使用

图像可以通过两种方式传递给模型：

图片 URL : 指向互联网上可公开访问的图片链接。
Base64 编码 : 将本地图片转换为 Base64 字符串直接上传。

示例代码 (Python)

python

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "这张图片里有什么？"},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0].message.content)

图像细节 (Low vs High Fidelity)

通过 detail 参数控制模型处理图像的精度：

low : 禁用高分辨率模型。模型接收 512x512 的低分辨率版本。速度快，消耗 token 少 (固定 85 tokens)。适用于不需要细节的大致描述。
high : 启用高分辨率。模型先看低分率全图，再将图片切分为 512x512 的方块进行详细分析。消耗 token 取决于图片尺寸。
auto : 默认值。模型根据图片尺寸自动决定。

局限性

医学影像 : 不适合用于解读专业医学图像（如 CT、X光）。
非英语文本 : 处理非拉丁字母的文本（如中文、日文、韩文）时，OCR 性能可能不如英语。
小文本/低分辨率 : 对于非常小的文字或模糊不清的细节可能无法准确识别。
空间推理 : 复杂的几何或精确的空间定位任务（如“苹果确切的坐标在哪里”）可能不准确。

Vision (视觉) ​ ​

能做什么？ ​ ​

如何使用 ​ ​

示例代码 (Python) ​ ​

图像细节 (Low vs High Fidelity) ​ ​

局限性 ​ ​

Vision (视觉)

能做什么？

如何使用

示例代码 (Python)

图像细节 (Low vs High Fidelity)

局限性