2025年9月17日,OpenAI发布最新多模态模型GPT-5 Vision,在视觉-语言理解任务上达到接近人类水平。系统能够同时处理图像、文本和音频信息,理解复杂跨模态内容。
新模型在视觉问答测试中得分首次超过90%,能够准确描述图像内容并回答相关问题。特别是在需要推理的场景中,表现显著优于前代模型。
研究人员展示了模型在医疗影像分析、自动驾驶和内容审核等领域的应用潜力。模型已开放API接口供开发者测试使用,正式版预计明年发布。
2025年9月17日,OpenAI发布最新多模态模型GPT-5 Vision,在视觉-语言理解任务上达到接近人类水平。系统能够同时处理图像、文本和音频信息,理解复杂跨模态内容。
新模型在视觉问答测试中得分首次超过90%,能够准确描述图像内容并回答相关问题。特别是在需要推理的场景中,表现显著优于前代模型。
研究人员展示了模型在医疗影像分析、自动驾驶和内容审核等领域的应用潜力。模型已开放API接口供开发者测试使用,正式版预计明年发布。