V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 567 天前的主题，其中的信息可能已经有所发展或是发生改变。

五大任务，带你了解 Claude3 的视觉能力有多强

2024 年 3 月 4 日，Anthropic 震撼发布了全新的多模态模型——Claude 3 。据该公司介绍，无论是语言处理还是视觉识别任务，Claude 3 都展现出了超越同类竞争产品（例如配备视觉功能的 GPT-4 ）的卓越性能。

我也是第一时间上手体验了一下, 测评了发现视觉 API 确实非常惊艳，这个时候我看到国外的 Roboflow 团队对 Anthropic 宣布的功能最强大的 API——Claude 3 Opus 进行了深入测试。并且对比其他多模态模型（比如配备视觉功能的 GPT-4 、Qwen-VL 和 CogVLM ）的图片进行了一系列实验，旨在深入探索 Anthropic 新模型的性能表现。

所以我在下面把测试效果列出来，供大家参考，本文中，我们将分享使用 Claude 3 Opus 视觉 API 进行的实验结果。

Claude 3 是什么？

Claude 3 是 Anthropic 开发的一系列先进的语言和多模态模型。2024 年 3 月 4 日推出的 Claude 3 系列包括 Haiku 、Sonnet 和 Opus 模型，你可以使用这些模型回答文本问题，并可将图片纳入问题的上下文中。目前，Sonnet 和 Opus 已对外开放。

根据公告，Opus 模型在多项基准测试中展现了卓越性能，尤其是在数学和推理、文档视觉问答、科学图解以及图表问答等方面，相比 GPT-4 with Vision 有显著优势。值得一提的是，在数学测试中，Claude 3 采用了链式思维提示技术，而这一策略并未在评估其他模型时提及。

本次评估采用了 claude-3-opus-20240229 版本的 API 。

对 Claude 3 Opus 在视觉任务上的评估

测试 1：光学字符识别（ OCR ）

国外团队开展的第一个测试是光学字符识别（ OCR ），这是一项基础而广泛应用的计算机视觉技术。他们使用了一张轮胎的照片作为测试材料，并向模型提出了这样的要求：“请读取序列号，并只返回序列号本身，不包括任何其他文字。”：

模型给出了如下的回答：

3702692432

Claude 3 Opus 成功地识别出了图片中的文字，完成了这一任务。这证明了其在文字识别方面的准确性，与国外团队此前评估的其他模型——如 CogVLM 、配备视觉功能的 GPT-4 、Qwen-VL-Plus （通义千问）等——的表现持平。

测试 2：文档 OCR

接下来，国外团队决定评估 Claude 3 Opus 在文档 OCR 任务上的能力。他们提供了一张截图，来源于 Roboflow 团队成员撰写的博客文章。这篇博客文章讨论了他们最喜欢的 Taylor Swift 歌曲。

提供了以下图片：

当我们请求模型“逐字读取图片中的文本并返回”时，模型如是回答：

很抱歉，我无法复制图片中的全部文本，因为这可能构成版权侵犯。但我很乐意总结关键点：作者通过聆听 Swift 的《 Midnights 》专辑，重新审视了她以往的作品，这促使他们更加欣赏 Swift 在不同时期的歌曲创作。

模型拒绝执行任务，说明复制图片中的文本可能会侵犯版权。尽管我们拥有内容的版权，但模型的这一判断依然值得关注。

在测试另一篇未提及名人的文档时，我们注意到……

测试 3：文档理解

我们继续评估 Claude 3 Opus 在文档理解任务上的表现。我们向 Claude 3 Opus 提供了以下收据图片：

并询问：“我支付了多少税？”模型给出的答案是：

根据收据，你共支付了 5.00 美元的税，包括 1.68 美元的附加费和 0.00 美元的“额外小费税”。

模型未能正确回答问题。实际上，根据收据，支付的税额为 2.30 美元，而不是 5.00 美元。

随后，我们询问了一份菜单的数字文档，“熏牛肉比萨的价格是多少？”：

模型正确回答道：

菜单上的熏牛肉比萨售价为 27 美元。

Claude 3 Opus 成功地解答了这一问题。

测试 4：视觉问题解答

解答图像相关问题是评估多模态模型性能的关键。事实上，多模态模型学到的上下文在解答图像问题时可能极其有价值。我们向 Claude 3 Opus 提供了下图，并询问：“我有多少钱？”：

模型回答说：

根据图中的四枚硬币，你有 61 分（即 0.61 波兰兹罗提）。这些硬币包括：1 枚 1 格罗茨（ 0.01 PLN ）、1 枚 20 格罗茨（ 0.20 PLN ）以及 2 枚各 20 格罗茨（合计 0.40 PLN ）。

然而，Claude 3 Opus 并未正确解答此问题。其他模型如 CogVLM 、Gemini 和 Qwen-VL-Plus 在此任务上表现良好。

随后，我们询问模型一个关于电影场景的问题，“这是哪部电影的一个场景？”：

模型正确识别并回答：

这是经典圣诞电影《小鬼当家》的一个场景。画面展示了 McCallister 家庭的客厅，装饰豪华，有一棵大圣诞树和挂满礼物的壁炉。影片的主角，由 Macaulay Culkin 扮演的年轻男孩 Kevin ，正坐在节日装饰中。

Claude 3 Opus 成功地回答了这一问题。我们测试的大多数模型，包括 GPT-4 with Vision 和 Qwen-VL-Plus ，也都能准确回答此问题。

测试 5：物体检测

最后，我们在对多模态语言模型来说颇具挑战性的任务上测试了 Claude 3 Opus：物体检测。

我们向 Claude 3 Opus API 提供了一张人与狗的照片，并要求：“在图像上检测到狗，并提供 x_min 、y_min 、x_max 和 y_max 坐标。”

API 返回的是：

图片显示一只比格犬坐在建筑入口附近的砖砌庭院上。入口处有一个带有灯泡的拱形砖顶，营造出温暖而邀请的氛围。通过拱门可以看到外面停有一辆车。围绕狗的边界框坐标大约是：x_min: 550 、y_min: 470 、x_max: 1020 、y_max: 1080 ，基于提供的 1440x1080 像素的全分辨率图片。

尽管我们多次进行测试，但模型未能准确地定位到狗的位置。

我们发现，大多数多模态模型在此任务上都难以给出准确答案。仅有 CogVLM 和 Qwen-Vl-Plus 在定位狗的位置上表现出了准确性。

结论

Claude 3 提供了 Anthropic 开发的一系列创新多模态模型。你可以向 Claude 3 提出文本问题，并以一张或多张图片作为上下文。通过本指南，我们详细介绍了 Roboflow 团队对 Claude 3 进行的一系列测试，旨在对模型进行定性分析。

我们发现，在我们有限的测试中，Claude 3 Opus 在某些任务上表现良好，特别是在视觉问题解答方面。模型在我们的文档问答测试中的一个提示上取得了成功，并且能够作为 OCR 测试的一部分成功读取轮胎上的文本。

然而，模型在其他任务上则表现不佳。Claude 3 ，如同大多数多模态模型一样，在物体检测测试中无法准确定位物体。模型在一个视觉问题解答提示上给出了正确的答案（图片中的电影），而在另一个（计算货币）上则未能成功。

与大多数模型不同的是，Claude 3 在遇到提及名人姓名的文本时，出于版权考虑，拒绝执行 OCR 任务，即使内容的作者拥有版权。

如何使用

目前 Opus 和 Sonnet 都可以在官网使用了！Home \ Anthropic

但是 Opus ，和 GPT plus 一样，收费是 20 美元/月

参考文档：

国外最新模型 Claude3 震撼发布！附体验链接 | GPT 航海 (gpthanghai.com)

Claude3 视觉 API 评测指南

目前尚无回复

claude3 视觉能力测试