V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Egfly
V2EX  ›  程序员

求助,图像内容理解方案推荐

  •  
  •   Egfly · 144 天前 · 1371 次点击
    这是一个创建于 144 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现在手上有一个项目,需要用几个简单的词描述一下图片里的内容、拍摄距离(远、中、近)、光线的亮度(低、中、高)。由于图片数量比较大,人工去处理比较慢。

    目前考虑的方案有以下三个:

    1 、使用 chatgpt 4, 实验之后感觉效果不错。缺点是速度比较慢,而且 chatgpt4 有使用频率限制,一天处理不了多少图片。不知道有没有其他的平台有提供类似的服务,最好是可以用 api 的方式调用

    2 、自己租一台服务器,去跑模型,目前看了一下 minigpt4, 效果未知。有没有其他的模型推荐

    3 、人工一张一张处理

    大佬们,有没有其他什么好的方案推荐?
    第 1 条附言  ·  144 天前

    描述示例

    图片

    描述: restaurant menu card

    图片

    描述:cheesecake store

    图片

    描述:Advertisement of limited offer in McDonald's

    10 条回复    2024-02-21 16:45:04 +08:00
    czfy
        1
    czfy  
       144 天前   ❤️ 1
    “需要用几个简单的词描述一下图片里的内容”

    举个例子,最后要描述成什么样
    h272377502
        2
    h272377502  
       144 天前   ❤️ 1
    gpt4 不是提供了 api 了吗,minigpt4 和 gpt4 差距很大
    Egfly
        3
    Egfly  
    OP
       144 天前
    @czfy 老哥,我 append 了
    Egfly
        4
    Egfly  
    OP
       144 天前
    @h272377502 gpt4 api 有调用频率限制吗
    dobelee
        5
    dobelee  
       144 天前   ❤️ 1
    看你的例子可不“简单”。图二需要通过 cake 等字眼结合分析才能得到是餐厅,图三需要识别麦当劳的 logo 才能得出是麦当劳的广告。一般给照片内容识别打标签的 AI 没训练到这程度吧,还是得上 chatgpt 或者 gemini 。
    Egfly
        6
    Egfly  
    OP
       144 天前
    @dobelee 麦当劳和餐厅这个不是必要的,可以识别出是广告牌和门店招牌就行
    jZEdn7k4
        7
    jZEdn7k4  
       144 天前 via iPhone   ❤️ 2
    你这个任务叫 image captioning ,github 用这个关键词搜一下,不少开源代码和模型的,当然质量比不上 gpt 也不会太差
    Puteulanus
        8
    Puteulanus  
       144 天前   ❤️ 1
    我之前用过 IBM Watson Visual Recognition ,不知道现在还活着没
    国内的用过腾讯的万象优图 https://cloud.tencent.com/document/product/460/39082
    wangkai0956
        9
    wangkai0956  
       144 天前 via Android   ❤️ 1
    人工,增加工作机会,造福社会
    vivisidea
        10
    vivisidea  
       144 天前   ❤️ 1
    https://huggingface.co/models?other=image-captioning

    调用 gpt 的 api 或者找找开源的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   864 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 20:30 · PVG 04:30 · LAX 13:30 · JFK 16:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.