V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
junwind
V2EX  ›  问与答

AI 看视频,输出笔记哪家强?

  •  
  •   junwind · 1 天前 · 1300 次点击

    各位大佬们,最近想学习下,但不想一个个花费大量时间看视频,哪家的 AI 能自己看视频,输出视频的文字笔记的。

    26 条回复    2026-02-09 19:51:53 +08:00
    coolxll
        1
    coolxll  
       1 天前
    gemini 和 youtube 整合的好
    gotOwt
        2
    gotOwt  
       1 天前
    同求一个能看 b 站的
    huaweii
        3
    huaweii  
       1 天前 via Android
    我也有类似的需求。不过发现大部分都是语音转文字,一旦你的视频画面有大量语音没法覆盖的信息,基本上效果很差。

    定制的多模态 agent 服务应该可以把画面和文字脚本结合的更好,等一个回复。
    rcj6056
        4
    rcj6056  
       1 天前
    听你这个需求是
    我在 youtube 上看视频
    然后视频结束了 ai 帮我整理 输出笔记吗?
    junwind
        5
    junwind  
    OP
       1 天前
    @rcj6056 差不多的意思,给个视频链接,或者视频文件,能帮我总结出图文笔记这种。其实就是代替自己看视频。毕竟看视频的效率太低了。
    rcj6056
        6
    rcj6056  
       1 天前
    @junwind 挺有意思 这种目前哪个实现的效果好?
    junwind
        7
    junwind  
    OP
       1 天前
    @rcj6056 我也不知道哪家大模型能做到很好的实现出来。这种应该是考验多模态的能力了。
    junwind
        8
    junwind  
    OP
       1 天前
    也就是大模型需要同时满足:能理解视频中的语音,图片,图片中的内容,以及把整体总结下来。 感觉也不是很容易。
    furlxy
        9
    furlxy  
       23 小时 53 分钟前
    @huaweii 光想想就知道要多费 token...
    几个关键帧就要几次 vlm ,我的天
    liudewa
        10
    liudewa  
       23 小时 46 分钟前
    花钱用了几个 B 站的 感觉效果一般 原理都是先提取音频再音频转字幕,再把字幕扔给大模型总结
    liudewa
        11
    liudewa  
       23 小时 41 分钟前
    oppo 手机的小布 支持对 b 站视频总结 https://www.bilibili.com/video/BV1Q7WvzcE6z/
    xigua11
        12
    xigua11  
       23 小时 27 分钟前
    试试用百度网盘看视频
    zazzaz
        13
    zazzaz  
       22 小时 59 分钟前
    目前的 token 成本控制下,免费方案基本是提取 CC 字幕来获取信息,而一些付费但价格较低的方案,也主要是把语音转成文字、再交给模型理解。
    这其实并不是很多人想象中那种“让模型完整观看视频画面并讲解出来”的方式。
    所以,如果视频的内容非常依赖画面信息——比如操作演示、图表分析、动态视觉内容等,这类依赖字幕或语音的方案,效果可能就会比较有限。
    Sirius8
        14
    Sirius8  
       21 小时 4 分钟前
    我找过,目前技术还不太行,市面上的都是基于字幕生成笔记,跟 3 楼说的一样,如果视频缺失部分字幕效果就大打折扣
    junwind
        15
    junwind  
    OP
       20 小时 51 分钟前
    @liudewa
    @xigua11 好的,我试试。
    pandatools
        16
    pandatools  
       20 小时 25 分钟前
    我用的音频转文字,新闻类和历史类的效果其实还不错,deepseek 模型基本可用,性价比挺高的
    louisng
        17
    louisng  
       19 小时 9 分钟前
    自己 vibe 了一个,不用看视频,直接用字幕来生成思维导图
    https://github.com/louisdwu/auto_mindmap
    likooo125802023
        18
    likooo125802023  
       18 小时 53 分钟前
    @junwind 先把语音转文字做好就行,这个总简单把
    dreamwy1990
        19
    dreamwy1990  
       17 小时 49 分钟前
    notebook
    snowsirjjj
        20
    snowsirjjj  
       17 小时 18 分钟前
    报错了
    snowsirjjj
        21
    snowsirjjj  
       17 小时 17 分钟前
    @louisng 报错了
    erek
        22
    erek  
       16 小时 11 分钟前
    get 笔记挺方便
    hahastudio
        23
    hahastudio  
       16 小时 9 分钟前
    NotebookLLM
    huaweii
        24
    huaweii  
       15 小时 40 分钟前 via Android
    @furlxy 不一定需要每一帧视频都做图像识别。

    语意分析视频文字稿,agent 分析出哪些文字稿的哪些上下文依赖于当前时间的画面,就可以按需提取关键帧,少量的截图画面分析就能比纯文字稿多出一大部分信息了。不过即使是这样,多花的 token 也不少,不过如果收费合理的话我可以接受
    hahastudio
        25
    hahastudio  
       15 小时 17 分钟前
    话说现在 YouTube 视频自带 Ask 了
    tyrad
        26
    tyrad  
       15 小时 12 分钟前 via iPhone
    notebookllm 要啥有啥 还能生成播客通勤听
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   4607 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 03:03 · PVG 11:03 · LAX 19:03 · JFK 22:03
    ♥ Do have faith in what you're doing.