AI 看视频，输出笔记哪家强？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

各位大佬们，最近想学习下，但不想一个个花费大量时间看视频，哪家的 AI 能自己看视频，输出视频的文字笔记的。

视频

笔记

26 条回复 • 2026-02-09 19:51:53 +08:00

coolxll

1 天前

gemini 和 youtube 整合的好

gotOwt

1 天前

同求一个能看 b 站的

huaweii

1 天前 via Android

我也有类似的需求。不过发现大部分都是语音转文字，一旦你的视频画面有大量语音没法覆盖的信息，基本上效果很差。

定制的多模态 agent 服务应该可以把画面和文字脚本结合的更好，等一个回复。

rcj6056

1 天前

听你这个需求是
我在 youtube 上看视频
然后视频结束了 ai 帮我整理输出笔记吗？

junwind

1 天前

@rcj6056 差不多的意思，给个视频链接，或者视频文件，能帮我总结出图文笔记这种。其实就是代替自己看视频。毕竟看视频的效率太低了。

rcj6056

1 天前

@junwind 挺有意思这种目前哪个实现的效果好？

junwind

1 天前

@rcj6056 我也不知道哪家大模型能做到很好的实现出来。这种应该是考验多模态的能力了。

junwind

1 天前

也就是大模型需要同时满足：能理解视频中的语音，图片，图片中的内容，以及把整体总结下来。感觉也不是很容易。

furlxy

23 小时 53 分钟前

@huaweii 光想想就知道要多费 token...
几个关键帧就要几次 vlm ，我的天

liudewa

23 小时 46 分钟前

花钱用了几个 B 站的感觉效果一般原理都是先提取音频再音频转字幕,再把字幕扔给大模型总结

liudewa

23 小时 41 分钟前

oppo 手机的小布支持对 b 站视频总结 https://www.bilibili.com/video/BV1Q7WvzcE6z/

xigua11

23 小时 27 分钟前

试试用百度网盘看视频

zazzaz

22 小时 59 分钟前

目前的 token 成本控制下，免费方案基本是提取 CC 字幕来获取信息，而一些付费但价格较低的方案，也主要是把语音转成文字、再交给模型理解。
这其实并不是很多人想象中那种“让模型完整观看视频画面并讲解出来”的方式。
所以，如果视频的内容非常依赖画面信息——比如操作演示、图表分析、动态视觉内容等，这类依赖字幕或语音的方案，效果可能就会比较有限。