各位大佬们,最近想学习下,但不想一个个花费大量时间看视频,哪家的 AI 能自己看视频,输出视频的文字笔记的。
1
coolxll 1 天前
gemini 和 youtube 整合的好
|
2
gotOwt 1 天前
同求一个能看 b 站的
|
3
huaweii 1 天前 via Android
我也有类似的需求。不过发现大部分都是语音转文字,一旦你的视频画面有大量语音没法覆盖的信息,基本上效果很差。
定制的多模态 agent 服务应该可以把画面和文字脚本结合的更好,等一个回复。 |
4
rcj6056 1 天前
听你这个需求是
我在 youtube 上看视频 然后视频结束了 ai 帮我整理 输出笔记吗? |
8
junwind OP 也就是大模型需要同时满足:能理解视频中的语音,图片,图片中的内容,以及把整体总结下来。 感觉也不是很容易。
|
10
liudewa 23 小时 46 分钟前
花钱用了几个 B 站的 感觉效果一般 原理都是先提取音频再音频转字幕,再把字幕扔给大模型总结
|
11
liudewa 23 小时 41 分钟前
oppo 手机的小布 支持对 b 站视频总结 https://www.bilibili.com/video/BV1Q7WvzcE6z/
|
12
xigua11 23 小时 27 分钟前
试试用百度网盘看视频
|
13
zazzaz 22 小时 59 分钟前
目前的 token 成本控制下,免费方案基本是提取 CC 字幕来获取信息,而一些付费但价格较低的方案,也主要是把语音转成文字、再交给模型理解。
这其实并不是很多人想象中那种“让模型完整观看视频画面并讲解出来”的方式。 所以,如果视频的内容非常依赖画面信息——比如操作演示、图表分析、动态视觉内容等,这类依赖字幕或语音的方案,效果可能就会比较有限。 |
14
Sirius8 21 小时 4 分钟前
我找过,目前技术还不太行,市面上的都是基于字幕生成笔记,跟 3 楼说的一样,如果视频缺失部分字幕效果就大打折扣
|
16
pandatools 20 小时 25 分钟前
我用的音频转文字,新闻类和历史类的效果其实还不错,deepseek 模型基本可用,性价比挺高的
|
17
louisng 19 小时 9 分钟前
自己 vibe 了一个,不用看视频,直接用字幕来生成思维导图
https://github.com/louisdwu/auto_mindmap |
18
likooo125802023 18 小时 53 分钟前
@junwind 先把语音转文字做好就行,这个总简单把
|
19
dreamwy1990 17 小时 49 分钟前
notebook
|
20
snowsirjjj 17 小时 18 分钟前
报错了
|
21
snowsirjjj 17 小时 17 分钟前
@louisng 报错了
|
22
erek 16 小时 11 分钟前
get 笔记挺方便
|
23
hahastudio 16 小时 9 分钟前
NotebookLLM
|
24
huaweii 15 小时 40 分钟前 via Android
@furlxy 不一定需要每一帧视频都做图像识别。
语意分析视频文字稿,agent 分析出哪些文字稿的哪些上下文依赖于当前时间的画面,就可以按需提取关键帧,少量的截图画面分析就能比纯文字稿多出一大部分信息了。不过即使是这样,多花的 token 也不少,不过如果收费合理的话我可以接受 |
25
hahastudio 15 小时 17 分钟前
话说现在 YouTube 视频自带 Ask 了
|
26
tyrad 15 小时 12 分钟前 via iPhone
notebookllm 要啥有啥 还能生成播客通勤听
|