我想实现一个监听电脑软件使用活动的工具,实时地获取屏幕上的信息。比如浏览器上当前的网页地址栏、浏览的文章、视频相关信息,其他软件诸如 vscode 当前的项目地址等等
这些需要一个通用的手段从画面中匹配、提取
文本提取可以用 ocr ,除此之外,我完全不懂 ai ,问问大家的看法🤔
1
SWALLOWW 281 天前
详细讲讲需求是什么
|
3
redbin 280 天前
|
5
pkoukk 280 天前
你说的这些东西,都没必要从屏幕获取。切实需求是什么?你从屏幕上获取这些信息是拿来干嘛的
|
6
redbin 280 天前
|
7
hanaTsuk1 OP @pkoukk
监听电脑软件使用活动的工具,我写的清清楚楚,可能你不理解这能干嘛。有种时间追踪软件(比如什么番茄时钟),用来记录一天内做了些什么,通常是手动去记录,我现在在想一个实现自动记录电脑上的行为 |
11
maymay5 280 天前
不现实,简而言之,你的目的是监听软件活动的活动详情,而且还要通用,如果从软件开发商角度你做这个属于窃取隐私的外挂,漏洞肯定秒补,另辟蹊径,你在监听到软件启动后开始录屏,把录屏喂给 AI 去分析,你至少要有另外一台设备专门用来 AI 分析,而且你的被监听电脑还要能做到边录屏边流畅使用,截图是不能满足需求的,因为你要的信息不可能都在同一个页面,你想要得知某些具体信息就只能在打开软件或打开网页后就开始录屏,浪费且低效产出还很少
|
12
maymay5 280 天前
你倒是可以做一个悬浮窗,简化手动记录,你需要记录时通过悬浮窗截屏,接下来把图片交给 AI 去提取信息
|
14
cskeleton 273 天前
类似于 rewind.ai 吧,顺便我还搜到了这篇文章: https://sspai.com/prime/story/rewind-diy
|