$V2EX
Solana
Give SOL to Copy Address
使用 SOL 向 icew23 打赏,数额会 100% 进入 icew23 的钱包。
 icew23's recent timeline updates
icew23

icew23

V2EX member #774312, joined on 2025-11-13 12:59:21 +08:00
icew23's recent replies
我刚好也在做类似事情(不过是知识库搭建),最近也在反复想这个问题。

我现在的理解是,向量库本身可能不是最终答案,它更像是最后“找到原文证据”的一个环节。真正难的是前置处理:怎么把原始内容整理成后面能稳定召回、能解释、能复用的结构。

我的思路大概是:

1. 先用 AI 对原文做一轮标签化;
2. 再提取一部分结构化信息;
3. 对于一些“不是很像人话”的内容,或者表达很绕、噪声很多的内容,先做归纳和清洗;
4. 但原文不丢,结构化信息只是为了帮助检索和过滤;
5. 真正回答用户问题时,还是根据标签 + 结构化信息 + 向量/关键词召回,最终找到原文片段,再把原文喂给 AI 一起分析。

也就是说,前面做标签、摘要、结构化,并不是为了替代原文,而是为了最后能更稳地找到原文。因为很多时候用户问的问题不是刚好命中某一句,而是命中一个场景、一组枚举、一个上下文范围。如果只靠 embedding topK ,确实很容易只捞到相似的一小段,然后漏掉后面连续的条目或者条件说明。


目前我的想法是,AI 前处理更像是给原始资料建立“索引层”和“导航层”,而不是把原文压缩成一个最终答案库。原文仍然是最终证据来源。
zed ?
Apr 29
Replied to a topic by ysyah2019 分享创造 开源一个 ai 生成壁纸的项目
确实不错,但是画质有点糊
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4171 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 00:07 · PVG 08:07 · LAX 17:07 · JFK 20:07
♥ Do have faith in what you're doing.