哪个 rag 系统比较靠谱？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 628 天前的主题，其中的信息可能已经有所发展或是发生改变。

之前在 DIFY 上测试了体检报告的效果，基本是个笑话。

于是降低要求
找了份科幻小说 txt 文件：猎户座防线

上传到 DIFY 的知识库,配置都选默认
模型有：chatgpt3.5 、月之暗面 v1 、glm4 、文心一言刚免费的 speed 。

效果只举两个例子
小说中反复提到“大副迪尔”，还有这么一段：

    “我来自丹那芭⑤”她说，“你知道那儿吗？”
    “不。”
    “它距离地球 1600 光年……

问“丹那芭距离地球多少光年？”，基本都能答对，这点我有点小惊讶。
问“迪尔是什么职务”，居然都回答不知道或者说文中没提。

不甘心，打开 kimi ，上传文件，问“迪尔是什么职务”，kimi 马上答上了

第 1 条附言 · 2024 年 5 月 23 日

dify 上换上 https://github.com/netease-youdao/BCEmbedding 的 embedding 和 rerank 模型，效果杠杠的

第 2 条附言 · 2024 年 6 月 20 日

已经投奔 llamaindex

第 3 条附言 · 2024 年 10 月 27 日

已经全自己撸了

kimi

dify

效果

14 条回复 • 2024-10-27 00:04:40 +08:00

Solix

2024 年 5 月 22 日 via iPhone

fastgpt 效果好

nnqijiu

2024 年 5 月 22 日

WPS AI 的 rag 不错，不过好像收费了

xenoblade

2024 年 5 月 22 日

我认为这个例子其实应该归类为“RAG VS 长上下文”，恰恰说明了长上下文在有限信息的 QA 中完胜 RAG 。
目前 langchain 系的通用 RAG 系统上限就在那里了，要想达到更高的精确度需要对不同领域进行微调，例如例子中读书场景的 prompt 优化、chunk 分割的人工干预。

wencan

2024 年 5 月 23 日

@xenoblade rag 也属于上下文
dify 上换上 https://github.com/netease-youdao/BCEmbedding 的 embedding 和 rerank 模型，效果杠杠的

butterls

2024 年 5 月 27 日 via Android

主要是只有切片会丢失上下文，RAG 里要存的实际是类似知识图谱的上下文数据，比如你要做代码仓分析，rag 就能查到函数块，上下文引用，宏定义啥的都米有，那分析结果就跟个二傻子一样

Reminders

2024 年 6 月 19 日

@wencan #4 dify 上配置 bce 的 embedding 和 rerank ，这两个模型需要自己部署吧？

wencan

2024 年 6 月 20 日

@codingbody 是的。后者可以用 https://github.com/xorbitsai/inference

fakecoder

2024 年 6 月 25 日

op 用 llamaindex 感觉咋样

wencan

2024 年 6 月 25 日

@fakecoder 1. 代码质量很差 2. 还没到 1.0

fakecoder

2024 年 6 月 25 日

@wencan #9 后来为啥不用 dify 了，现在还在用 llamaindex 吗？

wencan

2024 年 6 月 25 日

@fakecoder dify 太弱了，适合给不会写代码的人做玩具
llamaindex 虽然问题多多，但相比之下，还是能解决问题

fakecoder

2024 年 6 月 25 日

@wencan #11 好的，感谢解答

ccxuy

2024 年 10 月 26 日

@wencan 有没有参考材料？我们也想做个内部知识库，简单搞了下 dify 发现召回率太差了

wencan

2024 年 10 月 27 日

@ccxuy 建议先照着 llamaindex ，自己写着试试。如果还是不能满足需求，跟我一样，自己撸吧