V2EX › ccsert 的所有回复 › 第 1 页 / 共 1 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

2 天前

回复了 jasper283 创建的主题 › 分享创造 › 分享一个我做的小网站： Emoji Directory 🎨

@shalakele #6 有的
https://www.emojiall.com/zh-hans/platform-microsoftteams
不过叫 microsoftteams

17 天前

回复了 hellodigua 创建的主题 › 分享创造 › 工作性价比鉴定计划 — 自己写的新的工作性价比计算器小工具，欢迎体验

可以考虑添加一些花销的内容，例如当前工作环境下房租成本相关的固定花销

17 天前

回复了 Julaoshi 创建的主题 › Cursor › Cusor 对老用户也按新模式收费了

@midasplus 之前 30 刀好像都有 600 次，然后一次扣款失败 30 刀订阅失效，切换到了 100 刀套餐，最近正在犹豫换其它了，有推荐的吗？

95 天前

回复了 Need4more 创建的主题 › 程序员 › 字节开源了其智能体开发平台 coze

开源版 Coze Studio 的功能限制主要体现在：
核心限制领域：
商业化功能：付费、变现、收益分析
企业级功能：SSO 、高级权限、审核系统
第三方集成：微信、抖音等平台深度集成
高级开发工具：某些调试、分析工具
代码执行环境：安全沙箱和资源限制
文件处理：高级文档解析和 OCR
浏览器兼容性：对特定浏览器版本的依赖
数据分析：用户行为分析、商业智能
仍然可用的核心功能：
✅ AI Agent 创建和配置
✅ 对话和聊天功能
✅ 工作流设计
✅ 基础文件上传和处理
✅ 基本的发布功能
✅ 知识库管理
✅ 插件开发

把代码拉下来跑了跑，让 ai 分析了一些哪些是暂不支持的，感觉已经很不错了，而且原生 apache2.0 协议，甚至底层开发框架后端的 go enio 和前端的 flowgram 也都是开源的

https://i.imgur.com/PCiB0Bl.jpeg

95 天前

回复了 kalman03 创建的主题 › 问与答 › Coze 开源对智能体构建的影响有多大？

体验还挺不错，而且开发环境初始化及其友好，提供了中间件的 compose ，也提供了初始化的 compose ，并且提供了 make 脚本，直接 make serve 自动帮你配置开发环境，并且自动安装依赖。

并且体验了一下功能也算齐全，知识库，数据库和工作流，外部插件（不支持云函数基于 openapi ）都具备。

支持应用和智能体

没有 saas 版本的模型管理，模型管理基于配置文件来配置，。

代码节点和 saas 版本有差异，自由 python 没有 js （可能是我环境问题？）。

工作流节点缺少会话相关节点。

对应的后端 eino 框架和前端 FlowGram 也都开源了
https://i.imgur.com/gnMmRhh.jpeg
[上传图片中...]

dify 商用是不能修改 logo 的，coze 是原生的 apache2.0 协议可以改 logo 。

还有一个 cozeloop （目前还没尝试）。

https://i.imgur.com/0fX6jsJ.jpeg
https://i.imgur.com/IY9T0wV.jpeg
https://i.imgur.com/FO9uraS.jpeg
https://i.imgur.com/fQAgF75.jpeg

330 天前

回复了 XinPingQiHe 创建的主题 › 程序员 › 有经验的 v 友看看，这个 AI 知识库私有化部署的方案行吗，怎么改进

@5gmobiler 个人认为 asr 声纹识别的准确度还是不太够，没有做过这类，而且声纹注册这个步骤太繁琐复杂了，样本也很难管理和采集，`在录制的时候确认说话人` 这句话指的是可以在程序侧解决问题，例如有专门录制的程序可以大家在通过视频会议时就能明确是谁发出的声音

364 天前

回复了 slight 创建的主题 › 奇思妙想 › 有什么工具可以链接和整合各种知识库，并结合 AI 技术提高效率？

@slight #5 可以调用 dify 知识库接口然后做一些触发器实现新增知识的关联

364 天前

回复了 irisdev 创建的主题 › Java › 请教后台接口如何根据前台的筛选条件动态构造查询 sql

可以看看 bean-searcher 这个框架，专门做复杂查询的 https://gitee.com/troyzhxu/bean-searcher

2024-10-29 16:31:41 +08:00

回复了 XinPingQiHe 创建的主题 › 程序员 › 有经验的 v 友看看，这个 AI 知识库私有化部署的方案行吗，怎么改进

@ccsert 这里虽然是行业规范文档，但是实际 ai 处理时候并不一定认为是规范的，在 embedding 过程中可能还是会出现拟合的情况，所以有时候清洗后二次提纯是很有必要的

2024-10-29 16:20:05 +08:00

回复了 XinPingQiHe 创建的主题 › 程序员 › 有经验的 v 友看看，这个 AI 知识库私有化部署的方案行吗，怎么改进

1. 行业规范文档处理
预处理脚本: 需要对文档进行预处理，包括去除无关信息、格式化文本、提取关键内容等。可以使用 Python 脚本结合正则表达式、BeautifulSoup 等工具进行处理。

文档清洗: 文档中可能包含图片、表格等复杂内容，这些内容可以通过 OCR 提取文本，或者通过专门的文档解析工具（如 Apache Tika ）进行处理，现在有一些多模态的大模型对图片也有一定的理解，可以考虑尝试。

AI 二次提纯: 使用一些开源大语言模型将对提取的文本进行进一步处理，去除噪声、提取关键信息，这里实际提示词工程就已经可以做的比较优秀了。

知识库构建: 目前实际没有特别好的，但是因为上述的操作对文档已经做了清洗和提纯，到这一步实际使用一些 embedding 模型和开源向量库即可了，后续做知识库问答的时候可以使用一些简单的 rag 平台，例如 dify 这些以外部 api 的方式对接，这里个人觉得 dify 的知识库效果实际比较一般，当然也可以将处理好的文本内容通过 dify 的知识库 api 调用生成也不错。

2. 会议录音处理
说话人识别: 可以使用开源工具如 Kaldi 、pyannote.audio 等进行说话人识别。如果能在源头解决实际会更好一些，比如在会议录制的时候就确定说话人。

会议纪要生成: 这一步实际比较简单结合现有开源大模型提示词工程生成会议纪要。如果想做的更细致一些，可以在处理音频或视频数据的时候打时间轴标签。

时间轴跳转: 可以在生成的会议纪要中加入时间戳，方便用户快速跳转到特定时间点的内容。

3. 私有化部署
语言大模型选择: 目前开源的大模型效果已经很不错了，如果资金充裕，deepseek 私有化部署一整套包括预训练环境好像就是 50w 左右
整个过程实际工程量非常庞大，涉及的领域也比较庞杂，就算上述的基本要素已经具备，也还涉及大量的开发，文本解析，数据处理，提纯，甚至多智能体协同，函数调用都需要整合起来使用才能达到目标需求