有没有现成的工具能在把数据交给 AI/Agent 之前先做个简单脱敏

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

问题

有没有现成的工具能在把数据交给 AI/Agent 之前先做个简单脱敏？脱敏后回答会不会变差？

几个开源项目

大概问了 copilot 和看了一下，但是因为不熟悉这个方向不确定对不对，以及哪个更好。

OpenPipe/pii-redaction
- https://github.com/OpenPipe/pii-redaction
- 主打在请求前或日志里做 PII 检测与替换（如邮箱、电话等常见敏感字段）
PromptMask
- https://github.com/cxumol/promptmask
- 把提示词里的敏感字段先替换成占位符（ mask ），等模型返回后再按映射还原；思路是尽量保留上下文结构，同时降低泄露风险。
aifw
- https://github.com/funstory-ai/aifw
- 看起来更像是围绕 LLM 调用链的中间层/策略层，把拦截、过滤、审计这类能力插到入口。

脱敏

数据

8 replies • 2026-06-08 10:57:57 +08:00

gavintang

May 27

本地小模型做脱敏+正则替换+人工审查

Livid

MOD

PRO

May 27

https://openai.com/zh-Hans-CN/index/introducing-openai-privacy-filter/

ETiV

May 27 via iPhone

LS +1
这个模型在 huggingface 上也有 mlx-community 出的支持的 Apple Silicon 版本。

需要注意的是依赖的 mlx-embeddings 0.1.1 版本还没正式发布 https://pypi.org/project/mlx-embeddings/ ，pip 要从 GitHub 安装（而不是 README 里那样装）

est

May 27

我以前也和你一样担心，后来想明白了，你这些数据对 AI 不值钱

值钱的是你的行为和话术。

v2exgo

May 27

@est

关键是黑产老哥偷私钥跟密码，别的不值钱，就你那代码碎片，丢给大模型公司人家都怕脏了语料库，当然还有行为跟偏好，这个是值钱的

lujiaosama

May 27

靠 AI 脱敏这一步就有问题了吧，都已经上传上去了。一般来说公网的密钥密码放在代码里硬编码，或者弄个配置中心从远程读取。MOCK 数据手动清洗过敏？

est

May 27

@v2exgo 你这个提醒得好。不过如果你代码里写死私钥密码那简直太可怕了。

xuelang

3 days ago

如果你的输入源里有 PDF ，可以看下这个思路：先在本地浏览器里把 PDF 里的 PII 扫出来，人工确认后再打码/导出，再把脱敏后的内容交给 AI 。

我这边维护了一个在线工具，但处理逻辑是跑在浏览器本地的： https://pdf.selfboot.cn/zh/tools/pdf-smart-redact

它用的是 OpenAI 开源的 privacy-filter 模型，第一次会下载约 900MB 模型到浏览器缓存，之后在本地识别人名、邮箱、电话、地址、账号、密钥等信息； PDF 本身不上传服务器。比较适合“合同/账单/简历/报告 PDF 先脱敏再给 AI 看”的场景。

写了个使用说明： https://pdf.selfboot.cn/zh/blog/ai-pdf-redaction-tutorial

局限也有：目前更适合有文本层的 PDF ，纯扫描件要先 OCR ；而且高风险材料还是建议扫描结果人工过一遍。