• 请不要在回答技术问题时复制粘贴 AI 生成的内容
hansam47
V2EX  ›  程序员

有没有现成的工具能在把数据交给 AI/Agent 之前先做个简单脱敏

  •  
  •   hansam47 · May 27 · 1717 views

    问题

    有没有现成的工具能在把数据交给 AI/Agent 之前先做个简单脱敏?脱敏后回答会不会变差?

    几个开源项目

    大概问了 copilot 和看了一下,但是因为不熟悉这个方向不确定对不对,以及哪个更好。

    8 replies    2026-06-08 10:57:57 +08:00
    gavintang
        1
    gavintang  
       May 27
    本地小模型做脱敏+正则替换+人工审查
    ETiV
        3
    ETiV  
       May 27 via iPhone
    LS +1
    这个模型在 huggingface 上也有 mlx-community 出的支持的 Apple Silicon 版本。

    需要注意的是依赖的 mlx-embeddings 0.1.1 版本还没正式发布 https://pypi.org/project/mlx-embeddings/ ,pip 要从 GitHub 安装(而不是 README 里那样装)
    est
        4
    est  
       May 27
    我以前也和你一样担心,后来想明白了,你这些数据对 AI 不值钱

    值钱的是你的行为和话术。
    v2exgo
        5
    v2exgo  
       May 27   ❤️ 1
    @est 关键是黑产老哥 偷私钥跟密码,别的不值钱,就你那代码碎片,丢给大模型公司 人家都怕脏了语料库,当然还有行为跟偏好,这个是值钱的
    lujiaosama
        6
    lujiaosama  
       May 27
    靠 AI 脱敏这一步就有问题了吧,都已经上传上去了。一般来说公网的密钥密码放在代码里硬编码,或者弄个配置中心从远程读取。MOCK 数据手动清洗过敏?
    est
        7
    est  
       May 27
    @v2exgo 你这个提醒得好。不过如果你代码里写死 私钥 密码 那简直太可怕了。
    xuelang
        8
    xuelang  
       3 days ago   ❤️ 1
    如果你的输入源里有 PDF ,可以看下这个思路:先在本地浏览器里把 PDF 里的 PII 扫出来,人工确认后再打码/导出,再把脱敏后的内容交给 AI 。

    我这边维护了一个在线工具,但处理逻辑是跑在浏览器本地的: https://pdf.selfboot.cn/zh/tools/pdf-smart-redact

    它用的是 OpenAI 开源的 privacy-filter 模型,第一次会下载约 900MB 模型到浏览器缓存,之后在本地识别人名、邮箱、电话、地址、账号、密钥等信息; PDF 本身不上传服务器。比较适合“合同/账单/简历/报告 PDF 先脱敏再给 AI 看”的场景。

    写了个使用说明: https://pdf.selfboot.cn/zh/blog/ai-pdf-redaction-tutorial

    局限也有:目前更适合有文本层的 PDF ,纯扫描件要先 OCR ;而且高风险材料还是建议扫描结果人工过一遍。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4397 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 222ms · UTC 04:09 · PVG 12:09 · LAX 21:09 · JFK 00:09
    ♥ Do have faith in what you're doing.