V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
smartG
V2EX  ›  Python

Python 处理 excel 表格的问题

  •  
  •   smartG · 2019-12-05 17:57:03 +08:00 via iPhone · 3204 次点击
    这是一个创建于 1847 天前的主题,其中的信息可能已经有所发展或是发生改变。

    今天在处理一个表格的时候,遇到了一个很苦恼的事,表格有一列数据是用户申请日志记录(有重复的申请内容),其中有正常的申请和不正常的,不正常的大多是在正常提交的句子里随机插入数字和标点,还有一些是随机乱打的文字,一眼就能看出来,手动删除也可以,但是整个文件有 3 万多条数据,V 友们有什么好的处理方法吗

    7 条回复    2019-12-11 08:44:32 +08:00
    kokutou
        1
    kokutou  
       2019-12-05 18:02:14 +08:00 via Android
    正则表达式提取出来放到另一列,然后本列内直接删除。
    最后再看看准确率如何,
    多调几次,然后整列删除。
    TimePPT
        2
    TimePPT  
       2019-12-05 18:53:36 +08:00
    如果没啥特别规律可循的话……抽个三五百条自己标下,然后上贝叶斯过滤器?
    factoid
        3
    factoid  
       2019-12-05 19:43:42 +08:00 via iPhone
    先正则匹配一波,然后在人工查看,手工删除
    necomancer
        4
    necomancer  
       2019-12-09 00:31:13 +08:00
    1. 先用正则表达式去掉包含非法字符的。
    2. 自己找出来一二百条垃圾信息,一二百条好信息,做个分类器。
    简单的流程是先做特征提取,再做个逻辑回归,或者支持向量机分类。文本特征提取的方法百度一下有很多。只是在学习的时候做过英文的垃圾邮件过滤器。中文不知道具体该咋弄……但应该有很多现成的工具吧,去 github 找找~~
    smartG
        5
    smartG  
    OP
       2019-12-10 00:12:21 +08:00 via iPhone
    @necomancer 多谢老哥解答,不过迫于技术渣,只用过 Python 的一些基本库,逻辑回归听着好深奥啊
    necomancer
        6
    necomancer  
       2019-12-11 08:35:05 +08:00
    @smartG 逻辑回归是个统计学习方法,sckipy, sklearn 都有现成的库。不熟悉 python 的话,其他很多语言比如 R, matlab, mathematica 啥的也都有实现。
    necomancer
        7
    necomancer  
       2019-12-11 08:44:32 +08:00
    刚搜了一下,excel 也有人做逻辑回归。只要把你需要处理的信息文本提取特征,也就是转成一堆数字就行。这个得去网上找点啥类似 word2vec, 结巴分词啥的,貌似 pip install jieba word2vec 就能装,调用也挺简单,随便找个博客看看应该简单用起来没啥问题。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   989 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 21:22 · PVG 05:22 · LAX 13:22 · JFK 16:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.