1
KentY 2016-06-13 19:51:13 +08:00
比如: 中山大学数据科学与计算机学院印鉴教授团队 2016 年 6 月公开招聘 2 名工作人员启事 2016-06-13
你要取什么? 2016-06-13 还是 "2016 年 6 月"? 如果是前者,用 beautifulsoup 是可以取 li->span 的东西, 这日期就不就有了吗? |
2
ETiV 2016-06-13 20:09:11 +08:00
bootstrap4 还在 alpha 吧
|
3
omg21 OP @KentY 这就是我特意选这条的用意。我的本意是要提取后边的“ 2016-06-13 ”,可是我不想每个页面专门再写代码,现在这个页面是 li->span 的结构,下个页面可能就不是这个结构了。我现在就在琢磨怎么能写个通用的代码一次把几十个页面都查看一遍。
|
5
sola97 2016-06-13 20:27:23 +08:00
\d{4}-\d{2}-\d{2}
这种? |
7
sola97 2016-06-13 20:34:44 +08:00
发现我写的都不对,无视吧
|
8
practicer 2016-06-13 20:38:37 +08:00
提主你没贴完整的结构,我们怎么帮得了你?我理解的是不是这样,
1.html 结构不同,日期可能出现在未知层级的元素里 2.日期格式不同 你最好都贴出来比较好 |
9
YUX 2016-06-13 20:47:33 +08:00
意思是每个页面的 DOM 结构还不一样?其他页面还不是 li->span ?
最好是把每个页面的结构都看一下才好分析出共通的代码,但好像看题主的意思是只要提取每页形如 yyyy-mm-dd 的日期?拿着就没法 beautifulsoup 了 直接上正则匹配。 |
10
ca1123 2016-06-13 20:51:23 +08:00
你就针对每种日期格式写一个正则呗 计算机又不懂这些字符串啥意思 你无论如何都得教她
|
11
YUX 2016-06-13 20:52:29 +08:00
如五楼所说 re.findall("\d{4}-\d{2}-\d{2}",html_content) 就能拿到所有形如 yyyy-mm-dd 的日期
|
12
bertonzh 2016-06-13 20:55:39 +08:00
/20\d{2}[年\s\-]+[01]?\d[月\s\-]+[0-3]?\d/
|