URL2io — 提供简单、强大的网页正文提取服务

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 3316 天前的主题，其中的信息可能已经有所发展或是发生改变。

URL2io.com — 提供简单、强大的网页正文提取服务

今天给大家分享的是一个网页正文提取服务 URL2Article ，主页地址：http://www.url2io.com

URL2Article 服务提供 RESTful API 接口，用来提取并解析网页中的正文区域，实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

功能列表

features

标题识别：

不仅仅是简单地提取 title 标签，而是智能识别网页正文的标题。

正文识别：

提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。

发布日期识别：

智能识别文章的发布日期。

智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面，所以这个功能会非常有用。

Demo

demo 地址：点这测试效果。

API 使用文档

可以查看相关文档 (URL2Article API doc) 来了解如何使用。

示例应用

为了让大家近一步了解这项服务，我们写了一个教学示例 Pageless，它使用 URL2Article API 来提取网页正文，并自动将被分成多页的文章合并成一页。
演示地址, 代码在 Github: url2io-app-samples

Feedback

That's all. 希望有兴趣的童鞋可以试用一下，然后给点反馈（使用中出现的问题、会用来开发什么、意见和建议等都可以）。欢迎留言讨论，或者 url2#sina.com ，或者 QQ 用户群： 341180183

第 1 条附言 · 2016-10-27 11:45:23 +08:00

近期的一些更新：（2016-10-02 ～2016-10-27）

根据大家的反馈和讨论做了大量更新，包括算法优化、新特性支持、其他更新等。

优化 (Breaking Changes)： —— URL2Article

针对正文上卷问题做了优化
运行速度优化

新特性 (New Features)：—— URL2Article

对于 <img> 标签会保留全部属性，方便之后的处理。
支持惰性图片解析，智能识别正文中的惰性图片，并自动将图片地址解析为真实地址。

现有功能列表：

其他更新 (Other Changes)：

在文档中心添加了 Quickstart ，提供多种编程语言（Python、NodeJS、PHP、Ruby ...）和工具（Curl ...）的使用示例，方便大家快速（约 20 秒）上手。
新增 PHP SDK：url2io-phpsdk ，由 @ety001 提供，十分感谢！
对于用 js 渲染内容的动态页面，在 UA 中使用兼容搜索引擎蜘蛛的特征串可以抓取到网页的静态版（感谢 @blueset 提供的思路），不过此方法的稳定性还在测试中，所以此次更新暂时还不能提供 -_-

That‘s all. 非常感谢大家的反馈和讨论，URL2io 的成长离不开热心朋友的关注与支持。欢迎继续留言讨论，或者 url2#sina.com ，或者 QQ 用户群： 341180183，或者 Github Issues，或者关注微薄 @url2io

第 2 条附言 · 2018-01-28 11:43:10 +08:00

URL2io Enterprise 服务发布

URL2io Enterprise 是 URL2io 的本地部署版本，您可以在自己的环境中进行安装部署和管理。
目前包含了 URL2Article 服务（用来提取并解析网页中的正文区域，实现网页正文提取、标题提取、下一页链接提取等。）

第 3 条附言 · 2019-11-27 01:33:12 +08:00

URL2io 云镜像版和SaaS版发布

2019-11-25

云镜像版是将 URL2io API 镜像部署在高性能云主机上的服务方式，提供多种云主机规格，对性能配置具备更好的可控性。同时，我们会提供运帷支持服务，为您免除运维烦恼。

>> 了解更多

SaaS版是将 URL2io API 部署在相互隔离的沙箱环境之中的服务方式，用户无需部署和维护。提供多种套餐，按需选择，性价比高。

>> 了解更多

正文

提取

网页

pageless

102 条回复 • 2019-10-09 14:33:01 +08:00

1 2

❮

❯

geeglo

2016-09-30 11:37:47 +08:00 via iPhone

我反正是没这需求，自己解析也挺方便的

leilux

2016-09-30 11:47:21 +08:00

@geeglo 如果要解析的页面非常多的话还是挺恼火的，而且页面结构变了的话还得重新分析。有这种自动化的服务还是挺好的^_^

DoraJDJ

2016-09-30 11:52:26 +08:00

用自己的 blog 试了一下，好像连头像都不小心给抓到了 23333

jy02201949

2016-09-30 11:55:37 +08:00

不错不错，想当年刀耕火种的年代，用雅虎的 pipe ，之后是自己写代码，如今已经开始自动化了

URL2io

2016-09-30 12:31:59 +08:00

@DoraJDJ 你这个巨型弹幕有点凶残啊！哈哈哈

tscat

2016-09-30 12:35:05 +08:00 via iPhone

收藏一下，午休后看看。希望比有道的好用

URL2io

2016-09-30 12:46:40 +08:00

@jy02201949 看来是老司机了，自动化之后能做的事就有意思了，比如 URL2Article 与 pipe 的结合

wuyadong

2016-09-30 12:47:26 +08:00

下一页连接，是怎样识别的呀，能否大致告知一下。谢谢

URL2io

2016-09-30 12:54:45 +08:00

@tscat 可以使用我们提供的接口将网页的正文提取出来，再发到有道笔记里

doubleflower

2016-09-30 13:05:32 +08:00

这个攫取服务器是在国内还是国外的？

URL2io

2016-09-30 13:06:50 +08:00

@wuyadong 大致的假设是本页链接与下一页链接的网址不会相差太大，应该有一个特定的模式。通过收集大量网站的下一页链接，做特征工程，再通过机器学习训练和预测下一页链接。只能讲这么多了 -_-

如果有相关需求还是推荐使用我们的产品，肯定比自己写的好用 ^_^

doubleflower

2016-09-30 13:08:19 +08:00

好象不灵啊，比如这样的：

https://zhuanlan.zhihu.com/p/22597353

URL2io

2016-09-30 13:18:03 +08:00

@doubleflower 知乎专栏这种通过 ajax 加载内容的网页暂时还不支持，要渲染 js 的开销太大了。

它的[接口]( https://zhuanlan.zhihu.com/api/posts/22597353)还是挺好找的，不过现在还没有找到一种高效、普适的方法就没有处理这种情况。

iyaozhen

2016-09-30 13:20:47 +08:00

挺不错的。赞

doubleflower

2016-09-30 13:20:56 +08:00

@URL2io 先用普通方式抓，发现没内容就用浏览器方式。

URL2io

2016-09-30 13:45:02 +08:00

@doubleflower 用浏览器方式是指加上 User-Agent 吗？也不行啊。它的内容是靠 js 加载的，也就是说如果浏览器禁用了 js ，那直接用浏览器访问都没有内容。

Google 的爬虫可以收录 JS 和 CSS 内容，用的方法好像也不是全部渲染，不知道怎么实现的......

doubleflower

2016-09-30 13:51:52 +08:00

@URL2io 用这种 http://phantomjs.org/ 现在的很多网页爬虫就是这么搞的。

URL2io

2016-09-30 14:14:10 +08:00

@doubleflower 感谢感谢

leilux

2016-09-30 15:33:41 +08:00

提取结果还是挺准的，赞一个

Aether

2016-09-30 15:35:11 +08:00

抓 V2EX 的时候……

xxm459259

2016-09-30 15:39:56 +08:00

是在 readability 基础上做的么？

xvx

2016-09-30 15:50:01 +08:00

我搜索了一下，发现有个效果比 LZ 的要好……不过不是开源的。 LZ 研究下。

http://www.weixinxi.wang/open/extract.html

gujiaxi

2016-09-30 15:57:26 +08:00

@URL2io 求 bookmarklet 。

URL2io

2016-09-30 17:50:22 +08:00

@Aether 习惯性向上卷，哈哈

@pandachow 不是在 readability 的基础上做的，不过 readability 可以说是所有正文提取算法的始祖，所以说和 readability 还是有关系的。

URL2io

2016-09-30 17:50:47 +08:00

@xvx 这个我在开发时也搜到过，也一直作为比较的对象。效果上来说他这个倾向于于获取更少的正文，所以看上去会简洁一点，不过对于一些奇怪的页面效果就不太好。我这个倾向于获取更多的正文，所以在头部偶尔会将多余的内容卷进来，不过普适性更好，遇到很奇怪的页面都可以提取。其实不同的人对一个页面正文的部分的定义是不同的，要在简洁与普适这两者之间进行权衡。

URL2io

2016-09-30 17:51:18 +08:00

@gujiaxi Pageless 的吗？

将书签的地址改为:

<pre>javascript:location.href = 'http://blog.url2io.com/url2io-app-samples/pageless/?url='+encodeURIComponent(location.href);</pre>

不过 Pageless 用的是演示用的 API 是有频率限制的，可以根据 Pageless 的源码再结合正式的 API 搭建一个。

Aether

2016-09-30 17:53:49 +08:00

@URL2io 可能要针对主要网站都做一遍优化？这可是苦力活儿，但也是值钱的活儿；但是你可以列一堆 logo ，表示「这些网站已特别优化」，让用户放心使用。

techmoe

2016-09-30 18:09:15 +08:00 via Android

做这个的思路是什么？计算页面占比最大的 div ？

URL2io

2016-09-30 21:11:35 +08:00

@Aether 确实是个苦力活儿。你这个建议很不错 ^_^

URL2io

2016-09-30 22:18:14 +08:00

@techmoe 思路点抓得很好，不过页面占比只是众多特征中的一个。如果有相关需求还是推荐使用我们的产品，肯定比自己写的好用 ^_^

designer

2016-09-30 22:26:10 +08:00

支持，是不是有点像 pocket 插件

missdeer

2016-09-30 22:33:54 +08:00

效果也就一般，比如我一直看的盗版小说页面 http://www.piaotian.net/html/7/7762/5084075.html 页脚都没去掉

alexapollo

2016-10-01 00:01:55 +08:00

斯坦福前两年有篇论文写的就是这个方法，简单粗暴，但是做起来估计也得有不少 dirty work

xxm459259

2016-10-01 00:10:14 +08:00

@URL2io 之前给团队项目做过一个类似的功能，我开始是在 Readability 基础上改，后来从 evernote 的 clearly 插件源码中又学了一些奇技淫巧。总的感觉 dirty work 比较多，以及很多 tricks …

URL2io

2016-10-01 09:05:09 +08:00

@designer 对，不同的是，把类似于 pocket 的提取功能作为接口提供给开发者了，这样自己都可以做一个 pocket 了。感谢支持！

URL2io

2016-10-01 09:23:14 +08:00

@missdeer 还在改进中…… 果然我们的样本还是很有限的，感谢反馈！

URL2io

2016-10-01 09:29:55 +08:00

@alexapollo @pandachow

我大 V 站的水太深了，以后还请多多指教

blueset

2016-10-01 11:01:31 +08:00

建议抓取用的 UA 兼容一下其他搜索引擎蜘蛛的特征串（除了 Google ）

部分用 JS 渲染内容的站点（比如我的）开启了根据 UA 判断针对 Bot 推送索引用全文的功能。这样提取起来也会方便些。

之所以说除了 Google 是因为 Google 的蜘蛛 Bot 可以解析渲染 JS 。所以很多类似的库就把 Google 排除在外了。

URL2io

2016-10-01 13:00:51 +08:00

@blueset 原来还有这样的技巧，我去试验一下，感谢感谢！

15015613

2016-10-01 21:02:02 +08:00

@URL2io
对几个百度贴吧的帖子试了一下，感觉效果不一
楼层数不定，大部分好像就提了个一楼
还有经常把百度加的广告也提了出来
另外，对于有图的贴子提取尤其的糟糕。

livc

2016-10-01 21:13:21 +08:00

telegram 的正文不知如何提取的

URL2io

2016-10-01 23:10:53 +08:00

@livc 我记得以前 V 站有个帖子讨论过，好像是和 desc 有关的

URL2io

2016-10-01 23:22:03 +08:00

@15015613 贴吧、论坛之类的帖子其实可以理解为一篇文章的评论部分，所以从我们的角度来说这些帖子其实是没有正文的 -_-!
不过这种应该算是更广义的正文了，目前我们还没这个精力去做这方面的研究……

jqw1992

2016-10-02 10:27:22 +08:00

强大

iannil

2016-10-02 11:01:38 +08:00

微信公众号文章，图片全丢。

Warder

2016-10-02 13:32:20 +08:00

嗯，效果还挺不错

qianddream

2016-10-02 14:26:12 +08:00

@URL2io 知乎这种问答网站如何处理？

URL2io

2016-10-02 14:59:16 +08:00

@iannil 目前还不支持网页中惰性加载的图片，不过这部分和 URL2Images (开发中) 用到的技术有交叉，所以之后会加上对这个的支持。感谢反馈！

URL2io

2016-10-02 15:27:52 +08:00

@qianddream 仅从问答上来说，知乎有两类页面：

1. [https://www.zhihu.com/question/49658687]( https://www.zhihu.com/question/49658687) 用来展示提问者的问题，不过同时可包含了许多回答者的解答。形式上可以理解为一篇每个回复都比较长的帖子，正文的概念很弱。结果就是效果不一，无法评判。
2. [https://www.zhihu.com/question/49658687/answer/117123835]( https://www.zhihu.com/question/49658687/answer/117123835) 用来展示回答者对一个问题的解答。形式上可以理解为一篇博客文章，提取这种还是 URL2Article 比较擅长的。

所以，还是看使用者的策略吧，比如：从提问页提取出所有回答的链接，再用 URL2Article 提取出每个回答。

beidouxun

2016-10-02 16:28:04 +08:00 via Android

我最近对这方面很感兴趣。尤其是如何判断正文部分和发布日期的。我的网站后台必须填写相关规则才能提取。

URL2io

2016-10-02 20:45:08 +08:00

@beidouxun 用我们的产品呗，把精力放在你要实现的功能上 ^_^

xiubin

2016-10-03 08:20:40 +08:00 via iPhone

Mark ，打算写一个 RSS 阅读器，估计用的到。以后会有一直维护，和免费吗？

20015jjw

2016-10-03 09:12:41 +08:00

希望能 push 到 kindle

URL2io

2016-10-03 14:51:07 +08:00 via Android

@xiubin 请放心会一直维护的。对于免不免费还没考虑过，还早呢，现阶段只想把产品打磨得更好。

URL2io

2016-10-03 18:28:11 +08:00 via Android

@20015jjw Pageless 就是个教学示例而已啊 -_-|| ，不过用我们提供的正文提取 API 开发个 send to kindle 的应用也不难。

xiaoz

2016-10-04 09:21:20 +08:00 via iPhone

目前已经用接口撸了个小工具，非常感谢楼主，希望继续维护下去。另外贵方服务器是多台吗？会不会出现被屏蔽 ip 的情况。

URL2io

2016-10-04 22:16:53 +08:00

@xiaoz 感谢使用！会一直做下去的。即使是多台服务器屏蔽 ip 的情况还是会出现，接下去会针对这个可能出现的情况做相应的处理。

dphdjy

2016-10-05 07:31:02 +08:00 via Android

mark

前年找过类似服务，最后一个基于内容块的分析，还有一个是对不同页面做适配，然而用起来挺麻烦的。。。
看过悦读的源码，有点多就放弃了。。。

等 po 优化完成，再折腾

URL2io

2016-10-05 18:18:57 +08:00

@dphdjy 这一版的接口是不会变了，有空可以先折腾着 ^_^

URL2io

2016-10-05 23:12:01 +08:00

@jqw1992
@Warder 感谢支持！

v9ox

2016-10-06 06:10:40 +08:00

试了 google 和 t66y 都不行（还以为能顺手翻墙

URL2io

2016-10-06 15:43:02 +08:00

@v9ox 墙太高不好翻啊 (⇀‸↼‶)

HanSonJ

2016-10-07 13:51:26 +08:00

http://www.url2io.com/terms

URL2io

2016-10-07 14:10:12 +08:00

@HanSonJ 其中有什么不妥的地方吗？

HanSonJ

2016-10-07 15:21:00 +08:00

@URL2io 没问题，只是我们对于样式的要求不一样罢了

URL2io

2016-10-07 17:00:43 +08:00

@HanSonJ 是有点…… -_- ，哈哈偷懒了

Izual_Yang

2016-10-07 17:04:25 +08:00 via Android

@missdeer
有看小说用的油猴子脚本， My Novel Reader

olbb

2016-10-08 11:30:51 +08:00

可以提取分页内容吗

URL2io

2016-10-08 17:00:29 +08:00

@olbb 可以的，请求时带上 next 参数，在返回的数据中就会包含当前网页的下一页链接（如果有的话）。

* 具体文档可以看 http://www.url2io.com/docs
* 具体示例可以看 pageless ，它就利用了这个特性，实现持续地加载分页中的正文内容

其实帖子中都写了的…… -_-

typcn

2016-10-10 08:44:56 +08:00

比起 import 还是差不少。。 JS 翻页识别不到，列表页面第一项被识别成标题，图片 lazyload 识别不到

ljcarsenal

2016-10-10 09:46:13 +08:00

ARGUMENT DESCRIPTION
error type : "HTTPError"
message : "HTTP 599: socket write not completed (_ssl.c:562)"
url : "http://taobao.com"
code : "599"

tinyproxy

2016-10-10 12:15:10 +08:00

有待改进啊，发个链接，有兴趣的自己感受一下。
抓取链接
http://blog.url2io.com/url2io-app-samples/pageless/?url=https%3A%2F%2Fzhuanlan.zhihu.com%2Fp%2F21454432
原链接
https://zhuanlan.zhihu.com/p/21454432

URL2io

2016-10-10 13:44:37 +08:00

@ljcarsenal 已经解决，感谢反馈！

URL2io

2016-10-10 14:03:16 +08:00

@tinyproxy 知乎专栏这种通过 ajax 加载内容的网页暂时还不支持，要渲染 js 的开销太大了。虽然它的接口

https://zhuanlan.zhihu.com/api/posts/21454432

还是挺好找的，不过现在还没有找到一种高效、普适的方法，就没有处理这种情况。

PS ：看完你推荐的这个网页，我内心涌起了想要为知乎日报做特殊处理的冲动 -_-

BOYPT

2016-10-10 14:43:36 +08:00

好东西，， mark 一下。

Yeoman

2016-10-10 16:52:07 +08:00 via Android

提取正文这种需求只有在爬小黄蚊的时候遇到过

Youen

2016-10-10 17:37:23 +08:00

可以去 1024 撸种子啊~~

URL2io

2016-10-10 21:45:13 +08:00

@typcn 和 import 没法比啊，它把采集相关的通通都做了 -_- 。而我们只是提供了一个功能，让大家可以集成到自己的软件系统中（或许也可以集成到 import 中）。两者的关系更像是框架与库的关系。

目前有关 js 动态渲染的东西都不支持，不过图片 lazyload 之后会支持的……

方便贴一下“列表页面第一项被识别成标题”的网址吗？目前在对正文提取做优化，十分需要这种提取效果不好的样本……

jeremaihloo

2016-10-11 00:07:21 +08:00

一直在用这个方法提取网页正文，感觉还不错

https://code.google.com/archive/p/cx-extractor/

URL2io

2016-10-11 12:46:12 +08:00

@jeremaihloo 恩，速度比较快、准确率也不错。 cx-extractor 使用基于不用解析 dom 解析的行分块，这是一大优点。不过因此也带来了一些限制。因为使用行分块，所以提取前要去除 html tag ，这样就只能提取出文字内容了，顶多保留 img 标签作为文字内容也提取出来。另一个就是要对其进行扩展比较难，因为提取其他信息如标题、日期、下一页链接这些还是需要 html tag 的信息的。

URL2io

2016-10-11 12:55:00 +08:00

@Yeoman (¯﹃¯)

URL2io

2016-10-11 12:56:08 +08:00

@Youen 撸种子？？ How ？？

nicoljiang

PRO

2016-10-13 11:37:03 +08:00

貌似已经无法访问了： http://blog.url2io.com/url2io-app-samples/pageless/?url=https%3A%2F%2Fwww.v2ex.com%2Ft%2F309948

URL2io

2016-10-13 11:48:09 +08:00

@nicoljiang 可以的啊， blog 是托管在 github 上的，这两天习惯性抽风，要多刷几次 -_-

ghosrt

2016-10-27 15:52:27 +08:00

随手试了一下 cnBeta 的一个新闻地址，最后的文字广告连接也被识别为正文了……:)

URL2io

2016-10-30 01:40:29 +08:00 via Android

@ghosrt 不做语义分析，要去除文字广告太难了... 如果实现了那可以开个 URL2block 服务了，哈哈

ldehai

2016-10-30 19:29:55 +08:00

@URL2io http://aventlabs.com/meetcode 这个没抓出来

soulmine

2016-10-31 11:05:18 +08:00

@URL2io 有几个问题 1.图片都是网络链接一旦遇上外链失效的图片那就是无效 2.爬论坛或者贴吧这种需要的回复之类的文字和图片而不是仿格式的页面 json 里面还是一堆的 html 标签这个和没使用有区别么 2333
不过用来抓下一页时间和标题还是很方便的希望有答复

URL2io

2016-10-31 15:59:30 +08:00 via Android

@soulmine 感谢使用！

1. 验证外链是否失效不会出现在正文提取阶段，所以对于外链失效就要自己想办法了，毕竟还有 src 在。
2. 这次发布是 URL2Article ，顾名思义适用范围是新闻，博客等有 article 概念的页面。从返回的字段也可以看出是一篇文章或新闻等的相关信息。如果是一个适用于提取论坛或贴吧的服务，那它返回的字段肯定完全不同，比如每条回复的作者、回复时间、回复内容、第几楼、甚至回复的是哪条回复都要提取为相应的字段。当然之后可能会开发适用于论坛类页面的服务。^_^
3. 关于一堆 html 标签的问题，还是适用范围的问题。 article 类的页面它的布局相对来说是比较稳定的，所以通过一个设计良好的 CSS 可能达到比原页面还好的显示效果，可以看看示例应用 Pageless 的效果。论坛类的布局就太和 7 和 7 混乱了，而且严重依赖原站的 CSS 设计，所以如果不能提取出第 2 条所说的那些字段，要想得到不是仿格式的页面恐怕有点难了。
4. URL2Article 也提供了输出纯文字内容的选项，只不过图片作为 html 标签也会去除。

可能我在帖子的开头没有很清楚地说明适用范围。不过从用户的反馈来看提取论坛类页面的需求也很大啊？

URL2io

2016-11-06 21:41:38 +08:00

@ ldehai 不知道该说什么好……

soulmine

2016-11-09 23:12:53 +08:00

@URL2io 嗯那是我错误理解了提供的服务了用来提取新闻这方面确实很赞

zlong

2016-11-19 10:58:18 +08:00

就是不知道这工具有什么用处

URL2io

2016-11-20 20:24:13 +08:00 via Android

@zlong 可以看一下使用这个工具开发的一个示例应用 Pageless 来感受下

dreamcog

2017-03-07 17:57:58 +08:00

@URL2io 打算使用，是否收费？能否保证稳定性？唯一的担心是稳定性。所以觉得这种付费付费的可能比较敢用。

URL2io

2017-03-10 19:52:21 +08:00 via iPhone

@dreamcog 目前不收费的哈，会一直做下去的，请放心使用。^_^

dreamcog

2017-04-02 02:34:35 +08:00 via iPhone

@URL2io 有微信吗？能加一个不？另外知乎无法提取

URL2io

2017-04-02 23:35:15 +08:00 via iPhone

@dreamcog 加 QQ 群吧 341180183 小窗聊

qsnow6

2017-04-24 19:56:17 +08:00

可以直接给爬虫用么？担心会不会爬挂了

URL2io

2017-04-25 08:55:15 +08:00 via iPhone

@qsnow6 可以，但别用大并发^_^

100

cnfuyu

2017-05-08 16:27:45 +08:00

只有 API 吗？现在本地有一个 G 的数据需要提取正文，也只能用 API 的方式吗😭

1 2

❮

❯