URL2io 最近的时间轴更新
URL2io 第一波更新完毕,包括算法优化、新特性支持、其他更新等 ( 2016-10-02 ~ 2016-10-27)
https://www.v2ex.com/t/309948#reply86
2016-10-30 15:55:22 +08:00
URL2io

URL2io

提供简单,强大的网页信息提取服务
🏢  URL2io.com
V2EX 第 72597 号会员,加入于 2014-09-01 12:18:48 +08:00
URL2io 提供简单,强大的网页信息提取服务,用于 Web 内容的结构化处理。如 URL2Article 用来提取并解析网页中的正文区域,实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。
URL2io 最近回复了
2019-10-09 14:33:01 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
2017-04-25 08:55:15 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@qsnow6 可以,但别用大并发^_^
2017-04-02 23:35:15 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@dreamcog 加 QQ 群吧 341180183 小窗聊
2017-03-10 19:52:21 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@dreamcog 目前不收费的哈,会一直做下去的 ,请放心使用。^_^
2016-11-20 20:24:13 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@zlong 可以看一下使用这个工具开发的一个示例应用 Pageless 来感受下
2016-11-06 21:41:38 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@ ldehai 不知道该说什么好……
2016-10-31 15:59:30 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@soulmine 感谢使用!

1. 验证外链是否失效不会出现在正文提取阶段,所以对于外链失效就要自己想办法了,毕竟还有 src 在。
2. 这次发布是 URL2Article ,顾名思义适用范围是新闻,博客等有 article 概念的页面。从返回的字段也可以看出是一篇文章或新闻等的相关信息。如果是一个适用于提取论坛或贴吧的服务,那它返回的字段肯定完全不同,比如每条回复的作者、回复时间、回复内容、第几楼、甚至回复的是哪条回复都要提取为相应的字段。当然之后可能会开发适用于论坛类页面的服务。^_^
3. 关于一堆 html 标签的问题,还是适用范围的问题。 article 类的页面它的布局相对来说是比较稳定的,所以通过一个设计良好的 CSS 可能达到比原页面还好的显示效果,可以看看示例应用 Pageless 的效果。论坛类的布局就太和 7 和 7 混乱了,而且严重依赖原站的 CSS 设计,所以如果不能提取出第 2 条所说的那些字段,要想得到不是仿格式的页面恐怕有点难了。
4. URL2Article 也提供了输出纯文字内容的选项,只不过图片作为 html 标签也会去除。

可能我在帖子的开头没有很清楚地说明适用范围。不过从用户的反馈来看提取论坛类页面的需求也很大啊?
2016-10-30 01:40:29 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@ghosrt 不做语义分析,要去除文字广告太难了... 如果实现了那可以开个 URL2block 服务了,哈哈
2016-10-13 11:48:09 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@nicoljiang 可以的啊, blog 是托管在 github 上的,这两天习惯性抽风,要多刷几次 -_-
2016-10-11 12:56:08 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@Youen 撸种子?? How ??
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2559 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 04:57 · PVG 12:57 · LAX 20:57 · JFK 23:57
Developed with CodeLauncher
♥ Do have faith in what you're doing.