V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
acoder2013
V2EX  ›  程序员

阅读模式是如何实现的?

  •  
  •   acoder2013 ·
    aCoder2013 · 2015-09-26 13:15:35 +08:00 · 4934 次点击
    这是一个创建于 3376 天前的主题,其中的信息可能已经有所发展或是发生改变。

    类似 UC ,知乎日报这种,根据 URL 就能够自动提取出正文,然而每一个来源的排版都不同,该怎样去实现呢

    12 条回复    2015-09-28 11:52:30 +08:00
    ss098
        1
    ss098  
       2015-09-26 13:55:14 +08:00
    据个人推测可能是识别 schema.org 或者 HTML 5 的 Article 标签。
    9hills
        2
    9hills  
       2015-09-26 14:14:14 +08:00
    搜正文提取算法,有很多文章和代码
    acoder2013
        3
    acoder2013  
    OP
       2015-09-26 15:49:36 +08:00
    @9hills 看了几篇论文,采用了 cx-extractor ,正在考虑怎么把提取到的无标签正文恢复到原来的格式,尽量保持原来的图片,格式这些
    Bardon
        4
    Bardon  
       2015-09-26 17:02:14 +08:00
    很奇怪,在个人博客上,大部分文章能触发阅读模式,部分文章确在其中的代码部分被触发,而少量的文章压根不会被触发

    <article>标签触发不靠谱
    zhicheng
        5
    zhicheng  
       2015-09-26 17:07:08 +08:00
    TextArea.com 也支持阅读模式,几乎完美显示的,应该与 html 写法有关系吧。
    polythene
        6
    polythene  
       2015-09-26 17:59:09 +08:00   ❤️ 1
    我做 hacker news digest ( http://www.hackernews.im/ )的时候也用到了正文提取,具体的实现你可以参考一下 https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor

    主要思想就是给标签打分,最终选出最有可能是正文的那个标签。因为一个标签是不是正文你不能仅看它的名字,不能说这个标签是<article>就认为它是正文,还要看它的属性等别的因素。
    napsterwu
        7
    napsterwu  
       2015-09-27 09:33:56 +08:00
    看数学之美啊
    acoder2013
        8
    acoder2013  
    OP
       2015-09-27 10:47:08 +08:00
    @polythene Python 就以前简单学了语法,看的好累
    acoder2013
        9
    acoder2013  
    OP
       2015-09-27 10:47:27 +08:00
    @napsterwu 这本书有讲这方面的吗,还没时间看
    kankana
        10
    kankana  
       2015-09-27 23:08:23 +08:00
    @polythene 所的是 readability 算法?
    paperpeper
        11
    paperpeper  
       2015-09-28 08:36:33 +08:00
    我用过两个办法,简单一点的办法就是针对 html 分析,直接 xpath 提取,不过拓展性不好。还有一个办法就是对文章分片,提取特征获取正文,这种办法拓展性好,但是可能对某些网站还是会展示的不完美。
    polythene
        12
    polythene  
       2015-09-28 11:52:30 +08:00   ❤️ 1
    @kankana 比 readability 算法准确度高很多, readability 对一些排版混乱的中文网页根本提取不出什么,而这个方法可以提取很多奇葩网页的正文,至少 hacker news 上提交的页面大多都是可以正确提取的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1141 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 18:30 · PVG 02:30 · LAX 10:30 · JFK 13:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.