AI导航网

栏目导航

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Boilerpipe HTML 正文内容提取库

程序名称：Boilerpipe

授权协议: Apache 2.0

操作系统: 跨平台

开发语言: Java

Boilerpipe 介绍

Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息，提取出目标信息（如正文内容、发布时间）的 Java
库。其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息。

Boilerpipe 的包结构：

boilerpipe，根目录

document，文档包，定义了 boilerpipe 所处理文档数据类型，主要包括 TextDocument 和 TextBlock 。一个
TextDocument 即一个网页，由多个 TextBlock 构成。

lables，标签，每个 TextBlock 都有一个 lable 字段，表示该 TextBlock 的属性（如是不是正文）。

filters，过滤器，定义了多个过滤器，过滤器的作用即对 TextBlock 进行过滤，使用机器学习、统计、启发式方法等数据挖掘算法判断哪些
TextBlock 是所需要的（正文段），给 TextBlock 加上 lable ，去除无关的 TextBlock 。

sax，SAX 解析器，定义了从各种来源获取并解析网页的方法。

extractors，提取器，提取流程的入口。每个 extractor 都定义了自己的提取方法，通过调用不同的 filter 达到不同的处理效果。

conditions，条件判断，判断一个 TextBlock 是否满足特定的条件。

estimators，评估器，评估一个 extractor 对特定 document 的提取效果。

调用关系图示：

介绍内容摘自：CSDN

Boilerpipe 官网

https://github.com/kohlschutter/boilerpipe

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

欧盟第7框架计划(FP7)的LarKC项目的目标是开发大规模知识加速器(LarKC，其发音为“lark”)，LarKC被设计为一个大规模分布式不完备推理平台，该平台用于突破语义万维网(Semantic Web)推理系统目前面临的知识处理规

Salad 是一种有效且灵活的实现著名的异常检测方法回文构词法王et al . 2006(RAID)。Salad

multilanguage 是一个多语开发工具包，用于缓存多语系统的多语值，它拥有良好的性能，并且能防止内存泄露。

go-cortex 是一个服务，通过倾听你的句子，并视图理解你的意思，然后执行相应的动作。它使用 Wit.ai

DKPro Core 是基于 Apache UIMA 框架之上的自然语言处理（NLP）的软件组件。DKPro Core 提供了这样的第三方工具以及原NLP组件的包装。

NLTK 会被自然地看作是具有栈结构的一系列层，这些层构建于彼此基础之上。那些熟悉人工语言（比如

ERNIE 是基于持续学习的语义理解预训练框架，使用多任务学习增量式构建预训练任务。

Algorithm research AC 编译及使用方法实例1返回值实例2返回值

Algorithm research 基于 AC 有限状态自动状态机的过滤服务。 AC 编译及使用方法 1. 编译之前请先确认安装好 libevent

spaCy 是一个 Python 和 CPython 的 NLP 自然语言文本处理库。示例代码： >>> import spacy.en

Lango 是自然语言处理库，类似乐高游戏，可以把各个语言块构建在一起工作。

小编推荐