Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。
Tika是一个内容抽取的工具集合(a toolkit for text exTracting)。它集成了POI, PDFBox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。
该项目于2007年3月开始启动,最开始是ApacheLucene项目的子项目,2010年5月成为Apache组织的顶级项目。
功能包括:
侦测文档的类型,字符编码,语言,等其他现有文档的属性。
提取结构化的文字内容。
该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。编程语言为Java.
发布于 2017-12-15 00:30:46 | 121 次阅读
发布于 2017-07-12 23:52:06 | 147 次阅读
发布于 2017-05-31 00:01:20 | 123 次阅读
发布于 2016-11-11 01:20:58 | 172 次阅读
发布于 2016-05-16 23:47:22 | 271 次阅读
发布于 2016-02-16 00:24:34 | 189 次阅读
发布于 2015-10-27 00:47:19 | 166 次阅读
发布于 2015-06-24 07:22:11 | 183 次阅读
发布于 2015-04-21 00:54:30 | 215 次阅读
发布于 2015-01-17 01:33:18 | 216 次阅读
发布于 2014-09-06 00:49:50 | 235 次阅读