`

nutch 02 其它与nutch有关的工具说明

阅读更多

这些框架主要有Lucene、Hadoop、Solr、Tika、Gora、HBase等,其中
Nutch是网络爬虫
Lucene是全文检索工具包
Hadoop是分布式存储与计算
Gora是ORM的大数据版
Tika是内容分析工具包
上面那几个在以前都说过。
Solr是搜索服务器:
是一个独立的企业级应用服务器,它对外提供类似于webservice的api 接口。用户可以通过http 请求,搜索服务器提交一定格式的xml文件,生成索引,也可以通过http get 方式提出查的请求,并得到XML格式的返回结果。
    同时它是一个高性能,采用java 5开发,基于lucene的全文搜索服务器。同时对其进行了扩展,提供了比lucene更为丰富的查询语言,同时实现了可配置,可扩展,并对查询性能进行了优化,并且提供了一套完整的功能管理界面 ,是一款非常优秀的全文搜索引擎,
   
HBase是基于Hadoop的分布式数据库
    HBase(Hadoop DataBase)是一个分布式的,面向列的开源数据库,该技术源于google论文“bigtable:一个结构化数据的分布式存储系统”。就像bigtable,利用了google的文件系统(google file system GFS)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于bigtable的能力,类似google bigtable 利用GFS 作为其文件存储系统,HBase 利用Hadoop HDFS 作为其文件存储系统;google 运行MapReduce 来处理bigtable 中的海量数据,HBase 同样利用Hadoop MapReduce 来处理HBase 中的少海量数据;google Bigtable 利用Chubby 作为协同服务,HBase 利用Zookeeper作为对应,所以它是google bigtable 的实现。HBase是Hadoop的一个子项目。HBase不同于一般的关系型数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是它是基于列的,不是基于行的模式。
    HBase也可以是称之为高可靠性,高性能,面向列,可伸缩的分布式存储系统,利用HBase技术可以在廉价的pc server上面搭建起大规模的结构化存储集群。

 


由上图可以看出来,HBase 位于结构化存储层,HDFS 为HBase提供了高可靠性的底层存储支持,MapReduce 为HBase提供了高性能的计算能力,Zookeeper 为HBase 提供了稳定服务和failover 机制。pig和Hive 还为HBase提供了高层语言支持,使得在HBase上进行数据处理变得非常简单,sqoop 则为HBase 提供了方便的RDBMS 数据导入功能 ,使得传统数据库数据向HBase中迁移变得非常方便。 

以上这些都是java 开源框架,也许这才是java 的真正价值所在。

 

0
2
分享到:
评论
1 楼 cphmvp 2013-11-25  
再顶

相关推荐

    nutch 初学文档教材

    5.5 nutch的其他一些特性..31 6. nutch分析方法和工具........33 6.1 Crawldb......33 6.2 Linkdb........35 6.3 Segments....35 6.4 Index..39 7. nutch分布式文件系统........41 2007-8-26 北京邮电大学-李阳 ...

    Nutch入门.rar

    5.5 nutch的其他一些特性..31 6. nutch分析方法和工具........33 6.1 Crawldb......33 6.2 Linkdb........35 6.3 Segments....35 6.4 Index..39 7. nutch分布式文件系统........41 2007-8-26 北京邮电大学-...

    基于Nutch+ElasticSearch+MySQL+SSM的简易搜索引擎.zip

    SQL标准的广泛支持使得MySQL易于学习,且与其他关系型数据库系统有良好的互操作性。 存储引擎 MySQL支持多种存储引擎,如InnoDB、MyISAM、MEMORY等,每种引擎都有特定的优势和适用场景。例如,InnoDB提供事务安全、...

    基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    网络爬虫调研报告.docx

    充当全文检索数据库的是Apache组织下的开源项目Lucene 检索工具,而Lucene只是个搜索引擎工具,它提供API接口,通过编写程序对信息进行索引和检索,在其后台需要网络爬虫程序的支持,其目的是通过网络爬虫软件抓取...

    sulr-4.9.1

    展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适当的配置,某些情况下可能需要进行编码, Solr 可以阅读和使用构建到其他 ...

    开源企业搜索引擎SOLR的应用教程

    Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。...此外,很多 Lucene 工具(如Nutch、 Luke)也可以使用 Solr 创建的索引。

    cocrawler:CoCrawler是使用现代工具和并发性构建的多功能Web搜寻器

    像Nutch和Heritrix这样的成熟的爬虫在许多情况下都可以很好地工作,而在其他情况下则不够。 一些最苛刻的爬网情况包括整个网络的开放式爬网。 该项目的目的是创建一个具有可插拔模块的模块化搜寻器,能够很好地应对...

    Hadoop权威指南 第二版(中文版)

     与其他系统相比  关系型数据库管理系统  网格计算  志愿计算  1.3.4 Hadoop 发展简史  Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce  一个气象数据集  数据的格式  使用Unix工具进行数据分析  使用...

    Hadoop权威指南(中文版)2015上传.rar

    与其他系统相比 关系型数据库管理系统 网格计算 志愿计算 1.3.4 Hadoop 发展简史 Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce 一个气象数据集 数据的格式 使用Unix工具进行数据分析 使用Hadoop分析数据 map...

    自己动手写搜索引擎(罗刚著).doc

    2.2.4 Nutch网络搜索软件 15 2.2.5 用户界面 17 2.3 商业搜索引擎技术介绍 17 2.3.1 通用搜索 17 2.3.2 垂直搜索 18 2.3.3 站内搜索 19 2.3.4 桌面搜索 21 2.4 本章小结 21 第3章 获得海量数据 22 3.1 自己的网络...

    国外java源码网站-SABLE:学习辅助抓取

    Nutch 是一种基于 Java 的网络爬虫,用于爬取网站、发现 PDF 以及编译用于模型构建的训练文档集。 Python 用于从 PDF 中抓取数据和文本,并根据各种监督机器学习算法(如朴素贝叶斯、逻辑回归和随机森林)拟合和评估...

    solr 企业搜索引擎教程

    外,很多 Lucene 工具(如 Nutch、 Luke)也可以使用 Solr 创建的索引 Solr 的特性包括:  高级的全文搜索功能  专为高通量的网络流量进行的优化  基于开放接口(XML 和 HTTP)的标准  综合的 HTML 管理界面  可...

Global site tag (gtag.js) - Google Analytics