nutch 02 其它与nutch有关的工具说明 -

zhangzhanlei1988

浏览: 38682 次
性别:
来自: 北京

最近访客更多访客>>

mikin840815

yin1003003

dongqdong

奥脑子

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

nutch 02 其它与nutch有关的工具说明

博客分类：

nutch

hbase hadoop lucene 搜索引擎 solr

这些框架主要有Lucene、Hadoop、Solr、Tika、Gora、HBase等，其中
Nutch是网络爬虫
Lucene是全文检索工具包
Hadoop是分布式存储与计算
Gora是ORM的大数据版
Tika是内容分析工具包
上面那几个在以前都说过。
Solr是搜索服务器：
是一个独立的企业级应用服务器，它对外提供类似于webservice的api 接口。用户可以通过http 请求，搜索服务器提交一定格式的xml文件，生成索引，也可以通过http get 方式提出查的请求，并得到XML格式的返回结果。
    同时它是一个高性能，采用java 5开发，基于lucene的全文搜索服务器。同时对其进行了扩展，提供了比lucene更为丰富的查询语言，同时实现了可配置，可扩展，并对查询性能进行了优化，并且提供了一套完整的功能管理界面，是一款非常优秀的全文搜索引擎，

HBase是基于Hadoop的分布式数据库
    HBase（Hadoop DataBase）是一个分布式的，面向列的开源数据库，该技术源于google论文“bigtable:一个结构化数据的分布式存储系统”。就像bigtable,利用了google的文件系统（google file system GFS）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于bigtable的能力，类似google bigtable 利用GFS 作为其文件存储系统，HBase 利用Hadoop HDFS 作为其文件存储系统；google 运行MapReduce 来处理bigtable 中的海量数据，HBase 同样利用Hadoop MapReduce 来处理HBase 中的少海量数据；google Bigtable 利用Chubby 作为协同服务，HBase 利用Zookeeper作为对应，所以它是google bigtable 的实现。HBase是Hadoop的一个子项目。HBase不同于一般的关系型数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是它是基于列的，不是基于行的模式。
    HBase也可以是称之为高可靠性，高性能，面向列，可伸缩的分布式存储系统，利用HBase技术可以在廉价的pc server上面搭建起大规模的结构化存储集群。

由上图可以看出来，HBase 位于结构化存储层，HDFS 为HBase提供了高可靠性的底层存储支持，MapReduce 为HBase提供了高性能的计算能力，Zookeeper 为HBase 提供了稳定服务和failover 机制。pig和Hive 还为HBase提供了高层语言支持，使得在HBase上进行数据处理变得非常简单，sqoop 则为HBase 提供了方便的RDBMS 数据导入功能，使得传统数据库数据向HBase中迁移变得非常方便。

以上这些都是java 开源框架，也许这才是java 的真正价值所在。

0
顶

2
踩

分享到：

ubuntu 解决pppoeconf和network-manager ... | nutch 01 认识nutch

2013-10-27 18:49
浏览 948
评论(1)
分类:编程语言
查看更多

1 楼 cphmvp 2013-11-25

再顶

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

nutch 02 其它与nutch有关的工具说明

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

nutch 02 其它与nutch有关的工具说明

评论

发表评论

相关推荐

hadoop 单机节点安装

nutch 03 nutch 的安装

nutch 01 认识nutch

最近访客更多访客>>