为了实现公司项目对海量业务数据、文件进行存储,系统间共享,并且达到以下几点要求,可行方案hadoop集群。
数据安全???需要实现数据冗余,避免数据的单点故障??可线性扩展???当数据增长到TB、甚至PB以上时,存储方案需要支持可线性扩展??存储高可用???某个存储服务宕掉时,不影响整体存储方案的可用??性能???性能达到应用要求
目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)。
Hortonworks版本(HortonworksDataPlatform,简称“HDP”)。

(1)Apache版本建议学习使用,不建议在生产环境使用。
(2)Hortonworks主打产品是HortonworksDataPlatform(HDP),也同样是100%开源的产品,HDP除了常见的项目外还包含了Ambari,一款开源的安装和管理系统。HCatalog,一个元数据管理系统。
(3)Cloudera最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目,Cloudera有免费版和企业版,企业版只有60天试用期,不过基本上免费版也满足生产环境的使用,监控工具为中文,不过Cloudera的代码不开源,只能通过产生本身的BUG修改补丁升级等。
需求使用到的分别为ApacheAmbari和HDP和HDP-UTILS。
ApacheAmbari是一个基于web的工具,用于配置、管理和监视ApacheHadoop集群,支持HadoopHDFS,、HadoopMapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。
HDP是hortonworks的软件栈,里面包含了hadoop生态系统的所有软件项目,比如HBase,Zookeeper,Hive,Pig等等。
本文地址:https://www.idcbaba.com/duli/4305.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 1919100645@qq.com 举报,一经查实,本站将立刻删除。



