[bigdata-044] CDH的官方文档部分翻译未整理且未完成

1. cloudera官网 http://www.cloudera.com/ 2. cloudera文档 http://www.cloudera.com/documentation.html 3. 文档分为三个部分   3.1 cloudera enterprise: cdh,cloudera manger,search,impala,spark。   3.2 cloudera director: 安装指南,配置,以及使用cloudera director   3.3 apache kafka: 安装,管理,使用 4. cloudera enterprise文档   4.1 选择版本5.7,它对应的所有文档都在     http://www.cloudera.com/documentation/enterprise/5-7-x/topics/cdh_intro.html   4.2 下文都是按照这个文档的大小类撰写。 ----------------------------------------------------- 1. cloudera introduction   1.1 cdh overview     1.1.1 cdh就是好啦就是好。一张架构图http://www.cloudera.com/documentation/enterprise/5-7-x/images/xcdh.png.pagespeed.ic.iqEqmMFnIn.png。     1.1.2 impala overview:为hdfs,hbase,s3提供快速交互式的sql查询。impala和hive使用相同的metadata,近似的语法,支持odbc,都可以以hue为用户界面。         impala的结构一张图http://www.cloudera.com/documentation/enterprise/5-7-x/images/impala_arch.jpeg。client: hue,odbc,jdbc,impala shell; hive metastore: 元数据; impala--进程,运行在每个datanode节点,提供query处理; hbase和hdfs:存储数据。         impala的sql支持sql92。         imapa的安全:kerberos。     1.1.3 cloudera search overview       提供近实时的检索,检索存储在hdfs和hbase的数据。近实时索引,批量索引,全文检索,钻取导航,并提供各种接口。       基于apache solr,包括lucene,solrcloud,apache tika,solr cell。       索引创建在hdfs上; 用mapred创建批量索引; 近实时索引:事件从flume进入存储写入hdfs,事件会被直接写入到索引。       集成Apache tika从各种文件类型html,doc,pdf,json,xml,avro,hadoop sequence,snappy里取出结构化数据和元数据。       Lily HBase Indexer Service:能对hbase进行建立索引和搜索。       clouder search 架构:分布式的,检索内容被分拆成小份多副本存储在多个服务器; 需要zookeeper,hdfs,solr安装; client以http提交查询,namenode将response发给datanode, datanode将request发给临近的主机做查询,查询结果汇集后发给client;     1.1.4 Apache Sentry Overview: 可插入式、精确控制细节、基于角色的安全控制,管理 hive,hive metastore,hcatalog,solr,hdfs。     1.1.5 Apache Spark Overview: 高性能计算框架,批量和交互式计算。sql, streaming,mllib, graphx。     1.1.5 文件格式和压缩:cdh支持hadoop所有文件格式; avro和parquet。     1.1.6 外部文档:这里列出了非常多的hadooop生态的开源软件。     1.2 cludera manager 5 overview     1.2.1 overview       web界面,管理整个cdh技术栈。       一个cloudera manager可以管理多个cdh集群,但一个cdh集群只能被一个cloudera manager管理。一个cloudera manager,是一个逻辑整体,它包括一组主机host,一个指定的chd版本,以及相应的服务实例和角色实例。       host:一个物理机或者虚拟机,上面运行角色实例。       rack: 机架,管理多个物理机。       service: 一个服务功能,比如mapreduce,yarn,spark,accumulo等等。       servrice insatance: 运行service的instance,比如yarn和hdfs-1。       role: 比如说,hdfs是一个service,而namenode,secondary namenode,datanode,balace等等就是role。       role instance: 运行role的实例,比如说,datanode-h1,namenode-h1等等。       role group: 一组role instances的配置数据。       host template: 一组role grops。当一个template应用到一个host,那么就创建了每一个role group的一个role instance,且被关联到这个host。       gratway: 如果一个host上的role需要一个服务,但这个服务在这个host上没有,那么,这个role就需要一个连接到它需要的role的client配置。       parcel: 一个二进制发行格式包括编译后代码,meta信息比如包描述,包版本,依赖项等等。       static service pool:静态资源,比如cpu,内存, io等等。       架构:核心是cloudera manager server,它上面有admin console web server和应用逻辑,安装软件,配置,启动和停止服务,管理整个集群; 每个host上有个一个agent负责起停进程诸多管理; databaase负责存储; managerment service管控诸多roles; cloudera repository存放要安装的软件; clinent有两种,admin console和api。       agent每15秒发心跳给cloudera manger server。       State Management:model态是静态的,runtime是动态的,修改了前者要重启后者。       Configuration Management:cloudera manager管理集群,并不是读取传统上的配置文件,比如你修改/etc/hadoop/conf再重启hdfs是无效的。clouder manager区分server配置和client配置,比如,对hdfs而按,如果你作为一个client读取hdfs那么你可以使用/etc/hadoop/conf/hdfs-site.xml,但是,hdfs role instance比如namenode和datanode,都放在自己私有的配置目录,形如 /var/run/cloudera-scm-agent/process/unique-process-name。       ... 这里有非常多的内容          1.2.2 cloudera manager admin conslole            1.2.3 coludera manager api     1.2.4 扩展cloudera manager   1.3 cloudera navigate 2 overview   1.4 faq about cloudera software   1.5 getting support 2. cloudera realease notes 3. cloudera quickstart 4. cloudera install and update 5. cloudera administration 6. cloudera data management 7. cloudera operation 8. cloudera security 9. impala guide 10. cloudera search guid 11. spark guide 12. cloudera glossary

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读5.3k次,点赞10次,收藏39次。本章详细写了mysql的安装,环境的搭建以及安装时常见的问题和解决办法。_mysql安装及配置超详细教程
文章浏览阅读1.8k次,点赞50次,收藏31次。本篇文章讲解Spark编程基础这门课程的期末大作业,主要围绕Hadoop基本操作、RDD编程、SparkSQL和SparkStreaming编程展开。_直接将第4题的计算结果保存到/user/root/lisi目录中lisipi文件里。
文章浏览阅读7.8k次,点赞9次,收藏34次。ES查询常用语法目录1. ElasticSearch之查询返回结果各字段含义2. match 查询3. term查询4. terms 查询5. range 范围6. 布尔查询6.1 filter加快查询效率的原因7. boosting query(提高查询)8. dis_max(最佳匹配查询)9. 分页10. 聚合查询【内含实际的demo】_es查询语法
文章浏览阅读928次,点赞27次,收藏18次。
文章浏览阅读1.1k次,点赞24次,收藏24次。作用描述分布式协调和一致性协调多个节点的活动,确保一致性和顺序。实现一致性、领导选举、集群管理等功能,确保系统的稳定和可靠性。高可用性和容错性Zookeeper是高可用的分布式系统,通过多个节点提供服务,容忍节点故障并自动进行主从切换。作为其他分布式系统的高可用组件,提供稳定的分布式协调和管理服务,保证系统的连续可用性。配置管理和动态更新作为配置中心,集中管理和分发配置信息。通过订阅机制,实现对配置的动态更新,以适应系统的变化和需求的变化。分布式锁和并发控制。
文章浏览阅读1.5k次,点赞26次,收藏29次。为贯彻执行集团数字化转型的需要,该知识库将公示集团组织内各产研团队不同角色成员的职务“职级”岗位的评定标准;
文章浏览阅读1.2k次,点赞26次,收藏28次。在安装Hadoop之前,需要进行以下准备工作:确认操作系统:Hadoop可以运行在多种操作系统上,包括Linux、Windows和Mac OS等。选择适合你的操作系统,并确保操作系统版本符合Hadoop的要求。安装Java环境:Hadoop是基于Java开发的,因此需要先安装和配置Java环境。确保已经安装了符合Hadoop版本要求的Java Development Kit (JDK),并设置好JAVA_HOME环境变量。确认硬件要求:Hadoop是一个分布式系统,因此需要多台计算机组成集群。
文章浏览阅读974次,点赞19次,收藏24次。# 基于大数据的K-means广告效果分析毕业设计 基于大数据的K-means广告效果分析。
文章浏览阅读1.7k次,点赞6次,收藏10次。Hadoop入门理论
文章浏览阅读1.3w次,点赞28次,收藏232次。通过博客和文献调研整理的一些农业病虫害数据集与算法。_病虫害数据集
文章浏览阅读699次,点赞22次,收藏7次。ZooKeeper使用的是Zab(ZooKeeper Atomic Broadcast)协议,其选举过程基于一种名为Fast Leader Election(FLE)的算法进行。:每个参与选举的ZooKeeper服务器称为一个“Follower”或“Candidate”,它们都有一个唯一的标识ID(通常是一个整数),并且都知道集群中其他服务器的ID。总之,ZooKeeper的选举机制确保了在任何时刻集群中只有一个Leader存在,并通过过半原则保证了即使部分服务器宕机也能维持高可用性和一致性。
文章浏览阅读10w+次,点赞62次,收藏73次。informatica 9.x是一款好用且功能强大的数据集成平台,主要进行各类数据库的管理操作,是使用相当广泛的一款ETL工具(注: ETL就是用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)到目的端的过程)。本文主要为大家图文详细介绍Windows10下informatica powercenter 9.6.1安装与配置步骤。文章到这里就结束了,本人是在虚拟机中装了一套win10然后在此基础上测试安装的这些软件,因为工作学习要分开嘛哈哈哈。!!!!!_informatica客户端安装教程
文章浏览阅读7.8w次,点赞245次,收藏2.9k次。111个Python数据分析实战项目,代码已跑通,数据可下载_python数据分析项目案例
文章浏览阅读1.9k次,点赞61次,收藏64次。TDH企业级一站式大数据基础平台致力于帮助企业更全面、更便捷、更智能、更安全的加速数字化转型。通过数年时间的打磨创新,已帮助数千家行业客户利用大数据平台构建核心商业系统,加速商业创新。为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,依托于TDH强大的技术底座,星环科技推出TDH社区版(Transwarp Data Hub Community Edition)版本,致力于为企业用户、高校师生、科研机构以及其他专业开发人员提供更轻量、更简单、更易用的数据分析开发环境,轻松应对各类人员数据分析需求。_星环tdh没有hive
文章浏览阅读836次,点赞21次,收藏19次。
文章浏览阅读1k次,点赞21次,收藏15次。主要介绍ETL相关工作的一些概念和需求点
文章浏览阅读1.4k次。本文以Android、java为开发技术,实现了一个基于Android的博物馆线上导览系统 app。基于Android的博物馆线上导览系统 app的主要使用者分为管理员和用户,app端:首页、菜谱信息、甜品信息、交流论坛、我的,管理员:首页、个人中心、用户管理、菜谱信息管理、菜谱分类管理、甜品信息管理、甜品分类管理、宣传广告管理、交流论坛、系统管理等功能。通过这些功能模块的设计,基本上实现了整个博物馆线上导览的过程。
文章浏览阅读897次,点赞19次,收藏26次。1.背景介绍在当今的数字时代,数据已经成为企业和组织中最宝贵的资源之一。随着互联网、移动互联网和物联网等技术的发展,数据的产生和收集速度也急剧增加。这些数据包括结构化数据(如数据库、 spreadsheet 等)和非结构化数据(如文本、图像、音频、视频等)。这些数据为企业和组织提供了更多的信息和见解,从而帮助他们做出更明智的决策。业务智能(Business Intelligence,BI)...
文章浏览阅读932次,点赞22次,收藏16次。也就是说,一个类应该对自己需要耦合或调用的类知道的最少,类与类之间的关系越密切,耦合度越大,那么类的变化对其耦合的类的影响也会越大,这也是我们面向对象设计的核心原则:低耦合,高内聚。优秀的架构和产品都是一步一步迭代出来的,用户量的不断增大,业务的扩展进行不断地迭代升级,最终演化成优秀的架构。其根本思想是强调了类的松耦合,类之间的耦合越弱,越有利于复用,一个处在弱耦合的类被修改,不会波及有关系的类。缓存,从操作系统到浏览器,从数据库到消息队列,从应用软件到操作系统,从操作系统到CPU,无处不在。
文章浏览阅读937次,点赞22次,收藏23次。大数据可视化是关于数据视觉表现形式的科学技术研究[9],将数据转换为图形或图像在屏幕上显示出来,并进行各种交互处理的理论、方法和技术。将数据直观地展现出来,以帮助人们理解数据,同时找出包含在海量数据中的规律或者信息,更多的为态势监控和综合决策服务。数据可视化是大数据生态链的最后一公里,也是用户最直接感知数据的环节。数据可视化系统并不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据,有新的发现,发现这些数据所反映的实质。大数据可视化的实施是一系列数据的转换过程。