要规划的Spark集群包含一台Master节点和两台Slave节点。其中,主机名hadoop01是Master节点,hadoop02和hadoop03是Slave节点。接下来,分步骤演示Spark集群的安装与配置,具体如下。 查看全文>>
大数据技术文章2020-10-29 |传智播客 |Spark的集群安装与配置简介
Scala是Scalable Language的简称,它是一门多范式的编程语言,其设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。 查看全文>>
大数据技术文章2020-10-28 |传智播客 |Scala发展历程简介
IDEA工具可以自动识别代码错误和进行简单的修复、以及IDEA工具内置了很多优秀的插件,所以现在大多数的Scala开发程序员都会选择IDEA作为开发Scala的工具。接下来,以Window操作系统为例,分步骤讲解如何在IDEA工具上下载安装Scala插件,具体步骤如下: 查看全文>>
大数据技术文章2020-10-28 |传智播客 |如何下载安装Scala插件
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库,它起源于2006年Google发表的BigTable论文。在2008年,PowerSet的Chad Walters和Jim Keller受到了该论文思想的启发,从而把HBase作为Hadoop的子项目来进行开发维护,用于支持结构化的海量数据存储。 查看全文>>
大数据技术文章2020-10-28 |传智播客 |HBase分布式数据的特点
Sqoop是Apache旗下的一款开源工具,该项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,并在2013年,独立成为Apache的一个顶级开源项目。 查看全文>>
大数据技术文章2020-10-16 |传智播客 |Sqoop是什么
想要通过外部UI界面访问虚拟机服务,还需要对外开放配置Hadoop集群服务端口号。这里,为了后续学习方便,就直接将所有集群节点防火墙进行关闭即可,具体操作如下。 查看全文>>
大数据技术文章2020-10-16 |传智播客 |Hadoop集群集群的管理和查看
为了更好地理解“分而治之”思想,我们先来举一个生活的例子。例如,某大型公司在全国设立了分公司,假设现在要统计公司今年的营收情况制作年报,有两种统计方式,第1种方式是全国分公司将自己的账单数据发送至总部,由总部统一计算公司今年的营收报表;第2种方式是采用分而治之的思想,也就是说,先要求分公司各自统计营收情况,再将统计结果发给总部进行统一汇总计算。 查看全文>>
大数据技术文章2020-10-16 |传智播客 |MapReduce是如何进行计算的
现代社会的科技的飞速,随之带来数据的飞速增长,增长存储容量、读写速度、计算效率等越来越无法满足用户的需求,为了解决这些问题,于是Google提出了三个处理大数据的技术手段 查看全文>>
大数据技术文章2020-10-16 |传智播客 |Hadoop,Hadoop的发展历程