DataFrame是一种以RDD为基础的分布式数据集,因此DataFrame可以完成RDD的绝大多数功能,在开发使用时,也可以调用方法将RDD和DataFrame进行相互转换。 查看全文>>
大数据技术文章2021-03-23 |传智教育 |DataFrame是什么,SchemaRDD,DataFrame与RDD区别
Spark作为开源项目,外部开发人员可以针对项目需求自行扩展Catalyst优化器的功能。要想很好地支持SQL,就需要完成解析(Parser)、优化(Optimizer)、执行(Execution)三大过程。Catalyst优化器在执行计划生成和优化的工作时候,它离不开自己内部的五大组件,具体介绍如下所示。 查看全文>>
大数据技术文章2021-03-23 |传智播客 |Spark SQL,Spark SQL架构的工作原理和工作流程,Catalyst优化器
在数据科学应用中,数据工程师可以利用Spark进行数据分析与建模,由于Spark具有良好的易用性,数据工程师只需要具备一定的SQL语言基础、统计学、机器学习等方面的经验,以及使用Python、Matlab或者R语言的基础编程能力,就可以使用Spark进行上述工作。 查看全文>>
大数据技术文章2021-03-12 |传智教育 |Spark,大数据,数据处理
同一个事件类型在不同的连接状态中代表的含义有所不同,当客户端断开连接,这时客户端和服务器的连接就是Disconnected状态,说明连接失败;当客户端和服务器的某一个节点建立连接,并完成一次version、zxid的同步,这时客户端和服务器的连接状态就是SyncConnected,说明连接成功; 查看全文>>
大数据技术文章2021-03-11 |传智教育 |Watch机制的通知状态与事件类型简介
Hadoop可以存储多种文件格式。在存储结构上,SequenceFile主要由一个Header后跟多条Record组成,Header主要包含了Key classname,value classname,存储压缩算法,用户自定义元数据等信息。 查看全文>>
大数据技术文章2021-03-11 |传智教育 |Sequence File
随着Hadoop的不断发展,Hadoop生态体系越来越完善,现如今已经发展成一个庞大的生态体系,Hadoop生态体系包含了很多子系统,下面介绍一些常见的子系统,具体如下: 查看全文>>
大数据技术文章2021-03-11 |传智教育 |Hadoop生态圈子系统
在Scala中,它和Java一样也是拥有方法和函数。Scala的方法是类的一部分,而函数是一个对象可以赋值给一个变量。换句话来说,在类中定义的函数即是方法。 查看全文>>
大数据技术文章2021-03-08 |传智教育 |Scala的方法和函数