近年来,大数据不断向世界的各行各业渗透,影响着我们的衣食住行。例如,网上购物时,经常会发现电子商务门户网站向我们推荐商品,往往这类商品都是我们最近需要的。这是因为用户上网行为轨迹的相关数据都会被搜集记录,并通过大数据分析,使用推荐系统将用户可能需要的物品进行推荐,从而达到精准营销的目的。下面简单介绍几种大数据的应用场景。 查看全文>>
大数据技术文章2021-02-01 |传智教育 |哪些行业可以使用大数据
研究大数据有什么意义?研究大数据,最重要的意义是预测。因为数据从根本上讲,是对过去和现在的归纳和总结,其本身不具备趋势和方向性的特征,但是可以应用大数据去了解事物发展的客观规律、了解人类行为,并且能够帮助我们改变过去的思维方式,建立新的数据思维模型,从而对未来进行预测和推测。比如,商业公司对消费者日常的购买行为和使用商品习惯进行汇总和分析,了解到消费者的需求,从而改进已有商品并适时推出新的商品,消费者的购买欲就会提高。 查看全文>>
大数据技术文章2021-02-01 |传智教育 |大数据有什么用,大数据有什么意义
大数据是什么意思?什么是大数据?如果从字面意思来看,大数据指的是巨量数据。大数据的计量单位已经越过TB级别发展到PB、EB、ZB、YB甚至BB级别。 查看全文>>
大数据技术文章2021-02-01 |传智教育 |大数据是什么意思,什么是大数据?
RDD的分区原则是分区的个数尽量等于集群中的CPU核心(Core)数目。对于不同的Spark部署模式而言,都可以通过设置spark.default.prallien这个参数值来配置默认的分区数目。一般而言,各种模式下的默认分区数目如下。 查看全文>>
大数据技术文章2021-01-29 |传智教育 |RDD分区
分层抽样法也叫类型抽样法,它是先将总体样本按照某种特征分为若干次级(层),然后再从每一一层内进行独立取样,组成一个样本的统计学计算方法,接下来,通过Spark-Shell演示分层抽样方法,具体代码如下: 查看全文>>
大数据技术文章2021-01-29 |传智教育 |Spark MLlib分层抽样,什么是分层抽样
当MySQL表中的数据发生了新增或修改变化,需要更新HDFS上对应的数据时,就可以使用Sqoop的增量导入功能。Sqoop目前支持两种增量导入模式:append模式和lastmodified模式。其中,append模式主要针对INSERT新增数据的增量导入;lastmodified模式主要针对UPDATE修改数据的增量导入。 查看全文>>
大数据技术文章2021-01-26 |传智教育 |Sqoop增量导入,MySQL导入数据
安装配置Sqoop,前提是部署Sqoop工具的机器需要具备Java和Hadoop的运行环境首先将下载好的安装包上传至hadoop01主节点的/export/software目录中,并解压至/export/servers路径下,然后对解压包进行重命名,具体指令如下。 查看全文>>
大数据技术文章2021-01-26 |传智教育 |Sqoop,Sqoop的安装和配置