全网知识馆 互联网 尚硅谷2020大数据课程

尚硅谷2020大数据课程

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据学习路线:
文件存储:Hadoop HDFS、Tachyon、KFS
离线计算:Hadoop MapReduce、Spark
流式、实时计算:Storm、Spark Streaming、S4、Heron
K-V、NOSQL数据库:HBase、Redis、MongoDB
资源管理:YARN、Mesos
日志收集:Flume、Scribe、Logstash、Kibana
消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ
查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
分布式协调服务:Zookeeper
集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager
数据挖掘、机器学习:Mahout、Spark MLLib
数据同步:Sqoop
任务调度:Oozie

尚硅谷2020大数据课程

数据生产

数据的生产方式多种多样,不管你是在服务器上埋点收集日志,还是直接采集数据到数据库,或者通过爬虫爬取数据,调用第三方接口等都可以生产大量的数据。生产数据很简单,但是要保证数据的有效性和可靠性就需要花费大量的精力去维护了。数据的生产是进行各种业务的源头,没有数据就没法进行分析和挖掘。

1.日志埋点收集

日志收集是在集群中每台服务器安装日志收集客户端,最后把日志汇总收集到服务端,注意客户端一定要限制CPU占用率、网络带宽,同时要定期清理日志或者做成滚动日志,日志采用异步的方式传输,一般会有延迟,如果日志堆积,可能面临日志丢失风险。

2.数据采集

由客户行为或者传感器收集数据,上传到服务器并且保存到数据库。

3.爬虫

爬虫会有针对性的抓取互联网上的公共数据。

4.数据接入

可以通过服务访问第三方的数据,接入数据或者提供数据接入的时候一定要评估好容量。避免过多的访问导致服务奔溃。

数据管理

数据管理包括2部分,一部分是对数据的信息进行管理,即对数据的基础信息做存储,方便查找对应的数据,类似图书馆的图书管理系统。另一部分就是根据数据的结构和对应的场景,保存数据到对应的数据库中。

1.元信息管理

MySQL

2.数据库

Hadoop
Hbase [Vedio] – 尚硅谷HBase教程(hbase框架快速入门)
MySQL [Vedio] – MySQL从入门到精通视频教程 (46集全)
Redis [Vedio] – 尚硅谷Redis视频教程
图数据库 [Vedio] – Neo4j图数据库实战

数据处理

数据的处理包括2部分,一部分是离线计算,这部分的数据对实时性的要求不是太高,处理完的数据可以T+1,T+2, T+7上线。另一部分是在线实时计算,对数据实时性要求高的场合,如风控、营销、推荐等场合。

1.离线计算

apache spark [Vedio] – 尚硅谷大数据Spark-2019版最新

2.实时计算

apache flink [Vedio] – 尚硅谷_2019最新 大数据工程师 Flink技术与实战
apache storm

数据可视化

数据可视化分为数据生产的可视化,还有数据展示的可视化,数据的整个流向等。比较典型的例子是数据看板。

1.开源库

d3.js [Vedio] – 数据可视化教程@基于D3.js

2.可视化工具

数据分析

数据分析主要是对上述生成好的数据制定一些测量,可以用统计学的方法,也可以采用机器学习的方法,也可以采用图表进行辅助。数据分析就是为了得出一些结论,或者方法来处理数据,或者指导公司的发展。

1.数据分析工具

python pandas
excel

2.分析结果

规则
模型

联系我们

联系我们

在线咨询: QQ交谈

邮箱: xzbok@126.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部