词条信息

admin
超级管理员
版本创建者 发短消息   
简易百科旧版 >> 学习大数据知识要学什么? >> 历史版本

最新历史版本 :学习大数据知识要学什么? 返回词条



目录

学习大数据需要的基础回目录


1、java SE、EE(SSM)

    90%的大数据框架都是Java写的

2、MySQL

    SQL on Hadoop

3、Linux

    大数据的框架安装在Linux操作系统


需要学什么回目录


大数据离线分析

 

    一般处理T+1数据(T:可能是1天、一周、一个月、一年)

    a、Hadoop :一般不选用最新版本,踩坑难解决

        (common、HDES、MapReduce、YARN)

        环境搭建、处理数据的思想

    b、Hive:大数据的数据仓库

        通过写SQL对数据进行操作,类似于MySQL数据库的sql

    c、HBase:基于HDFS的NOSQL数据库

        面向列存储

    d、协作框架:

        sqoop(桥梁:HDFS《==》RDBMS)

        flume:搜集日志文件中的信息

    e、调度框架

        anzkaban

        了解:crotab(Linux自带)

        zeus(Alibaba)

        Oozie(cloudera)

    f、前沿框架扩展:

            kylin、impala、ElasticSearch(ES)

 

 

大数据实时分析

 

    以spark框架为主

    Scala:OOP(面向对象程序设计)+FP(函数是程序设计)

    sparkCore:类比MapReduce

    sparkSQL:类比hive

    sparkStreaming:实时数据处理

    kafka:消息队列

    前沿框架扩展:flink

        阿里巴巴:blink

 

大数据机器学习

 

    spark MLlib:机器学习库

    pyspark编程:Python和spark的结合

    推荐系统

    python数据分析

    python机器学习