课程详情
掌握能力
掌握企业级基建环境部署、Hive和Spark数据开发、数据仓库搭建、数据抽取、数据清洗、数据转换、数据加载、数据应用和京东离线ETL。
胜任职位
离线数据工程师、数据仓库工程师、ETL工程师、数据采集工程师、数据支持工程师、BI商业分析师、数据可视化工程师、Hadoop工程师、Spark工程师
技术点
Java、MySQL、Maven、Git、OpenResty、Linux、Shell、HDFS、YARN、Zookeeper、MapReduce、Scala、Python、SparkCore、Hive、SparkSQL、Presto、Sqoop、DataX、Flume、CDH、数仓架构、维度建模、SuperSet、Azkaban、Airflow等。掌握企业级基建环境部署、Hive和Spark数据开发、数据仓库搭建、数据抽取、数据清洗、数据转换、数据加载、数据应用和京东离线ETL。
项目
数据服务、大数据可视化、企业级Hadoop基建项目部署、分布式网络爬虫、基于Spark的大数据分析项目、ETL项目之Hive和SparkSQL、BI商业分析等。
掌握能力
掌握流数据接入、基于Flink实时数据开发、流批一体数据仓库开发、数据湖开发、实时ETL、实时监控系统和京东实时数据开发
胜任职位
实时工程师、Flink工程师、实时数据仓库工程师、实时ETL工程师、Spark工程师
技术点
Kafka、Structured Streaming、Hudi、Canal、Flink、ClickHouse、HBase、Phoenix、Elasticsearch、Redis
项目
实时监控系统、基于Flink的实时数据开发、实时数据湖、大数据搜索系统
掌握能力
掌握企业项目开发流程、用户画像开发、企业级推荐系统开发、数据治理、基于生产环境项目部署和京东项目性能调优
胜任职位
数据服务工程师、离线数据仓库开发工程师、BI商业分析师、实时数据仓库工程师、实时监控系统工程师、ETL工程师、数据可视化工程师、数据治理工程师、高级数据开发工程师、推荐工程、数据平台工程师、数据架构师
技术点
数据采集与监控平台、准实时数据仓库、用户画像、推荐系统、基于Flink的实时数据仓库、元数据管理与数据治理。
项目介绍
随着互联网的发展,数据源头越来越多且是分散的,除了业务库,APP 埋点,web 网站 log,LOT 设备等会产生各种各样的海量数据,这些数据在进入数据仓库之前(或之后),需要进行统一(字段定义、主题归属、项目划分等),数据集成在一起。离线数仓的ETL,涵盖数据的抽取转换与加载。
项目目标
在数据仓库中构建模型,从数据源中抽取数据,然后对这些数据进行转化,最终加载到目标数据库或者数据仓库中去,实现离线数仓ETL的过程。
项目介绍
企业信息化发展,数据源丰富,数据量比以往结构化的数据大了几个量级,对 ETL 过程、存储都提出了更高的要求。互联网的在线特性也对实时性提出了要求,如用户反欺诈、用户审核等随着用户的暴涨。实时数据开发,主要是对由用户行为、业务行为等产生的巨大量数据进行实时处理,并应用到生产中。
项目目标
基于分层的模型 ods/dwd/dws/,业务数据和日志数据,事实数据存储在 kafka 中,维度数据存储在 Hbase/Tair 中,dm 层的数据最终导出到 mq/olap/rds/kv 中。ad-hoc 查询基于 Flink 来做。实时数仓的存储需考虑支持数据重放,方便支持任务重跑。选择一个具有重放功能的、能够保存历史数据并支持多消费者的消息队列,根据需求设置历史数据保存的时长,通过实时数据开发,建成实时数仓、实时指标等,支撑企业链路的实时化。
项目介绍
大数据采集与指标监控项目是基于第一阶段和第二阶段课程,贯穿离线数据上报、数据储存、数据服务监控、数据分析等全套流程。整个项目包括Flume自定义拦截器代码、自定义Azkaban监控代码和SQL相关指标代码开发。
项目目标
解决离线数据上报流程,数据采集操作,flume和azkaban的二次开发,数据服务监控,离线数据开发流程。
项目介绍
HDFS+Flume+Sqoop+数仓思想+Spark
SQL/Hive+Azkaban+Python+Shell+Superset大数据离线数仓解决方案。
项目目标
1 采集和同步架构组件采用: Sqoop+Flume
2数仓架构组件采用:HDFS+SparkSQL/Hive
3 任务调度架构采用:Azkaban+Python/Shell
4 涉及到数仓思想: 分层+建模+维度+粒度+拉链+增量/全量+数据质量等
5 本项目中的BI工具: Superset
项目介绍
准实时数仓是一个集流式数据集成,数据分析、DAU预测和数据应用的数仓型项目。整个项目架构为Nginx+OpenResty+Kafka+Spark+Presto等技术构成。
项目目标
解决事件行为分析。
解决企业留存分析。
解决漏斗分析。
解决DAU预测及数据服务提供。
项目介绍
用户画像是基于数仓之上的项目,主要解决画像标签服务,比如人群圈定服务和相似用户搜索服务等。同时标签的处理使用Word2Vec、TF-IDF、HanLP分词等技术。
项目目标
解决企业人群圈定。
解决相似用户搜索。
-
大厂内推
优秀学员简历直推大厂大数据岗位面试,免去和千军万马同抢职位。
-
京东物流共建
与京东物流合作共建,
培养实战型大数据架构师。
-
人才双选
每年超20场双选会,20000余家IT相关企业建立人才输送合作关系。
-
上门招聘
年均1000+企业定期上门招聘,
在毕业班进行人才选拔。
-
求职辅导
剖析大厂面试题重点,提升学员大厂求职能力,规划职业发展路线。
-
入职指导
大厂HR深度指导,
学员职业化素养综合提升训练。