Spark 大数据处理最佳实践

来源:简锋 阿里云云栖号 日期:2021-07-21

内容框架:

大数据概览
如何摆脱技术小白
Spark SQL 学习框架
EMR Studio 上的大数据最佳实践

一、大数据概览

大数据处理 ETL (Data → Data)
大数据分析 BI (Data → Dashboard)
机器学习 AI (Data → Model)

二、如何摆脱技术小白

什么是技术小白?

只懂表面,不懂本质
比如:只懂得参考别人的 Spark 代码,不懂得 Spark 的内在机制,不懂得如何调优 Spark Job

摆脱技术小白的药方

懂得运行机制
学会配置
学会看 Log

懂得运行机制:Spark SQL Architecture

学会配置:如何配置 Spark App

配置 Driver

spark.driver.memory

spark.driver.cores

配置 Executor

spark.executor.memory

spark.executor.cores

配置 Runtime

spark.files

spark.jars

配置 DAE
…..........
学会看 Log:Spark Log

三、Spark SQL 学习框架

Spark SQL 学习框架( 结合图形/几何)

1. Select Rows

2. Select Columns

3. Transform Column

4. Group By / Aggregation

5. Join

Spark SQL 执行计划

1. Spark SQL - Where

2. Spark SQL - Group By

3. Spark SQL - Order by

四、EMR Studio 实践

EMR Studio 特性:

兼容开源组件
支持连接多个集群
适配多个计算引擎
交互式开发 + 作业调度无缝衔接
适用多种大数据应用场景
计算存储分离

1. 兼容开源组件

EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。

2. 支持连接多个集群

一个 EMR Studio 可以连接多个 EMR 计算集群,您可以很方便地切换计算集群,提交作业到不同的计算集群上运行。

    A+
声明:本文转载自其它媒体,转载目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。