二、基于SparkSQL-Flow的
分析框架
何为 SparkSQL-Flow
1.一个由普元技术部提供的基于 SparkSQL 的开发模型;
2.一个可二次定制开发的大数据开发框架,提供了灵活的可扩展 API;
3.一个提供了 对文件,数据库,NoSQL、流处理等统一的数据开发模式;
4.基于 SQL 的开发语言和 XML 的模板配置,支持 SparkSQL UDF 的扩展管理;
5.支持基于 Spark Standlone,Yarn,Mesos 资源管理平台;
6.支持多种平台Kerberos认证(开源、华为、星环)等平台统一认证;
SparkSQL Flow XML 概览
用户只需要定义 Source,Transformer,Target 几个核心组件:
1.Source 数据源:支持Data、DB、File、NoSQL、MQ 等众多源;
2.Transformer 为上述定义的数据源和已有的Transformer 间的组合操作,一般为SQL;
3.Target 为输出目标,支持show、DB、File、NoSQL、MQ 等众多目标,支持类型基本和源相同;
4.用户可以在Properties定义一些变量,作为Source/Transformer/Target 的宏替换;
SparkSQL Flow 适合的场景
1.批量 ETL;
2.非实时分析服务;
3.流式 ETL;
支持从多种获得数据源:
1.支持文件:JSON、TextFile(CSV)、ParquetFile、AvroFile
2.大数据:Hive、HDFS
3.支持RDBMS数据库:PostgreSQL、 MySQL、Oracle
4.支持 NOSQL 数据库:Hbase、MongoDB、Redis
5.Streaming:JMS、AMQP、Kafka、Socket