Stark大数据治理引擎 [2.2.0] 重磅更新!基于二进制安装包,无需任何配置,解压即用!
- 全量功能免费开放,支持批流一体的数据集成和数据分析,支持CDC实时数据采集、机器学习算法模型、数据质量校验、数据标注、敏感数据识别、数据建模、算法建模和OLAP数据分析
- 零编码,零技术门槛,仅需配置规则文件即可完成一站式的大数据治理任务,人人都可以成为大数据治理专家
- 自带集群内核,支持本地模式、集群模式提交任务,集群节点支持动态扩容,可满足百亿级的多源异构数据处理需求
- 支持30+数据源,涵盖关系型数据库、NoSQL数据库、MPP数据库、数据湖、消息中间件、图数据库、空间数据库、时序库、分布式文件等
- 内置20+机器学习算法,包括分类算法、回归算法、聚类算法和推荐算法等,未来还会融入深度学习以及自然语言处理算法等
- 内置50+数据质量校验规则,涵盖
[完整性、唯一性、准确性、及时性、有效性、一致性]六种校验维度,支持对各种离线和实时数据进行数据质量监测,同时生成校验报告
- 内置
[人、地、事、物、网、情、组织]七大类数据要素,支持自动化数据标注,可对100+敏感类型数据进行自动识别,用于数据安全管控和动态脱敏等场景
- 点击下载安装包:stark-2.2.0.tgz
- 将安装包上传到服务器,执行
tar -zxvf stark-2.2.0.tgz 命令解压完成安装,解压后的目录结构及说明如下
stark-2.2.0
/bin # 命令行工具,Stark引擎启动入口
/conf # 引擎配置文件
/connect # CDC数据采集插件
/data # 样例数据,包括机器学习训练及预测样本等
/examples # 规则文件示例,涵盖离线、实时、批流一体、机器学习、数据质量校验、敏感数据识别等规则示例
/jars # 依赖包
/kafka-logs # kafka数据目录
/logs # 引擎执行日志
/rule # 规则文件目录
/sbin # 管理工具,Stark集群管理命令
/stark-events # 事件执行日志
/zkdata # zookeeper数据目录
- 修改
rule/rule.json 规则文件,指定 source 和 sink 中的数据源连接信息,执行 bin/stark-run 命令启动任务
- 支持多种任务提交方式,可按照实际需求自由选择,以下为
stark-run 命令行示例
Examples:
1.以默认配置文件和规则文件运行
$ stark-run
2.自定义规则文件
$ stark-run --rule ../rule/rule.json
3.自定义配置文件和规则文件
$ stark-run --config ../conf/stark.properties --rule ../rule/rule.json
4.以本地模式提交任务
$ stark-run --master local[*]
5.提交任务到SPARK独立集群
$ stark-run --master spark://host:port --deploy-mode cluster
6.提交任务到YARN集群
$ stark-run --master yarn --deploy-mode cluster --queue default
- 任务执行结束后,查看
sink 节点指定的数据连接及输出,验证数据是否写入成功
- 新增
stark-check引擎规则文件校验工具,支持对引擎规则文件的配置信息进行有效性验证,使用方式如下
Examples:
1.检测默认引擎规则文件的有效性
$ stark-check
2.检测自定义引擎规则文件的有效性
$ stark-check --rule ../rule/rule.json
校验成功示例:$ stark-check --rule ../rule/batch.json
输出信息:
待校验引擎规则文件:/opt/stark-2.2.0/rule/batch.json
=======================================================================
信息:Stark引擎规则文件[/opt/stark-2.2.0/rule/batch.json]配置正确
=======================================================================
校验失败示例:$ stark-check --rule ../rule/batch.json
输出信息:
待校验引擎规则文件:/opt/stark-2.2.0/rule/batch.json
=======================================================================
错误:Stark引擎规则文件[/opt/stark-2.2.0/rule/batch.json]配置有误,请参阅以下信息进行格式检查
- $.source[0]: 未找到所需属性“identifier”
- $.source[0]: 未找到所需属性“name”
- $.source[0]: 未找到所需属性“type”
- $.source[0]: 未找到所需属性“mode”
=======================================================================
联系方式
- 通过以下方式了解更多关于Stark大数据治理引擎的相关信息,也可接受各种定制化开发需求↓↓↓
- WeChat:xxx-hx-xxx(潇湘夜雨)
- Email:hexing_xx@163.com