Giter Club home page Giter Club logo

nxliu / jiron-cloud Goto Github PK

View Code? Open in Web Editor NEW

This project forked from 642933588/jiron-cloud

1.0 0.0 0.0 3.26 MB

该项目整合了多款优秀的开源产品,构建了一个功能全面的数据开发平台。平台提供了强大的数据集成、数据开发、数据查询、数据服务、数据质量管理、工作流调度和元数据管理功能。#dinky #dolphinscheduler #datavines #flinkcdc #openmetadata #flink #数据开发 #数据平台 # 数据开发平台 #大数据

License: MIT License

Shell 0.15% JavaScript 9.45% Java 52.99% HTML 1.78% Batchfile 0.16% Vue 34.31% SCSS 1.16%

jiron-cloud's Introduction

数据开发平台

该项目整合了多款优秀的开源产品,构建了一个功能全面的数据开发平台。平台提供了强大的数据集成、数据开发、数据查询、数据服务、数据质量管理、工作流调度和元数据管理功能。dinky ,dolphinscheduler ,datavines ,flinkcdc ,openmetadata ,flink ,数据开发 ,数据平台 ,数据开发平台 ,大数据

目录

功能

数据质量管理 (Datavines)

  • 数据质量监控:定义和执行数据质量规则,如空值检测、重复值检测、范围检查等,确保数据的准确性和完整性。
  • 告警和通知:当数据质量出现问题时,Datavines 通过电子邮件、短信等方式发送告警通知,确保相关人员能够及时响应和处理问题。
  • 数据治理:支持数据分类、标签和权限管理,确保数据的合规性和安全性。
  • 数据质量报告:生成详细的数据质量报告,帮助用户了解和改进数据质量。

工作流调度 (DolphinScheduler)

  • 分布式架构:处理大规模的数据处理任务,确保系统的高可用性和扩展性。
  • 任务依赖管理:定义复杂的任务依赖关系,确保任务按照预定的顺序执行。
  • 丰富的任务类型:支持多种类型的任务,包括 Shell、Python 脚本、SQL、MapReduce、Spark、Flink 等。
  • 可视化工作流设计:提供直观的图形化用户界面,通过拖拽方式设计和配置工作流。
  • 任务调度:支持灵活的调度策略,包括定时调度、依赖触发、手动触发等。
  • 任务监控与告警:实时监控任务的执行状态,并提供告警通知功能,确保问题及时处理。
  • 资源管理:管理任务所需的资源,确保资源合理分配和使用。

元数据管理 (OpenMetadata)

  • 元数据管理:捕获和存储各种数据资产的元数据,包括表、列、数据集、仪表板、机器学习模型等。
  • 数据发现:提供强大的数据发现工具,帮助用户搜索和发现企业内的数据资源。
  • 数据血缘分析:支持详细的数据血缘分析,显示数据的来源和流向,提高数据透明度。
  • 数据治理:定义和执行数据治理策略,包括数据分类、标签、访问控制、合规性检查等。
  • 数据质量管理:与 Datavines 集成,监控和管理数据质量,检测数据中的错误和异常。
  • 集成与互操作性:支持与多种数据源和数据工具的集成,适应多样化的数据环境。
  • API 和 SDK:提供丰富的 API 和 SDK,支持开发者扩展和定制功能。
  • 可视化界面:提供用户友好的可视化界面,便于浏览和管理元数据,查看数据血缘关系图,配置数据治理策略等。

实时数据处理 (Dinky)

  • 实时数据处理:Dinky 提供了强大的实时数据处理能力,支持 Flink 等流处理框架。
  • 实时计算任务:用户可以定义和执行实时计算任务,处理实时数据流。
  • 数据集成:支持多种数据源和目标,能够将实时数据流集成到不同的数据系统中。
  • 可视化开发:提供直观的图形化界面,用户可以通过拖拽方式设计和配置实时计算任务。
  • 监控与告警:实时监控数据流处理状态,并在出现异常时提供告警通知。
  • 高可用性:设计了高可用性和容错机制,确保实时数据处理的稳定性和可靠性。

数据集成

  • 多数据源支持:支持多种数据源的集成,包括数据库、API、文件系统等,能够灵活应对不同的数据来源。
  • 多执行引擎支持:支持多种执行引擎,包括 DataX、Sqoop、Flink CDC,满足不同场景的数据同步需求。
  • 全库同步:支持整个数据库的同步,方便全面的数据迁移和复制。
  • 多表同步:支持多表同步,简化复杂的数据集成任务。
  • 全量和增量同步:提供全量和增量同步功能,实现数据的一体化同步。
  • 断点续传:支持断点续传机制,确保数据集成过程的可靠性和稳定性。

数据查询

  • 灵活高效的数据查询:基于 Kyuubi 提供灵活高效的数据查询功能,支持 SQL 和非 SQL 查询,满足各种数据检索需求。
  • 多数据源支持:支持多种数据源的数据查询,适用于不同的数据存储系统。
  • 高性能:优化的查询引擎,确保数据查询的高性能和低延迟。

数据分析

  • 集成多种数据分析工具:集成多种数据分析和可视化工具,帮助用户快速获取洞见。
  • 可视化分析:提供丰富的可视化组件,用户可以通过图表、仪表板等方式展示分析结果。
  • 高级分析功能:支持机器学习模型、统计分析等高级分析功能,满足复杂数据分析需求。

数据服务

  • 数据服务接口:提供数据服务接口,支持 RESTful API 和 GraphQL,方便数据的对外提供和集成。
  • 灵活的数据访问:通过 API 提供灵活的数据访问方式,满足不同应用和系统的集成需求。
  • 高可用性和安全性:设计了高可用性和安全性机制,确保数据服务的可靠性和数据的安全性。

架构

架构图

安装

加入知识星球,获取部署资料

演示

首页

0

系统管理

0-0

数据开发

0-0 0-1 0-2 0-3 1-0 1-1 1-2 2-0 3-0 4-0 5-0 5-1 5-2 6-0 6-1 6-2 6-3 6-4 6-5

工作流开发

0-0 0-1 0-2 0-3 0-4 0-5 0-6 1-0 2-0 3-0 4-0 4-1 4-2 4-3

数据质量

0 1 2 3-1 3 4 5 6 7 8

数据资产

0-1 0-2 1-1

1-2 1-3 1-4 1-5 1-6 1-8 1-9 1-10 1-7 2-1 2-2 2-3 3-1 4-1 5-1 6-1 9-1 9-2

实践

《实时数仓(数据湖)实战》是一个以电商系统为基础,围绕电商业务指标统计需求而构建的实时数仓(数据湖)项目,涉及组件flink、paimon、doris、seatunnel、dolphinscheduler、datart、dinky、hudi、iceberg。通过该项目,可以快速掌握实时数仓(数据湖)基本概念、数仓分层构建步骤及所涉及各类大数据组件实战用法。代码地址:https://github.com/Mrkuhuo/data-warehouse-learning

贡献指南

我们欢迎任何形式的贡献!如果你有好的建议或发现了问题,请提交一个 Issue 或 Pull Request。 提供或赞助云服务器资源搭建云学习环境。

许可

本项目采用 MIT 许可证。详情请参阅 LICENSE

联系我们

WechatIMG182

image

jiron-cloud's People

Contributors

yangzongzhuan avatar runphp avatar dokiyoloo avatar 642933588 avatar 3440626 avatar richmoster avatar javalionli avatar rrge avatar dazer007 avatar ottttto avatar t-aest avatar twelvet-s avatar cccggglll888 avatar huyikai avatar 819589789 avatar east333 avatar chy-study avatar muxuanya avatar meetshawn avatar zhangmrit avatar ok1996 avatar xlongwei avatar ysjqaz avatar zhangbokang avatar 15678871232 avatar liujidong avatar 380862139 avatar zhouyifenggit avatar lvwshuai avatar liguonan avatar

Stargazers

naixin liu avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.