🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
✨奥零数据科技官网:http://www.aolingdata.com
✨AllData开源项目:https://github.com/alldatacenter/alldata
✨AllData官方文档:https://alldata-document.readthedocs.io
✨AllData社区文档:https://docs.qq.com/doc/DVHlkSEtvVXVCdEFo
「 AllData数据中台 - 首页 」
「 数据同步平台 - 模块功能汇总 」
数据同步平台模块功能全面,涵盖数据源接入、数据清洗转换、同步策略配置、实时监控报警、任务调度管理及日志审计等,实现数据高效、准确、安全地同步,助力企业快速构建数据流通与整合体系,提升数据应用价值。
「 数据同步平台 - 产品架构 」
源于SeaTunnel官网
数据源(Datasource)
多种数据库和数据存储技术,如HDFS(分布式文件系统)、Mysql、Oracle、Kafka、LocalFile、Socket等。
01、关系型数据库
常见商业数据库:
- MySQL
- Oracle
- SQL Server
- DB2
- PostgreSQL
- Redshift
- Snowflake
- Vertica
- Greenplum
通过 JDBC 方式连接,能高效获取结构化数据,满足企业复杂数据处理需求。
国产数据库:
- 人大金仓 Kingbase
- OceanBase
- OpenGauss
- TiDB
助力国产数据库在数据集成场景的应用,支持全量和增量同步,适应不同业务场景。
02、非关系型数据库
文档型数据库:MongoDB,提供普通连接和 CDC(Change Data Capture,数据变更捕获)两种连接方式,可实时获取数据变更,适用于处理大量非结构化数据和数据实时同步场景。
列族数据库:Cassandra、Hbase,适用于存储和读取大规模分布式数据,在大数据场景中发挥重要作用。
图数据库:Neo4j,用于处理具有复杂关系的数据,在社交网络分析、知识图谱构建等领域应用广泛。
向量数据库:Milvus、Qdrant、Typesense,便于存储和检索向量数据,满足机器学习、人工智能领域的向量相似性搜索需求。
时序数据库:InfluxDB、TDengine,专门用于处理时间序列数据,在物联网、监控系统等领域应用广泛,能高效存储和查询按时间顺序记录的数据。
文件系统与对象存储
01、本地文件系统:
- HdfsFile
- CosFile(腾讯云对象存储)
- ObsFile(华为云对象存储)
- OssFile(阿里云对象存储)
- OssJindoFile(基于阿里云 OSS 和 JindoFS 的存储)
- AWS_S3(亚马逊云存储服务)
- SftpFileFtpFile
可读取各类格式文件数据,方便本地数据处理和云存储数据集成。
02、消息队列:
- Kafka
- Rabbitmq
- RocketMQ
- Apache Pulsar
可实时消费队列数据,实现数据的实时传输和处理,在实时数据处理、异步消息传递等场景应用广泛。
03、大数据与数据湖:
- Doris
- Elasticsearch
- Hive(支持普通连接和 JDBC 连接)
- Apache Iceberg
- Paimon
- Phoenix(基于 HBase 的 SQL 层)
- Kudu
用于大规模数据存储、分析和处理,在数据湖和大数据分析场景中不可或缺。
04、云服务与 API:
- AmazonDynamoDB(AWS 的 NoSQL 数据库)
- AmazonSqs(AWS 的消息队列服务)
- GoogleSheets(谷歌在线表格服务)
- Github
- Gitlab
- Jira(项目管理工具)
- OneSignal(推送通知平台)
- Klaviyo(营销自动化平台)
- Persistiq(销售参与平台)
- Lemlist(销售拓展工具)
- Notion(笔记和文档管理工具)
- Web3j(以太坊区块链交互库,用于获取区块链数据)
可通过 API 获取数据,方便与各类云服务和在线工具集成。
05、其他:
- FakeSource(用于测试和开发环境生成模拟数据)
- Http(从 HTTP 接口获取数据,适用于从 Web API 获取数据)
- Socket(通过 Socket 获取数据,实现基于 Socket 的数据传输和接收)
- Sls(日志服务,用于获取日志数据)
- Prometheus(监控系统,获取监控指标数据)
- Tablestore(阿里云结构化数据存储服务)
转换引擎
01、SparkEngine:
基于Apache Spark的数据处理引擎,支持大规模数据的快速处理和转换。
02、FlinkEngine:
基于Apache Flink的流处理引擎,支持实时数据的处理和转换。
03、Translation:
数据转换模块,负责将数据从一种格式转换为另一种格式,以满足目标数据的要求。
04、Spark Source & Sink:
分别用于从Spark Engine读取数据和将数据写入目标存储。
目标数据(Destination)
HDFS、Mysql、Oracle、lotDB Sink等,作为数据同步的终点,存储处理后的数据。
01、消息队列类:
- Activemq
- Amazon Sqs
- Kafka
- Rabbitmq
- RocketMQ
- Pulsar
用于在不同系统间异步传递数据,实现解耦和削峰填谷。
02、云服务相关类:
- AmazonDynamoDB(AWS 的 NoSQL 数据库)
- GoogleFirestore(谷歌的云数据库)
- AWS_S3(亚马逊云存储服务)
- S3Redshift(结合 S3 和 Redshift,先写数据到 S3 再导入 Redshift )
- Maxcompute(阿里云大数据计算服务)
- DataHub(阿里云数据集成平台 )
数据库类
01、关系型数据库:
- DB2
- Greenplum
- 人大金仓 Kingbase
- MySQL
- OceanBase
- Oracle
- PostgreSql
- Redshift
- SQL Server
- Snowflake
- Vertica
用于存储结构化数据,支持复杂的事务处理和 SQL 查询。
02、非关系型数据库:
- Cassandra
- MongoDB
- Redis
- Hbase
- Kudu
- Neo4j
- TDengine(时序数据库)
- Milvus(向量数据库)
- Typesense(开源向量搜索引擎,类似数据库功能 )
- Qdrant(向量数据库)
03、文件存储类:
- CosFile(腾讯云对象存储)
- FtpFile(通过 FTP 协议存储文件)
- HdfsFile(Hadoop 分布式文件系统)
- LocalFile(本地文件系统)
- ObsFile(华为云对象存储)
- OssFile(阿里云对象存储)
- OssJindoFile(基于阿里云 OSS 和 JindoFS 的存储 )
- SftpFile(通过 SFTP 协议存储文件)
04、大数据与数据湖相关类:
- Doris
- Druid
- Elasticsearch(兼具搜索和数据分析功能)
- HIVE
- Hudi
- Apache Iceberg
- Paimon
- Phoenix(基于 HBase 的 SQL 层)
用于大规模数据的存储、分析和处理。
05、日志与监控类:
- Sentry(监控和分析应用程序错误)
- Sls(日志服务,用于日志数据的收集、存储和查询 )
- Prometheus(系统监控和警报工具)
06、即时通讯与通知类:
- DingTalk(钉钉)
- Enterprise WeChat(企业微信)
- Feishu(飞书)
- EmailSlack(国外团队协作通讯工具)
07、其他类:
- Assert(用于断言验证,可在测试或数据处理流程中检查数据是否符合预期)
- Console(将数据输出到控制台,方便调试和查看数据 )Http(通过 HTTP 协议发送数据 )
- Socket(通过 Socket 进行数据传输)
- Tablestore(阿里云结构化数据存储服务 )
- SelectDB Cloud(云数据仓库)
任务管理
01、JobDesigner:
任务设计器,允许用户以图形化的方式设计和管理数据同步任务。
02、Scheduler:
调度器,负责根据预定的时间表或触发条件调度和执行数据同步任务。
03、JobID:
每个数据同步任务都有一个唯一的作业标识符(JobID),用于跟踪和管理任务。
监控与警报
01、MetricsAlert:
监控和警报系统,能够实时监控系统性能,并在出现异常时发送警报。
「 数据同步平台 - 功能点介绍 」
01、同步任务定义
用户可以在数据同步平台中定义同步任务,包括创建同步任务、配置数据源参数、同步处理参数以及数据目的地参数等。
支持离线同步和实时同步两种方式,用户可以根据实际需求选择合适的同步方式。
02、数据源管理
数据同步平台提供数据源管理功能,用户可以创建、编辑和删除数据源。
支持多种数据源类型,包括文件、非结构化存储、远程链接等,方便用户从不同来源获取数据。
03、虚拟表管理
用户可以在数据同步平台中创建虚拟表,以便在数据同步过程中进行数据处理和转换。
虚拟表管理功能提供了灵活的数据处理方式,提高了数据同步的效率和准确性。
04、用户管理
数据同步平台提供用户管理功能,可以创建、编辑和删除用户,并分配相应的权限。
通过用户管理功能,可以确保数据同步平台的安全性和可控性。
「 数据同步平台 - 性能优势 」
高吞吐与灵活任务管理
01、离线同步:
支持大规模数据批量处理,通过智能分片与并行执行,单任务可高效完成TB级数据迁移。
02、实时同步:
基于事件驱动(如CDC技术),毫秒级延迟保障业务系统(如交易、监控)数据实时更新。
03、动态任务操作支持快速创建、编辑、运行与删除,减少人工干预时间,提升运维效率。
04、任务实例的灵活管理能力(如搜索、配置),确保复杂场景下任务调度的精准控制。
多源异构数据高效适配
01、广泛数据源支持:
● 兼容传统数据库(MySQL/Oracle)、文件系统(HDFS/S3)、非结构化数据(日志/JSON)等多种数据源,降低集成成本。
● 虚拟表功能实现数据逻辑映射,简化跨异构数据源的关联查询与同步配置。
02、远程链接与存储优化:
● 支持远程数据源安全链接(如SSH隧道),保障传输效率与安全性。
● 数据压缩与智能缓存技术,减少网络带宽占用,提升同步速度。
资源弹性与稳定性保障
01、动态资源分配:
● 根据任务负载自动分配计算资源(如CPU/内存),避免资源争抢导致的性能瓶颈。
● 异步非阻塞设计,确保高并发场景下任务稳定运行。
02、容错与一致性:
● 断点续传机制保障任务中断后自动恢复,避免数据丢失与重复传输。
● 事务一致性协议(如最终一致性),确保跨数据源同步的准确性。
用户与权限精细化管理
01、多层级用户权限:
● 支持用户创建、禁用、编辑与删除,通过角色权限隔离,防止误操作引发的性能波动。
● 审计日志记录所有操作行为,便于追踪性能问题根源。