分类目录归档:大数据

DataHub-开源元数据平台


datahub.com 官网内容总结

一、产品定位与核心定位

DataHub 是全球排名第一的开源元数据平台(DataHub Core),主打AI与数据上下文管理,核心目标是解决企业数据碎片化乱象,为人类与AI代理提供可信数据元数据上下文,打通数据发现、治理、可观测全流程,支撑生产级AI落地与规模化数据合规管理。 产品分两条产品线: 1. DataHub Core(开源版):底层开源元数据基座; 2. DataHub Cloud(企业SaaS托管版):基于开源内核打造的商用服务,适配企业级AI协同、数据治理、合规审计需求。

二、平台规模与社区数据

  • 企业客户:3000+ 公司落地使用;
  • ...

Read more

大数据工具集


大数据工具集涵盖了从数据收集、存储、处理、分析、可视化到报告生成等各个方面。由于大数据的规模庞大、处理复杂,因此需要特殊的工具和技术来处理。以下是常见的大数据工具集,按功能分类:

1. 数据存储与管理工具

大数据的存储和管理是大数据处理的基础,主要包括分布式存储系统、数据仓库和数据库等。

  • Hadoop HDFS (Hadoop Distributed File System)
  • Hadoop的分布式文件系统,适用于存储海量的数据,并提供高容错性和高可扩展性。它将数据切分成多个块,分布式存储在多个节点上。

  • Amazon S3 (Simple Storage Service)

  • ...

Read more