searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

天翼云大数据组件之Doris那些事儿

2024-09-24 10:07:20
22
0

       天翼云大数据平台 翼MapReduce产品中纳管了众多当前主流大数据生态组件。今天聊的组件主角是Doris。Doris(原名Apache Doris)是一款高性能、开源的MPP(大规模并行处理)数据库系统,专为商业智能(BI)和实时数据分析设计。以下是对基于Doris能力的数据分析业务场景详细解析:

一、高性能与可扩展性

  1. MPP架构:Doris采用MPP架构,能够在多个节点上并行处理查询,显著提高查询和分析的处理速度。每个节点都可以独立处理查询的一部分,然后将结果集中汇总,从而加速数据处理和分析。
  2. 列式存储:Doris使用列式存储格式,相同列的数据存储在一起,与行式存储相比,列式存储可以极大提高查询性能,尤其是在只需要访问表中少数几列的查询中。同时,列式存储也优化了数据压缩率,减少了存储空间和IO读取量。
  3. 向量化查询处理:Doris实现了向量化查询处理,可以处理数据的批次而不是单独的数据项,减少了CPU的分支预测失误和指令调度开销,提高了CPU处理数据的效率。
  4. 水平扩展性:Doris支持水平扩展,可以通过增加更多节点来提升系统的处理能力,支持大数据量的处理。

二、实时查询与数据更新

  1. 实时查询:Doris支持接近实时的数据更新和查询,适合需要快速响应的应用场景。用户可以通过SQL接口提交查询请求,Doris能够快速返回查询结果。
  2. 高效写入流程:Doris的写入流程设计为高效且适应于频繁和实时数据更新的场景。用户可以通过SQL INSERT命令、批量数据加载命令(如LOAD命令)或使用外部数据导入工具(如Stream Load)来提交数据。数据在写入过程中会经过多个步骤,包括解析SQL、生成执行计划、优化查询、数据路由、内存暂存、磁盘持久化等,以确保数据的可靠性和查询性能。

三、易用性与兼容性

  1. 易用性:Doris支持SQL查询,与MySQL有较高的兼容性,便于用户上手和使用。用户可以通过各类客户端工具来访问Doris,并支持与BI工具的无缝对接。
  2. 兼容性:Doris采用MySQL协议,高度兼容MySQL语法,支持标准SQL。这使得MySQL用户可以很容易地迁移到Doris,降低了迁移和培训成本。

四、丰富的索引与存储模型

  1. 索引结构:Doris支持多种索引结构,如Sorted Compound Key Index、Min/Max、Bloom Filter、Invert Index等,以减少数据的扫描,提高查询性能。
  2. 存储模型:Doris支持多种存储模型,包括Aggregate Key模型、Unique Key模型和Duplicate Key模型,针对不同的场景做了针对性的优化。

五、高可用性与容错能力

  1. 多副本策略:Doris在多个后端(BE)节点上存储数据的多个副本,采用复制机制保证数据的可靠性和持久性。即使单个节点失败,数据仍然可以从其他节点的副本中恢复和访问。
  2. 故障恢复机制:Doris的前端(FE)节点负责监控后端(BE)节点的状态。一旦检测到节点故障,FE会自动触发故障恢复过程,包括重新分配故障节点上的任务和数据到其他健康节点。
  3. 多版本并发控制(MVCC):Doris使用MVCC技术来处理并发写入和读取,确保数据在更新过程中的一致性和隔离性。

六、应用场景

       Doris广泛应用于报表分析、即席查询、数仓构建、数据湖联邦查询等场景。例如,电商公司可以使用Doris进行用户行为分析、广告报表生成等;金融公司可以使用翼MR数据分析场景进行实时数据分析、风险控制等。

       综上所述,Doris凭借其高性能、可扩展性、实时查询能力、易用性、丰富的索引与存储模型以及高可用性与容错能力,在大数据分析和实时数仓领域具有显著的优势和广泛的应用前景。

0条评论
作者已关闭评论
王****海
6文章数
0粉丝数
王****海
6 文章 | 0 粉丝
原创

天翼云大数据组件之Doris那些事儿

2024-09-24 10:07:20
22
0

       天翼云大数据平台 翼MapReduce产品中纳管了众多当前主流大数据生态组件。今天聊的组件主角是Doris。Doris(原名Apache Doris)是一款高性能、开源的MPP(大规模并行处理)数据库系统,专为商业智能(BI)和实时数据分析设计。以下是对基于Doris能力的数据分析业务场景详细解析:

一、高性能与可扩展性

  1. MPP架构:Doris采用MPP架构,能够在多个节点上并行处理查询,显著提高查询和分析的处理速度。每个节点都可以独立处理查询的一部分,然后将结果集中汇总,从而加速数据处理和分析。
  2. 列式存储:Doris使用列式存储格式,相同列的数据存储在一起,与行式存储相比,列式存储可以极大提高查询性能,尤其是在只需要访问表中少数几列的查询中。同时,列式存储也优化了数据压缩率,减少了存储空间和IO读取量。
  3. 向量化查询处理:Doris实现了向量化查询处理,可以处理数据的批次而不是单独的数据项,减少了CPU的分支预测失误和指令调度开销,提高了CPU处理数据的效率。
  4. 水平扩展性:Doris支持水平扩展,可以通过增加更多节点来提升系统的处理能力,支持大数据量的处理。

二、实时查询与数据更新

  1. 实时查询:Doris支持接近实时的数据更新和查询,适合需要快速响应的应用场景。用户可以通过SQL接口提交查询请求,Doris能够快速返回查询结果。
  2. 高效写入流程:Doris的写入流程设计为高效且适应于频繁和实时数据更新的场景。用户可以通过SQL INSERT命令、批量数据加载命令(如LOAD命令)或使用外部数据导入工具(如Stream Load)来提交数据。数据在写入过程中会经过多个步骤,包括解析SQL、生成执行计划、优化查询、数据路由、内存暂存、磁盘持久化等,以确保数据的可靠性和查询性能。

三、易用性与兼容性

  1. 易用性:Doris支持SQL查询,与MySQL有较高的兼容性,便于用户上手和使用。用户可以通过各类客户端工具来访问Doris,并支持与BI工具的无缝对接。
  2. 兼容性:Doris采用MySQL协议,高度兼容MySQL语法,支持标准SQL。这使得MySQL用户可以很容易地迁移到Doris,降低了迁移和培训成本。

四、丰富的索引与存储模型

  1. 索引结构:Doris支持多种索引结构,如Sorted Compound Key Index、Min/Max、Bloom Filter、Invert Index等,以减少数据的扫描,提高查询性能。
  2. 存储模型:Doris支持多种存储模型,包括Aggregate Key模型、Unique Key模型和Duplicate Key模型,针对不同的场景做了针对性的优化。

五、高可用性与容错能力

  1. 多副本策略:Doris在多个后端(BE)节点上存储数据的多个副本,采用复制机制保证数据的可靠性和持久性。即使单个节点失败,数据仍然可以从其他节点的副本中恢复和访问。
  2. 故障恢复机制:Doris的前端(FE)节点负责监控后端(BE)节点的状态。一旦检测到节点故障,FE会自动触发故障恢复过程,包括重新分配故障节点上的任务和数据到其他健康节点。
  3. 多版本并发控制(MVCC):Doris使用MVCC技术来处理并发写入和读取,确保数据在更新过程中的一致性和隔离性。

六、应用场景

       Doris广泛应用于报表分析、即席查询、数仓构建、数据湖联邦查询等场景。例如,电商公司可以使用Doris进行用户行为分析、广告报表生成等;金融公司可以使用翼MR数据分析场景进行实时数据分析、风险控制等。

       综上所述,Doris凭借其高性能、可扩展性、实时查询能力、易用性、丰富的索引与存储模型以及高可用性与容错能力,在大数据分析和实时数仓领域具有显著的优势和广泛的应用前景。

文章来自个人专栏
聊聊大数据
6 文章 | 1 订阅
0条评论
作者已关闭评论
作者已关闭评论
0
0