96SEO 2026-02-19 17:25 12
。

为了满足这一需求#xff0c;数据库引擎不断经历创新#xff0c;其中并行执行引擎是性能提升的重要手段之一#xff0c;逐渐成为数据…随着数据驱动的应用日益增多数据查询和分析的量级和时效性要求也在不断提升对数据库的查询性能提出了更高的要求。
为了满足这一需求数据库引擎不断经历创新其中并行执行引擎是性能提升的重要手段之一逐渐成为数据库系统的标配特性。
Database简称为“CBDB”或“CloudberryDB”是面向分析和AI场景打造的下一代统一型开源数据库搭载了PostgreSQL
2.0许可协议。
CBDB在Postgres的基础之上对已有的并行执行计划进行了大量的调整和优化实现了显著的性能提升。
在这次的直播中HashData数据库内核研发专家介绍了Postgres的并行化原理CBDB在并行化上的优化与改进、功能特性及实践演示。
以下内容根据直播文字整理。
PostgreSQL在很多场景下会启用并行执行计划创建多个并行工作子进程提升查询效率。
PostgreSQL的并行化包含三个重要组件进程本身(leader进程)、ga***r、workers。
没有开启并行化的时候进程自身处理所有的数据一旦计划器决定某个查询或查询中某个部分可以使用并行的时候就会在查询的并行化部分添加一个ga***r节点将ga***r节点作为子查询树的根节点。
HashData研发团队在对CloudberryDB实现并行化查询时主要对查询执行算子、Join的实现以及存储引擎并行化扫描等进行了调整和优化。
in操作时需要耗时50多秒而在CBDB中开启并行化查询后用时仅需119毫秒效率大约提升600倍。
Motion从3:1提升至12:1意味着集群的每个节点上有4个进程在同时并行工作Hash节点变为Parallel
广播每一份数据到一组并行工作的进程中的一个避免在共享Hash表的情况下出现数据重复。
底层的扫描由Seq
在PostgreSQL中数据以Heap表的形式存储。
在读取时通常有顺序扫描Seq
scan三种扫描方式。
接下来我们对以上三种扫描方式的并行化进行介绍。
如图2所示在并行顺序扫描时两个子进程的快照是统一共享的。
进程之间通过原子操作动态获得每次要读取的Page范围避免频繁使用锁从而造成瓶颈。
Page的范围并不固定会根据数据量和读取进度进行动态调整使得任务尽量均分在不同进程中避免木桶效应。
使用索引扫描并行化查询时子进程只需要读取对应索引的Page每个进程每次只读取一个索引Page再读取Heap表数据如果Page为全体可见可以不读取Heap表。
并行位图扫描在建立底层索引的Page范围时只有一个进程按照索引信息(CTID)进行顺序扫描。
与PostgreSQL使用leader进程不同的是CBDB在并行化查询时会通过竞争的方式选择一个X进程X进程负责建立位图之后多个workers竞争读取数据。
除了Heap表之外CBDB还引入了AO表用来专门存储以追加方式插入的元组。
如图5所示AO表的并行扫描是通过原子操作获取Segfiles让各个进程通过竞争的方式读取数据。
并行能力的优化需要从多方面来实现仅凭优化扫描方式能实现的性能提升有限Join的并行化改造是另一个重要方向。
JoinCBDB对上述三种Join均实现了并行化。
此外一大特色是增加了共享内表的Hash
Join相似区别在于前者是可以共享的进程之间相互协作共同建立共享的Hash内表。
如图6所示在PG非并行的情况下构建Join时从目标对象Table
relations路径。
在开启并行化后会在上述情况下增加一条并行化最佳路径与非并行化路径构建Join。
中数据分布有Partitioned、Replicated、Bottleneck三种情况它们之间可以通过Motion改变Locus的属性进行互相转化实现数据重分布CBDB也沿用了这一特性。
在CBDB构建Join的时候可以通过改变Locus进行数据相容。
在转化过程中遵循两个原则
并行模式实现不同的数据分布HashedWorkers、SegmentGeneralWorkers和ReplicatedWorkers。
Locus表示数据分布在同一组进程之间是随机的但是合并后数据分布变成Hashed
和ReplicatedWorkers也代表了数据在进程间随机合并后满足各自的分布状态。
AS、多阶段并行化Aggregation/Limit等。
通过以上诸多并行优化措施后CBDB性能得到大幅度的提升在特定场景下甚至可以实现千百倍的查询效率提升支持企业海量数据的复杂分析需求。
并行化查询是CBDB在研发立项之初就确定的产品方向我们希望能够通过多线程并行执行来充分释放现代多核大内存的硬件能力降低包括IO以及CPU计算在内的处理时间实现响应时间的大幅下降更好地提升用户使用体验和业务敏捷度。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback