96SEO 2026-02-20 07:52 0
作为数据驱动的高科技公司#xff0c;从数据中挖掘价值一直是公司核心任务…

成都云览科技有限公司倾力打造了凤凰浏览器专注于为海外用户提供服务公司致力于构建一个全球性的数字内容连接入口为用户带来更为优质、高效、个性化的浏览体验。
作为数据驱动的高科技公司从数据中挖掘价值一直是公司核心任务公司以前选用了众多组件来提升内部大数据分析效率如
来加速报表业务查询但经过长期实践最终决定将所有内部数据分析平台统一至
版本中发布了存算分离能力与公司内部大数据平台部门正在推动的降本增效理念非常契合部门也在第一时间测试验证确定评测各方面满足业务需求后已经开始逐步在线上业务中替换现有系统未来也会作为公司大数据平台部门统一数据架构的重点发展方向。
作为公司内部大数据平台部门主要负责公司海量数据处理、数据质量保证及指标体系维护的工作服务公司四大业务场景用户画像、报表、实验系统以及业务服务。
公司大数据平台经过上云及几次云平台迁移当前结合某云
我们在发展过程中不断采用新技术来满足不同业务需求日积月累各种数据处理与分析组件越来越多面临着巨大的压力与挑战主要表现在以下几点
公司的业务近几年飞速增长伴随着业务扩张带来了数据量指数式增长。
我们的分析平台规模也相应增长使用的规模变大平台维护成本也成倍增长。
例如仅
Trino、ClickHouse、StarRocks。
其中Trino
学习成本高不同的系统实现不同语法兼容性不同对开发人员提出了很高要求。
定位问题复杂三种组件对应三套监控系统定位排查问题需要查看不同的监控系统搜索各自的日志排查链路很长。
层的数据统一处理整体时间就需要3小时左右偶尔中间任务数据产出有误需重跑整条链路数据延时会被进一步拉长。
很容易出现内存溢出稳定性不足目前统计线上查询失败的情况约有10%左右由内存溢出导致。
ClickHouse
版本推出了存算分离版本与我们内部追求降本增效的目标不谋而合我们也第一时间进行了调研测评。
两种真实线上场景进行了具体测试采用两个相同规模的集群对同一数据量的表进行相同的查询多次查询取平均值的方式进行对比。
ClickHouse
在对比了性能后我们对比了存算一体和存算分离的成本情况。
在存算一体中数据量
到存算分离集群中由标准磁盘存储转换为对象存储后期还可以在对象存储内将数据进行冷热归档进一步节省成本。
从云服务文档中了解到标准磁盘存储
还提供了较为丰富的监控和诊断工具便于我们在第一时间观察系统运行情况。
在一些实时查询的场景我们发现通过物化视图进行预聚合的方式能达到查询事半功倍的效果。
例如我们的实时分析场景通过
StarRocks最初直接对原始明细数据复杂查询耗时约30秒左右后来看社区力推物化视图我们也为该表创建异步物化视图对明细数据进行预聚合结果显示查询延迟降低为3秒左右带来了10倍性能提升。
物化视图的场景我们刚刚体验就取得了比较惊艳的效果未来我们将在更多场景中推广该能力进一步提升业务同学体验。
存算分离时我们简单认为数据存储在对象存储中建表时我们没有关注分桶数设置分桶数设置过多结果在使用时发现随着系统
这种方式虽然提升了查询速度但会导致数仓中结果表的数据量膨胀且部分报表增加维度后会存在数据兼容性问题。
后来我们将部分预聚合查询转换为
的聚合模型通过测试和提前预聚合的查询效率几乎相同同时也解决了数据膨胀和历史数据兼容问题。
上面我们提到调研测评时我们也详细评估了存算分离与其他系统的性能对比上面的测试都是在开启
上。
同时我们观察到目前线上磁盘使用到达一定量时存储空间会自动下降经过与社区沟通发现这是内部触发了自动
StarRocks首先是通过聚合模型替代在数仓中的结果表预聚合不必对所有维度进行排列组合计算各个组合的结果数据。
省去这一步骤后存储对比之前减少了20%左右。
存算分离版本后我们根据建议首先配置了较为完善的监控StarRocks
另外我们使用过程中比较关注查询性能问题而也出现过由于版本太多导致了查询时读取文件数较多的问题在社区提醒下可以利用
另外从使用来看相比于存算一体存算分离版本有一个极大的简化就是无需关注多副本数据一致性存算分离数据位于
之上本地缓存单副本再也无需关注副本的数据均衡迁移、数据修复等问题这是一个不小的解放。
最后社区的各种文档也比较丰富尤其是存算分离最近给我们提供了最佳实践、各种运维指导、参数优化等文档作为
新用户我们也能根据这些文档快速上手取得最佳效果。
当然随着使用的深入我们还希望能更深入地了解
导致集群运行不稳定但是在社区帮助下我们快速定位并修复后现在集群已经稳定运行了3月有余。
由于目前社区尚未提供一键式迁移工具将数据从存算一体集群迁移至存算分离集群咨询过社区后我们决定采用
的业务数据迁移到存算分离集群中并做到用户在使用上体验感更佳。
后续会继续将所有业务迁移至集群最终完成统一大业。
另外我们也从社区获知社区已经在推进一键式迁移工具的开发如果不着急的小伙伴可以等等这个我们后续也会尝试使用这种新方式来提升数据迁移效率另外我们也很期待社区能推出从更多数据源的迁移方式便于我们可以更快速地将数据架构统一至
层的统一处理需要2-3个小时这对数据及时产出有不小的影响且计算成本较高。
通过对数据湖的调研我们计划将
和数据湖的结合实现对数据的实时查询解决离线数仓中的数据不方便实时查询的问题。
加工好的数据导入至对应系统运维复杂难以保证数据时效性同时数据的多方存储也进一步提升了成本。
我们也一直在思考能否做到
作为计算引擎直接查询湖上数据利用强大的湖查询能力这块尚未深入测试看社区其他用户有不少
Case可以直接进行查询对于某些查询效率较低的查询我们直接为其构建物化视图。
数据无需多处存储降低数据延迟时效性。
同时使用存算分离架构数据单一存储能节约大量存储成本尤其原来存算一体架构下数据依靠云盘多副本存储云盘价格过于昂贵
业务峰谷期间可以轻松实现快速弹性业务高峰期快速扩容以应对突发流量业务低峰期可以快速缩容以削减成本
架构简化也减轻了运维复杂度使得我们有更多时间可以考虑提升业务增效来达到公司降本增效的目的。
而且通过调研学习发现众多业内技术领先企业和我们的想法不谋而合。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback