96SEO 2026-02-19 10:32 0
深度学习的模型规模越来越庞大其训练数据量级也成倍增长这对海量训练数据的存储方案也提出了更高的要求怎样更高性能地读取训练样本、不使数据读取成为模型训练的瓶颈怎样更高效地支持特征工程、更便捷地增删和回填特征。
本文将介绍字节跳动如何通过
级机器学习样本存储实现高性能特征读取和高效特征调研、特征工程加速模型迭代。
在字节跳动机器学习模型的应用范围非常广泛。
为了支持模型的训练我们建立了两大训练平台推荐广告训练平台和通用的
万个模型。
如此庞大的模型训练规模背后离不开海量的训练样本支持。
目前在字节跳动的离线训练样本存储中数据总量已经达到了
级的速度增长。
这些数据被用于支持广告、搜索、推荐等模型的训练覆盖了多个业务领域这些数据还支持算法团队的特征调研、特征工程并为模型的迭代和优化提供基础。
目前字节跳动以及整个业界在机器学习和训练样本领域的一些趋势如下
首先模型/样本越来越大。
随着模型参数的增多为了训练这些庞大的模型需要更多、更丰富的训练数据来确保模型的准确性和泛化能力。
其次训练算力越来越强。
在过去训练一个机器学习模型可能需要数周甚至数月的时间。
然而如今基于更好的模型架构和高速显卡我们可以在相对较短的时间内完成训练过程并进行
另外特征工程越来越自动化、端到端化。
在传统的机器学习中特征工程是非常重要的一环通常需要大量的人工、时间和精力来处理数据和特征。
而随着深度学习的发展我们可以利用深度学习的特征提取能力通过简单的数据处理步骤自动学习特征甚至可以将过程简化为在待调研的原始特征中往一张样本表格里加列的操作后利用深度学习框架自动学习和提取信息。
总体来说字节跳动的机器学习和训练样本在其业务中发挥着重要作用。
通过建立强大的训练平台、积累海量的训练样本字节跳动能够支持大规模的模型训练和优化。
此外当前业界的趋势表明模型和样本规模的增长以及训练算力的提升正推动着机器学习的发展同时特征工程的自动化和端到端化也为模型训练带来了便利和效率。
亿个模型参数。
当时这已经被认为是一项重大突破。
然而随着时间的推移语言模型的规模和能力不断增长。
引人注目的是
然而随着模型参数的增长模型的大小也成为一个问题。
为了解决这个问题人们开始尝试模型小型化的方法。
Chinchilla
倍这种方法试图在保持相对较小的模型规模的同时利用更多的数据提升模型的性能。
最近最新推出的
没有公布具体的模型细节。
但可以猜测的是这些模型的规模可能已经达到了万亿级的参数这些进展为自然语言处理和其他相关领域的研究者们带来了新的机遇和挑战。
通过前面提到的这些趋势我们也可以看出当前需要解决的一些问题及为实现降本增效目标需要调整的地方。
首先需要优化训练样本的存储大小减少存储成本。
随着数据集的规模增长存储需求、成本也会相应增加这对于大规模的训练模型来说是一个挑战。
其次还需要优化训练样本的读取速度。
随着芯片技术的迭代和算力的增长训练模型所需的计算资源也在不断提升。
然而如果样本的读取速度无法跟上算力的增长就会成为训练过程中的瓶颈限制算力资源的有效利用率。
所以我们需要寻找方法来提高样本的读取吞吐量确保可以充分利用现有的算力资源。
最后在深度学习的加持下特征工程已经变得更加自动化和简化我们可以顺应趋势进一步提高特征调研和工程的效率。
通过加速特征工程和调研过程缩短模型迭代周期、提高算法的开发效率。
上的方案。
这种方案在处理海量样本时会遇到性能瓶颈。
由于采用了单点
操作扫描海量样本时会变得非常缓慢。
另外当需要添加列或加特征时使用写时复制Copy-On-Write的方式会导致存储量翻倍大幅增加成本负担的同时也会因为读写放大的本质导致不必要的计算资源开销。
其次是通过传统数据库方案存放样本这种方案更多适用于处理少量样本的场景当海量数据达到
级时会遇到困难。
此外由于训练代码无法直接读取数据库底层文件读取吞吐量可能受限制即使在实时拼接特征、标签的应用场景也会导致训练吞吐速度的下降。
在读取时的合并性能不太理想涉及多种格式的转换、溢出磁盘引起额外
Schema、文件、分区、统计信息等。
这种元数据计算具备高拓展性为数据湖管理提供了更好的支持、更快的文件扫描。
然而
都是基于数据湖的新兴样本存储方案各自有着不同的特点和优势。
虽然
能力还有待加强。
到这我们可以了解到常见一些方案都存在些许不足之处不够理想。
最终我们经过多维度的考察决定基于
数据湖来自研、强化填补不足、满足业务的样本存储和特征工程等需求。
数据处理同时还支持多种训练框架包括我们团队近期开源的分布式训练调度框架
自助和元数据服务平台能力上支持多种运维作业如数据导入、维护等任务。
值得一提的是该层引入了基于
的高速向量化读时合并引擎能够高效合并数据、提高读取性能。
猛犸湖的底座是基于强化版的
元数据元数据支持版本管理、文件扫描等功能为用户提供更加全面的数据管理能力。
底下的存储层是整个架构的基础负责实际的数据存储支持多种文件格式包括开源的列式存储格式
及其他自研格式。
平台鼓励业务迁移到列存格式可以平均节省存储成本约
读时合并的轻量级更新操作是加速特征调研和工程迭代周期的关键。
所以我们首先开发、引入了第一个核心特性Iceberg
更新文件—表达列更新信息。
在写入数据、更新或者加列时用户只需要提供行号、主键和回填列数据信息即可极大避免了读写放大问题实现轻量级更新。
读的时候数据文件和更新文件可以一并读出并进行读时合并、共同应用到更新和加列中。
的树状元数据表达力强能够很好的支持数据分支表达。
通过利用这一点在特征调研\写更新文件时写入到分支上进行调研就可以直接引用主干上的数据文件使各分支之间能够保持隔离不影响主干上的基线模型训练同时还避免了不必要的数据复制。
也开发了对应的分支操作可以像
一样便捷的操作数据合并、删除、Rebase将分支重新以主干为根基这些分支操作都是基于
该特性在缩短特征调研迭代周期和多个训练目标共享特征方向均有广泛应用。
基于更新和分支的核心能力为了提速特征调研迭代周期我们已经广泛将其应用于特征工程的流程中。
在一些业务中含有多个高潜力的特征集算法同学可以在各自的分支上进行并行回填、调研、训练。
当调研模型指标满足预期后用户可以提交工单进行分支合并审核及追新写入特征分支合并与追新之间如果有缺失可以从离线回填到主干上。
对于成熟度高的模型大部分调研特征可能效果不明显这时删除分支后数据维护任务会把这个分支的文件删除节省空间。
当然算法工程师也可以继续对分支进行
操作进行验证、调研。
该应用也存在一些难点比如大量更新合并后带来的小文件问题所以在分支上部署文件数量监控只有在必要时才进行
另一个应用场景是通过数据分支支持多个训练目标复用同一份特征。
在推进新的推荐项目时如果有一个新的推荐目标算法工程师只需要回填该推荐目标的标签
实验、检验模型效果在主干上调研成功的新特征也可以尽快在所有推荐目标上复用、零数据复制最终我们通过分支、复用特征数据的能力在一些推荐项目上节省约
是一个开源的列式内存结构支持多种语言、同进程零复制、极低序列化开销、向量化计算等能力。
Iceberg
向量化读取的支持但是不支持复杂嵌套类型这对包含嵌套类型数据的训练样本极不友好而猛犸数据集则能够很好的支持。
其中读时合并和下推过滤在一些训练模型/数据处理中有很多样本是可以跳过和采样的我们也通过下推过滤减少训练的样本计算量来提速。
在支持高速读时合并中支持了内存统一化和海量样本
这个特性在业务的落地上我们和内部其他团队将离线训练端到端的内存格式在头部模型中全部切换成了
格式极大减少了内存、计算资源的使用避免了很多不必要的内存格式转换和序列化开销取得了很大的收益。
在数据分析、处理常用的
Arrow但开销还是很大可能的原因是流式的样本是每条通过的不适合
在海量样本的处理上算法工程师为使模型表现更好会花费大量时间在数据的清洗上。
而清洗数据往往需要使用
更新操作将小的表更新到大表的临时分支中、将其变成和大表一样的布局再通过下推过滤将拼接上的样本高吞吐读出。
级样本打散、去重来优化模型的性能效果那么也可以按照类似的思路通过
拥有更新、高速读时合并并不够我们还需要有一些业务场景使多条样本的数据流能够直接并发入湖、拼接和回填这就依赖于接下来介绍的第三个核心特性-全局索引。
通过全局索引可以知道一条写进记录是否已经写入没写入的可以
文件索引能够减少运维组件、复用存储资源并且能够避免脉冲流量读写问题。
整个写入流程上看在写入数据的时候框架会查写全局索引定位一条记录应该写到哪个分区、桶读取的时候会根据桶进行读时合并最终还原出结果样本。
具体应用上主要在大开窗特征、标签拼接等场景使用。
风控等业务场景更适用大开窗大于等于一个月的开窗特性拼接特征和标签。
线上拼接采用大开窗的形式需要耗费大量机器资源所以我们采用并发
支持允许样本追新、标签回填、特征调研同时进行可以直接在成本较低的离线猛犸湖上进行特征和标签的拼接。
冲突。
对于业务无法容忍并发的场景也支持分区级、桶级的乐观冲突检测。
同时对于
数据湖做了不少优化也逐渐在将一些效果不错的包贡献给社区。
这里我们挑重点的内容简单介绍一下。
某些情况下对于合并到主干上的特征直接物理删除后可能会有遗漏或者对下游任务产生影响。
针对这种情况可以通过对特征列重命名实现逻辑删除。
由于训练侧是基于特征名字来读重命名后就读不到了。
如果有算法同学发现对模型有影响将其重命名回来就好过了一段时间没有影响后就可以稳妥地物理删除该特征。
当数据源/流水线出现问题时如果入湖的特征存在问题就会影响训练模型效果导致线上数据流故障。
针对这种情况常见的做法是回滚将有问题的写入快照版本回滚如此做法也会把后面正常写入的快照版本一起回滚了可能会影响后续下游的一些训练/样本处理。
所以我们开发了撤销功能可以针对某个快照的操作在元数据层面进行撤销不影响后续正常写入的特征对下游任务更友好。
面对海量样本经常会出现脏数据如数据丢块、损坏等这是数据量级增大后必然出现的现象。
因此我们支持针对脏数据的重试比如支持切换节点重试、支持只跳过一定比例等。
Metadata即大元数据。
它也需要像大数据那样去对待、瘦身和优化。
如在机器学习场景下绝大部分的读数据方式是
元数据中记录的大量列统计信息去掉有效减少元数据大小、特别是大宽表场景只留一些必要的比如分区、主键
对于大元数据的提速传统上往往都是用单点处理元数据的计算方式这种处理方式在面对大元数据时也会力不从心。
这时我们可以通过裁剪
的整体架构、核心特性及优化与实践简单总结前面分享的内容主要包括
通过推动业务切换列存格式、复用特征数据大幅减少样本存储空间减少存储成本
我们前面提到了很多特征调研、特征工程相关的技术那未来会不会不需要特征工程了呢这里结合最近比较火的
架构实现虽然学习特征的能力已经很强了但目前还需要分词组件辅助将文字转换为模型理解的形式并且分词的好坏也会一定程度影响模型的效果。
而现阶段各个大语言模型的分词算法还不一样距离完全的端到端还有一定距离基本都是能实现自动化的。
当然也有新的研究和论文比如
尝试完全端到端的方式做分词和训练架构也取得了不错的效果但是还需要期待更大规模的效果验证。
所以说当前短时间内如果需要重新研发一个大语言模型分词、特征工程还是必经之路。
当然出于成本考虑很多公司和机构不会从头开始重新研发一个大语言模型一般会基于某个已有的大语言模型进行微调针对下游、垂直任务进行优化所以特征工程也还是值得考虑的。
比如利用人工反馈给
问答排序、打分让它对齐人类的喜好还有社会法律规范添加一些额外的特征辅助
理解当前上下文并做出更恰当的回答等。
现在也出现了一些新的技术比如
AdaptationLoRA把需要微调的参数量大幅减少不需要更新基础大模型的参数让微调训练更快完成、也让输入的
对于提示词工程和上下文学习确实不太需要关注底层的特征工程了也都不需要训练了、可以直接让
结合上下文信息来习得知识并作答。
目前业界已经出现不少应用结合词向量搜索、把
需要的上下文信息提供出来回答之前没训练过的内容。
这是一个全新的方向很多正确性要求不高的场景都适用极大的降低了
模型的研发门槛、潜力十足。
但因为每次接口调用都要提供上下文信息、而现在的一些大语言模型计费标准是按输入输出
数计费的使用成本较高如果能微调的一下的话可以节省不少成本的、效果也可以更好。
其次提示词工程会更适用于参数千亿级的大模型它的思维链、涌现能力更好对于参数少的还可以通过微调来达到持平、甚至更好的表现。
而目前需要微调的话特征工程还有机会进入提升效果。
总体来说会像开头提到趋势一样特征工程会越来越简化将来它的存在也不再需要投入很多时间精力去手工操作了。
首先是湖流一体化。
在“湖流一体”的架构中数据湖和消息队列、流式计算可以相互连接可以通过计算框架提供统一的历史批式、追新流式的管理和接口同时服务于低延迟的在线流式训练、高吞吐的离线批式训练并且将消息队列闲置的计算资源用来满足数据湖的数据管理节省资源成本。
向量类的我们可以探索更丰富的编码算法来更好的优化机器学习特征的存储和成本同时采用更丰富的索引支持来为训练提速。
最后一点对于企业来说采用云原生架构已经成为一种趋势和必要选择可以帮助企业更好地应对业务变化和市场挑战提高业务竞争力和创新能力。
强化版
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback