96SEO 2026-02-19 17:10 10
。

比如说一些规则约束#xff0c;我们都会想到能否把它们替换为基于树的ml模型。
但是世界并不总是黑白分明的#xff0c;虽然机器学习在解决问题…经过这些年的发展我们都确信ML即使不能表现得更好至少也可以在几乎所有地方与前ML时代的解决方案相匹配。
比如说一些规则约束我们都会想到能否把它们替换为基于树的ml模型。
但是世界并不总是黑白分明的虽然机器学习在解决问题上肯定有自己的位置但它并不总是最好的解决方案。
基于规则的系统甚至可以胜过机器学习特别是在可解释性、健壮性和透明度至关重要的领域。
在本文中我将介绍一些实际的案例以及如何将手动规则和ML结合使得我们的方案变得更好。
基于规则的系统是通过预定义规则来为决策提供支持系统根据存储的规则评估数据并根据映射执行特定操作。
欺诈检测在欺诈检测中基于规则的系统可用于根据预定义规则快速标记和调查可疑交易。
比如说国际象棋的作弊者他们的的基本作法是在另一个窗口中安装计算机象棋应用程序使用程序进行对弈对于程序来说无论多复杂每一步都需要
秒才能完成。
所以添加“阈值”来计算玩家每一步的时间如果在浮动不大就有可能被判断为是作弊者如下图所示
医疗保健行业基于规则的系统可用于管理处方和防止用药错误。
它们还可以非常有用地帮助医生根据先前的结果为患者开出额外的分析处方。
供应链管理在供应链管理中基于规则的系统可用于生成低库存警报、帮助管理到期日期或新产品推出。
系统使用算法从数据中学习并做出预测或采取行动且无需明确编程。
机器学习系统使用通过大量数据训练获得的知识来对新数据进行预测和决策。
随着更多数据用于训练ML
算法可以提高其性能。
机器学习系统包括自然语言处理、图像和语音识别、预测分析等。
欺诈检测银行可能会使用机器学习系统从过去的欺诈交易中学习并实时识别潜在的欺诈活动。
或者它可能会对系统进行逆向工程并寻找看起来非常“异常”的交易。
自主学习系统解决更复杂问题的能力与基于规则的系统相比减少了人为干预提高了效率通过不断学习灵活地适应数据和环境的变化
通过对比我们发现这两种系统的优缺点并不冲突并且是互补的那么有没有一种方法可以将他们的优点结合起来呢
混合系统结合了基于规则的系统和机器学习算法最近变得越来越流行。
它们可以提供更健壮、准确和有效的结果特别是在处理复杂问题时。
特征工程将楼层转换为三个类别之一高、中或低具体取决于建筑物的楼层数。
这样可以提高ML模型的效率
硬编码规则可以用作特征工程过程的一部分以识别和提取输入数据中的重要特征。
例如如果问题领域清晰明确规则可以很容易地而准确地定义硬编码规则可以用来创建新特征或修改现有特征以提高机器学习模型的性能。
虽然硬编码规则和特征工程是两种不同的技术但它们可以结合使用以提高机器学习模型的性能。
硬编码规则可以用于创建新特征或修改现有特征而特征工程可以用于提取不易通过硬编码规则捕获的特征。
硬编码规则可以作为后处理阶段的一部分来修改机器学习模型的输出。
例如如果机器学习模型输出一组预测结果与某些已知规则或约束条件不一致硬编码规则可以用来修改预测结果使其符合规则或约束条件。
比如过滤或平滑等后处理技术可以通过消除噪声或错误或提高预测的整体准确性来精细机器学习模型的输出。
当机器学习模型输出概率预测或输入数据存在不确定性时这些技术尤其有效。
在某些情况下后处理技术也可以用于使用额外信息增强输入数据。
例如如果机器学习模型是在有限数据集上训练的后处理技术可以用来从外部来源如社交媒体或新闻提要中提取额外的特征以提高预测的准确性。
clfRandomForestClassifier(n_estimators100,
random_staterandom_seedX_train,
y_testtrain_test_split(df.iloc[:,
random_staterandom_seed)clf.fit(X_train,
y_train))这里选择随机森林的原因之一是它的构建特征重要性能力。
下面可以看到用于训练的特征的重要性:
y_predpd.Series(clf.predict(X_test),
indexy_test.indexcmconfusion_matrix(y_test,
labelsclf.classes_)conf_matrixConfusionMatrixDisplay(confusion_matrixcm,
display_labelsclf.classes_)conf_matrix.plot())f1_score(y_test,
0.747这时一位心脏病专家看到了你的模型。
基于他的经验和领域知识他认为地中海贫血特征(thal)比上面所示的要重要得多。
所以我们决定建立一个直方图并查看结果。
0.9结果有了很大的提升。
这就是领域知识在评估患者得分方面发挥了重要作用。
我们们要编写一个自己的HybridEstimator类他将作为我们手动规则的预估器:
fromhulearn.classificationimportFunctionClassifierrules
rules):filtered_datadata.copy()forcolinrules:filtered_data[col]
{rules[col][0]}{rules[col][1]})resultnp.array(filtered_data[list(rules.keys())].min(axis1)).astype(int)returnresulthybrid_classifierFunctionClassifier(create_rules,
rulesrules)我们可以比较纯基于规则的系统和kNN方法的结果这里使用kNN的原因是它可以处理不平衡数据:
我们这里的例子可能并不非常的确切但是它足以说明混合模型提供了实际的好处例如快速实施、对异常值的稳健性和增加的透明度。
在将业务逻辑与机器学习相结合时它们是有益的。
例如医疗保健中的混合规则-ML
系统可以通过结合临床规则和分析患者数据的机器学习算法来诊断疾病。
机器学习能够在很多任务上取得出色的结果但是它也需要领域知识的补充。
领域知识可以帮助机器学习模型更好地理解数据并更准确地进行预测和分类。
混合模型可以帮助我们将领域知识和机器学习模型结合起来。
混合模型通常是由多个子模型组成其中每个子模型都针对特定的领域知识进行了优化。
这些子模型可以是基于硬编码规则的模型也可以是基于统计方法的模型甚至可以是基于深度学习的模型。
混合模型可以利用领域知识来指导机器学习模型的学习过程从而提高模型的准确性和可靠性。
例如在医学领域中混合模型可以结合医生的专业知识和机器学习模型的能力以诊断患者的疾病。
在自然语言处理领域混合模型可以结合语言学知识和机器学习模型的能力以更好地理解和生成自然语言。
总之混合模型可以帮助我们将领域知识和机器学习模型结合起来从而提高模型的准确性和可靠性并且在各种任务中都有广泛的应用。
https://avoid.overfit.cn/post/b18da20b320a4471b9f0f11f7c59086a
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback