96SEO 2026-02-19 09:18 2
朴素贝叶斯、隐马尔可夫模型、高斯混合模型、文档主题生成模型#xff08;LDA#xff09;、限制玻尔兹曼机…1.

朴素贝叶斯、隐马尔可夫模型、高斯混合模型、文档主题生成模型LDA、限制玻尔兹曼机。
K近邻、SVM、决策树、感知机、线性判别分析LDA、线性回归、传统的神经网络、逻辑斯蒂回归、boosting、条件随机场。
在实际执行期中牛顿方向考虑海森矩阵才一般被认为是下降最快的方向可以达到超线性的收敛速度。
梯度下降类的算法的收敛速度一般是线性甚至次线性的在某些带复杂约束的问题。
是一中常见的用于分类的模型本质上还是一个线性回归先把特征线性组合然后使用sigmoid函数单调可微将结果约束到0~1之间结果用于二分类或者回归预测。
通过极大似然法可以求解逻辑回归模型中的参数。
最大似然估计就是通过已知结果去反推最大概率导致该结果的参数。
极大似然估计是概率论在统计学中的应用它提供了一种给定观察数据来评估模型参数的方法即
“模型已定参数未知”通过若干次试验观察其结果利用实验结果得到某个参数值能够使样本出现的概率为最大则称为极大似然估计。
逻辑回归是一种监督式学习是有训练标签的就是有已知结果的从这个已知结果入手去推导能获得最大概率的结果参数
β只要我们得出了这个参数那我们的模型就自然可以很准确的预测未知的数据了。
-y\log(\hat{y})-(1-y)\log(1-\hat{y})
损失函数的角度逻辑回归预测函数是非线性的采用MSE得到的损失函数是非凸函数会存在很多局部极小值梯度下降法可能无法获得全局最优解。
极大似然的角度采用极大似然法估计逻辑回归模型的参数最终得到的对数似然函数形式与对数损失函数一致。
调整分类阈值不统一使用0.5根据样本中类别的比值进行调整。
多类样本负采样。
进一步也可将多类样本负采样构建多个训练集最后聚合多个模型的结果。
少类样本过采样随机复制、基于聚类的过采样、SMOTE。
改变性能指标推荐采用ROC、AUC、F1-Score。
模型训练增加正负样本惩罚权重少类样本权重加大增大损失项。
逻辑回归模型是广义线性模型但其原始形式是非线性的决定这个复合函数是否是线性的要看
g(x)$实际是一个决策面这个决策面的两侧分别是正例和负例。
逻辑回归的作用是把决策面两侧的点映射到逻辑回归曲线阈值的两侧。
注意建模数据量不能太少目标变量中每个类别所对应的样本数量要足够充分才能支持建模排除共线性问题自变量间相关性很大异常值会给模型带来很大干扰要剔除逻辑回归不能处理缺失值所以之前应对缺失值进行适当处理。
相对于别的模型用逻辑回归的好处是在于在数据量比较大的情况下越复杂的模型可能会越慢逻辑回归就显得会快上很多了。
二者都是用于二分类问题且无法学习比较复杂的非线性模型区别在于DNN
离散化后的特征对异常数据有很强的鲁棒性比如一个特征是年龄30是1否则0。
如果特征没有离散化一个异常数据“年龄300岁”会给模型造成很大的干扰
逻辑回归属于广义线性模型表达能力受限单变量离散化为N个后每个变量有单独的权重相当于为模型引入了非线性能够提升模型表达能力加大拟合
特征离散化后模型会更稳定比如如果对用户年龄离散化20-30作为一个区间不会因为一个用户年龄长了一岁就变成一个完全不同的人。
当然处于区间相邻处的样本会刚好相反所以怎么划分区间是门学问
特征离散化以后起到了简化了逻辑回归模型的作用降低了模型过拟合的风险。
牛顿法比梯度下降法收敛的要快这是因为牛顿法是二阶收敛梯度下降是一阶收敛。
事实上梯度下降法每次只从当前位置选一个上升速度最大的方向走一步牛顿法在选择方向时不仅会考虑上升速度是否够大还会考虑你走了一步之后上升速度是否会变得更大。
所以所需要的迭代次数更少。
从几何上说牛顿法就是用一个二次曲面去拟合你当前所处位置的局部曲面而梯度下降法是用一个平面去拟合当前的局部曲面通常情况下二次曲面的拟合会比平面更好所以牛顿法选择的下降路径会更符合真实的最优下降路径。
牛顿法的基本思想是用迭代点的梯度信息和二阶导数对目标函数进行二次函数逼近然后把二次函数的极小值作为新的迭代点并不断重复这一过程直到求出极小点。
f(x)≈fk∇f(xk)(x−xk)21(x−xk)T∇2f(xk)(x−xk)
之间的差异。
相对熵的前半部分是交叉熵后半部分是常数相对熵达到最小值的时候交叉熵也达到了最小值所以交叉熵也可以衡量计算之后的概率分布
是一种二分类模型学习的目标是在特征空间中找到一个分离超平面且此超平面是间隔最大化的最优分离超平面最终可转化为一个凸二次规划问题求解。
间隔最大是它有别于感知机
1当训练样本线性可分时通过硬间隔最大化学习一个线性分类器即线性可分支持向量机
2当训练数据近似线性可分时引入松弛变量通过软间隔最大化学习一个线性分类器即线性支持向量机
3当训练数据线性不可分时通过使用核技巧及软间隔最大化学习非线性支持向量机。
注以上各SVM的数学推导应该熟悉硬间隔最大化几何间隔—学习的对偶问题—软间隔最大化引入松弛变量—
相同之处如果不考虑核函数LR和SVM都是线性分类器都是监督算法都是判别模型。
不同之处1.损失函数不同LR使用logistical
loss交叉熵SVM使用hingelossSVM的损失函数自带正则项而LR则需要自己添加正则项2.解决非线性问题时SVM采用核函数机制而LR一般不用因为复杂核函数需要很大计算量SVM中只有支持向量参与计算而LR是全部样本都需要参与计算若使用核函数计算量太大。
3.对异常值的敏感度不一样。
LR中所有样本都对分类平面有影响所以异常点的影响会被掩盖。
但SVM的分类平面取决于支持向量如果支持向量受到异常值影响则结果难以预测。
4.在高维空间LR的表现比SVM更稳定因为SVM是要最大化间隔这个间隔依赖与距离测度在高维空间时这个距离测度往往不太好。
所以需要做归一化
理由特征数相对于训练样本数已经够大了使用线性模型就能取得不错的效果不需要过于复杂的模型。
理由在训练样本数量足够大而特征数较小的情况下可以通过使用复杂核函数的
来获得更好的预测性能而且因为训练样本数量并没有达到百万级使用复杂核函数的
会导致运算很慢因此应该考虑通过引入更多特征然后使用线性核函数的
当训练数据线性可分时存在无穷个分离超平面可以将两类数据正确分开。
感知机利用误分类最小策略求得分离超平面不过此时的解有无穷多个。
线性可分支持向量机利用间隔最大化求得最优分离超平面这时解是唯一的。
另一方面此时的分隔超平面所产生的分类结果是最鲁棒的对未知实例的泛化能力最强。
可以借此机会阐述一下几何间隔以及函数间隔的关系。
原始样本空间可能会线性不可分这样需要将原始空间映射到一个更高维的特征空间使得样本在这个特征空间线性可分。
样本映射到高维空间后的内积求解通常是困难的引入核函数可简化内积的计算。
希望样本在特征空间中线性可分所以特征空间的好坏对SVM的性能很重要。
缺失特征数据将影响训练结果的好坏。
核函数的性质核函数必须是连续的对称的并且最优选地应该具有正半定
定理的核是正半定数意味着它们的核矩阵只有非负特征值。
使用肯定的内核确保优化问题将是凸的和解决方案将是唯一的。
Sigmoid内核尽管它广泛使用但它对于其参数的某些值不是正半定的。
Boughorbel2005也实验证明只有条件正定的内核在某些应用中可能胜过大多数经典内核。
内核还可以分为各向异性静止各向同性静止紧凑支撑局部静止非稳定或可分离非平稳。
此外内核也可以标记为
scale-invariant规模不变或scale-dependent规模依赖这是一个有趣的属性因为尺度不变内核驱动训练过程不变的数据的缩放。
补充Mercer定理任何半正定的函数都可以作为核函数。
所谓半正定的函数
c给出。
使用线性内核的内核算法通常等于它们的非内核对应物即具有线性内核的
多项式内核非常适合于所有训练数据都归一化的问题。
高斯核高斯核是径向基函数核的一个例子。
可调参数
另一方面如果低估该函数将缺乏正则化并且决策边界将对训练数据中的噪声高度敏感。
指数的内核指数核与高斯核密切相关只有正态的平方被忽略。
它也是一个径向基函数内核。
拉普拉斯算子核拉普拉斯核心完全等同于指数内核除了对
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback