96SEO 2026-02-23 15:10 1
损失函数梯度下降法一元回归模型的梯度下降多元回归模型梯度下降不同特征尺度不同需归一化牛顿法求方程的解局限性

最小二乘法直线距离与垂直距离关系一元回归模型LMS多元回归模型LMS
GD与LMS对比多角度理解LMS几何角度线性组合矩阵角度概率角度
显著性检验线性关系检验回归系数检验线性关系检验与回归系数检验区别
多元线性回归问题曲线回归分析过程多重共线性过拟合问题岭回归LASSO回归岭回归与LASSO回归概率角度
线性模型假设输出变量是若干输入变量的线性组合并根据这一关系求解线性组合的最优系数
最小二乘法可用于解决单变量线性回归问题当误差函数服从正态分布时与最大似然估计等价
D\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\}\\
D{(x1,y1),(x2,y2),⋯,(xn,yn)}其中xi∈Rn,yi∈R即训练数据集D中有n个数据一个数据有n个特征
线性回归假设输出变量是若干输入变量的线性组合并根据这一关系求解线性组合中的最优系数
线性回归模型最易于拟合其估计结果的统计特性也更容易确定在机器学习中回归问题隐含了输入变量与输出变量均可连续取指的前提因而利用线性回归模型可以对任意输入给出输出的估计
1875年从事遗传问题研究的英国统计学家弗朗西斯·高尔顿正在寻找子代与父代身高之间的关系。
即大自然将人类身高的分布约束在相对稳定并不产生两极分化的整体水平并给出了历史上第一个线性回归的表达式
确定回归方程中的自变量和因变量确定回归模型建立方程对回归方程进行检验利用回归方程进行预测
根据自变量数目可以分类一元回归(一个特征决定结果)多元回归多个特征决定结果根据自变量与因变量之间的表现形式分为线性与非线性
D\{(x_1,y_1),\cdots,(x_i,y_i),\cdots,(x_n,y_n)\},i1,2,\cdots,n
D{(x1,y1),⋯,(xi,yi),⋯,(xn,yn)},i1,2,⋯,n
y_{\omega}(x)\omega^Tx\rightarrow
\omega\left(\begin{aligned}b\\\omega_1\\\vdots\\\omega_j\\\vdots\\\omega_m\end{aligned}\right)\in
\left(\begin{aligned}1\\x_i^{(1)}\\\vdots\\x_i^{(j)}\\
\vdots\\x_i^{(m)}\end{aligned}\right)\in
当实例只有一个属性时输入和输出之间的关系就是二维平面上的一条直线当实例有
\sum\limits_{i1}^n[y_{\omega}(x_i)-y_i]\sum\limits_{i1}^n[\hat{y}_i-y_i]\hat{Y}-Y
i1∑n[yω(xi)−yi]i1∑n[y^i−yi]Y^−Y
J(\omega)\frac{1}{2n}\sum\limits_{i1}^n
\left(y_{\omega}(x_i)-y_i\right)^2
\min\limits_{\omega}J(\omega)\frac{1}{2n}\sum\limits_{i1}^n
\left(y_{\omega}(x_i)-y_i\right)^2
ωminJ(ω)2n1i1∑n(yω(xi)−yi)2
\omega_0^{[t-1]}-\alpha\frac{\partial
\omega_1^{[t-1]}-\alpha\frac{\partial
{ω0[t]←ω0[t−1]−α∂ω0∂J(ω)ω1[t]←ω1[t−1]−α∂ω1∂J(ω)
\omega_0}\frac{\partial{}}{\partial{\omega_0}}\left[\frac{1}{2n}\sum\limits_{i1}^n
\left(y_{\omega}(x_i)-y_i\right)^2\right]\\
\left(y_{\omega}(x_i)-y_i\right)\\
\omega_1}\frac{\partial{}}{\partial{\omega_1}}\left[\frac{1}{2n}\sum\limits_{i1}^n
\left(y_{\omega}(x_i)-y_i\right)^2\right]\\
\left(y_{\omega}(x_i)-y_i\right)x^{(1)}\\
∂ω0∂J(ω1,ω0)∂ω1∂J(ω1,ω0)∂ω0∂[2n1i1∑n(yω(xi)−yi)2]n1i1∑n(yω(xi)−yi)∂ω1∂[2n1i1∑n(yω(xi)−yi)2]n1i1∑n(yω(xi)−yi)x(1)
J(\omega)}{\partial\omega_0}\omega_0^{[t-1]}-\alpha
\left(y_{\omega}(x_i)-y_i\right)\\
\omega_j^{[t]}\leftarrow\omega_j^{[t-1]}-\alpha
J(\omega)}{\partial\omega_j}\omega_j^{[t-1]}-\alpha\frac{1}{n}\sum\limits_{i1}^n
\left(y_{\omega}(x_i)-y_i\right)x^{(j)}
ω0[t]←ω0[t−1]−α∂ω0∂J(ω)ω0[t−1]−αn1i1∑n(yω(xi)−yi)ωj[t]←ωj[t−1]−α∂ωj∂J(ω)ωj[t−1]−αn1i1∑n(yω(xi)−yi)x(j)
\frac{x^{(j)}}{max(x^{(j)})-min(x^{(j)})}
\frac{x^{(j)}-\overline{x}}{max(x^{(j)})-min(x^{(j)})}
x(j)←max(x(j))−min(x(j))x(j)−x
x_tx_{t-1}-\frac{f(x_{t-1})}{f(x_{t-1})}
f′(x0)Δxf(x0)x0−x1f(x0)x0−x1f′(x0)f(x0)x1x0−f′(x0)f(x0)x2x1−f′(x1)f(x1)⋮xtxt−1−f′(xt−1)f(xt−1)
尽量不构造有局部最优的损失函数多采样给定不同随机值找到最好的最优点自适应调整步长跳出局部最优
y_{\omega}(x)\omega_1x_1\omega_0
L(\omega_1,\omega_0)\frac{1}{2n}\sum\limits_{i1}^n\Vert
\omega_1x_i^{(1)}\omega_0-y_i\Vert^2_2
L(ω1,ω0)2n1i1∑n∥ω1xi(1)ω0−yi∥22
\omega_0}\frac{1}{n}\sum\limits_{i1}^n(\omega_1x_i^{(1)}\omega_0-y_i)0\\
\sum\limits_{i1}^n\omega_0\sum\limits_{i1}^n(y_i-\omega_1x_i^{(1)})\\
\omega_0\frac{1}{n}\sum\limits_{i1}^{n}(y_i-\omega_1x_i^{(1)})
∂ω0∂Ln1i1∑n(ω1xi(1)ω0−yi)0⇒i1∑nω0i1∑n(yi−ω1xi(1))⇒ω0n1i1∑n(yi−ω1xi(1))
\omega_1}\frac{1}{n}\sum\limits_{i1}^n(\omega_1x_i^{(1)}\omega_0-y_i)x_i^{(1)}0\\
\Rightarrow\omega_1\sum\limits_{i1}^n[x_i^{(1)}]^2\omega_0\sum\limits_{i1}^nx_i^{(1)}-\sum\limits_{i1}^ny_ix_i^{(1)}0\\
\omega_1\sum\limits_{i1}^n[x_i^{(1)}]^2\frac{1}{n}\sum\limits_{i1}^{n}(y_i-\omega_1x_i^{(1)})\sum\limits_{i1}^nx_i^{(1)}-\sum\limits_{i1}^ny_ix_i^{(1)}0\\
\omega_1\left\{\sum\limits_{i1}^nx_i^2-\frac{1}{n}\left(\sum\limits_{i1}^nx_i\right)^2\right\}\sum\limits_{i1}^ny_i(x_i-\frac{1}{n}\sum\limits_{i1}^nx_i)\\
\Rightarrow\omega_1\frac{\sum\limits_{i1}^ny_i(x_i-\frac{1}{n}\sum\limits_{i1}^nx_i)}{\sum\limits_{i1}^nx_i^2-\frac{1}{n}\left(\sum\limits_{i1}^nx_i\right)^2}
∂ω1∂Ln1i1∑n(ω1xi(1)ω0−yi)xi(1)0⇒ω1i1∑n[xi(1)]2ω0i1∑nxi(1)−i1∑nyixi(1)0⇒ω1i1∑n[xi(1)]2n1i1∑n(yi−ω1xi(1))i1∑nxi(1)−i1∑nyixi(1)0⇒ω1⎩
⎫i1∑nyi(xi−n1i1∑nxi)⇒ω1i1∑nxi2−n1(i1∑nxi)2i1∑nyi(xi−n1i1∑nxi)
⎧ω0ω1x1(1)⋯ωnx1(m)yω(x1)ω0ω1x2(1)⋯ωnx2(m)yω(x2)⋮ω0ωnx1(1)⋯ωnxn(m)yω(xn)
1x_1^{(1)}x_1^{(2)}\cdotsx_1^{(m)}\\
1x_2^{(1)}x_2^{(2)}\cdotsx_2^{(m)}\\
\vdots\vdots\vdots\ddots\vdots\\
1x_n^{(1)}x_n^{(2)}\cdotsx_n^{(m)}\\
11⋮1x1(1)x2(1)⋮xn(1)x1(2)x2(2)⋮xn(2)⋯⋯⋱⋯x1(m)x2(m)⋮xn(m)
\hat{\omega}arg\min\limits_{\omega}\Vert
A\omega-Y\Vert_2^2(A\omega-Y)^T(A\omega-Y)(\omega^TA^T-Y^T)(A\omega-Y)\\
\omega^TA^TA\omega-\omega^TA^TY-Y^TA\omegaY^TY\\
\xlongequal{(\omega^TA^TY)_{1\times
1}为标量}\omega^TA^TA\omega-2\omega^TA^TYY^TY
∥Aω−Y∥22(Aω−Y)T(Aω−Y)(ωTAT−YT)(Aω−Y)ωTATAω−ωTATY−YTAωYTY(ωTATY)1×m×m×n×n×1为标量
(\omega^TA^TA\omega-2\omega^TA^TYY^TY)}{\partial
\omega}\frac{\partial(\omega^TA^TA\omega)}{\partial
∂ω∂(ωTATAω−2ωTATYYTY)∂ω∂(ωTATAω)−2ATY
\frac{d(u^Tv)}{dx}\frac{du^T}{dx}v\frac{dv^T}{dx}u\\
\frac{d(x^TBx)}{dx}\frac{dx^T}{dx}Bx\frac{d(x^TB^T)}{dx}xBxB^Tx(BB^T)x\\
\frac{\partial(\omega^TA^TA\omega)}{\partial
\omega}(A^TAA^TA)\omega2A^TA\omega
dxd(uTv)dxduTvdxdvTudxd(xTBx)dxdxTBxdxd(xTBT)xBxBTx(BBT)x∴∂ω∂(ωTATAω)(ATAATA)ω2ATAω
\omega}2A^TA\omega-2A^TY0\Rightarrow
∂ω∂S2ATAω−2ATY0⇒ATAωATYω^(ATA)−1ATY
(0,2)→a⋅0b2(1,2)→a⋅1b2(2,3)→a⋅2b3
\right]\left[\begin{matrix}a\\b\end{matrix}\right]\left[\begin{matrix}2\\2\\3\end{matrix}\right]\\\\
[\alpha_1,\alpha_2]\omega\hat{y}\\\\
[α1,α2]ωy^{y^Aωey−y^y−Aω
{e⋅α10e⋅α20⇒{α1T⋅e0α2T⋅e0⇒ATe0
A^T(y-\hat{y})A^T(y-A\omega)A^Ty-A^TA\omega0\\
AT(y−y^)AT(y−Aω)ATy−ATAω0ω(ATA)−1ATy
f_{\omega}(x_1,x_2,\cdots,x_n)f(x_1,x_2,\cdots,x_n\vert
\xlongequal{x1,\cdots,x_n之间独立同分布}f(x_1\vert
\prod\limits_{i1}^n\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}\\
lnf_{\omega}(x_1,x_2,\cdots,x_n)-nln\sqrt{2\pi}\sigma-\sum\limits_{i1}^n\frac{(x_i-\mu)^2}{2\sigma^2}
fω(x1,x2,⋯,xn)lnfω(x1,x2,⋯,xn)f(x1,x2,⋯,xn∣ω)x1,⋯,xn之间独立同分布
f(x1∣ω)f(x2∣ω)⋯f(xn∣ω)i1∏n2π
的角度解释线性回归得到的是统计意义上的拟合结果在单变量的情形下可能一个样本点都没有落在求得的直线上
对上述现象的解释是回归结果可以完美匹配理想样本点的分布但训练中使用的真实样本点是理想样本点和噪声叠加的结果因而与回归模型之间产生了偏差每个样本点上噪声的取值等于
P(\varepsilon_i)\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\varepsilon_i^2}{2\sigma^2}}
进行即在已知样本数据及其分布的条件下找到使样本数据以最大概率出现的参数假设
x_i,\omega)\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-\omega^Tx_i)^2}{2\sigma^2}}
w)\prod\limits_{i}^n\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}}
L(ω)L(ω∣X,Y)P(x1,x2,⋯,xn∣w)i∏n2π
最大似然估计的任务就是让上述表达式的取值最大化。
为便于计算对似然概率取对数
\sqrt{2\pi}\sigma\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\right]
lnL(ω)lnP(x1,x2,⋯,xn∣w)−i∑n[ln2π
\frac{\partial}{\partial\omega}\sum\limits_{i1}^n(y_i-w^Tx_i)^20
\sum\limits_{k1}^n(w^Tx_k-y_k)^2
\sum\limits_{i1}^n(y_i-\overline{y})^2
\sum\limits_{i1}^n(\hat{y}_i-\overline{y})^2
\sum\limits_{i1}^n(y_i-\hat{y}_i)^2
\sum\limits_{i1}^n(y_i-\overline
y)^2\sum\limits_{i1}^n(\hat{y}-\overline{y})^2\sum\limits_{i1}^n(y-\hat{y})^2
i1∑n(yi−y)2i1∑n(y^−y)2i1∑n(y−y^)2
R^2\frac{SSR}{SST}\frac{回归平方}{总平方和}\frac{\sum\limits_{i1}^n(\hat{y}_i-\overline{y})^2}{\sum\limits_{i1}^n(y_i-\overline{y})^2}1-\frac{\sum\limits_{i1}^n(y_i-\hat{y})^2}{\sum\limits_{i1}^n(y_i-\overline{y})^2}
R2SSTSSR总平方和回归平方i1∑n(yi−y)2i1∑n(y^i−y)21−i1∑n(yi−y)2i1∑n(yi−y^)2
\\F\frac{SSR/m}{SSE/n-m-1}\frac{\sum\limits_{i1}^n(\hat{y}_i-\overline{y})^2/m}{\sum\limits_{i1}^n(y-\hat{y})^2/n-m-1}\frac{MSR}{MSE}\sim
FSSE/n−m−1SSR/mi1∑n(y−y^)2/n−m−1i1∑n(y^i−y)2/mMSEMSR∼F(m,n−m−1)
\sigma_{\omega_1}\frac{\sigma}{\sqrt{\sum
S_{\hat{\omega}_1}\frac{S_e}{\sqrt{\sum
S_e\sqrt\frac{\sum(y_i-\hat{y}_i)^2}{n-K-1}\sqrt{MSE}
t\frac{\hat{\omega}_1-\omega}{S_{\hat{\omega}_1}}\sim
线性关系检验的是自变量与因变量是否可以用线性关系表示回归系数的检验是判断通过样本计算得出的回归系数是否为0
在一元线性回归中自变量只有一个线性关系检验与回归系数检验是等价的
F\frac{SSR/1}{SSE/n-1-1}\frac{MSR}{MSE}\sim
FSSE/n−1−1SSR/1MSEMSR∼F(1,n−2)t(n−2)
t\frac{\hat{\omega}_1-\omega_1}{S_{\hat{\omega}_1}}\sim
多元回归分析中线性关系检验只能用来检验总体回归关系的显著性。
回归系数检验可以对各个回归系数分别进行检验
S_e\sqrt\frac{\sum\limits_{i1}^n(y_i-\hat{y}_i)^2}{n-2}
t_{\frac{\alpha}{2}}s_e\sqrt{\frac{1}{n}\frac{(x_{i1}-\overline{x})^2}{\sum\limits_{i1}^n(x_i-\overline{x})^2}}
y^0±t2αsen1i1∑n(xi−x)2(xi1−x)2
t_{\frac{\alpha}{2}}s_e\sqrt{1\frac{1}{n}\frac{(x_{i1}-\overline{x})^2}{\sum\limits_{i1}^n{(x_i-\overline{x})^2}}}
y^0±t2αse1n1i1∑n(xi−x)2(xi1−x)2
广告费与销售额的关系如图若2003年广告费120万元用一元线性回归求
\omega_1\frac{\sum\limits_{i1}^ny_i(x_i-\frac{1}{n}\sum\limits_{i1}^nx_i)}{\sum\limits_{i1}^nx_i^2-\frac{1}{n}\left(\sum\limits_{i1}^nx_i\right)^2}\frac{9\sum_{i1}\limits^9x_iy_i-\sum_{i1}\limits^9x_i\sum_{i1}\limits^9y_i}{9\sum_{i1}\limits^9x_i^2-(\sum_{i1}\limits^9x_i)^2}0.57\\
\hat{\omega}_0\overline{y}-\hat{\omega}_1\overline{x}-3.65\\
\hat{y}\hat{\omega}_0\hat{\omega}_1x-3.650.57x\\
t_\frac{\alpha}{2}(n-2)t_{0.025}(7)2.365,S_e\sqrt\frac{\sum_{i1}\limits^9(y_i-\hat{y_i})^2}{n-2}2.43\\
t_{\frac{\alpha}{2}}s_e\sqrt{\frac{1}{n}\frac{(x_{10}-\overline{x})^2}{\sum_{i1}\limits^{9}(x_i-\overline{x})^2}}64.75\pm2.365\times
t_{1\frac{\alpha}{2}}s_e\sqrt{\frac{1}{n}\frac{(x_{10}-\overline{x})^2}{\sum_{i1}\limits^{9}(x_i-\overline{x})^2}}64.75\pm2.365\times
ω1i1∑nxi2−n1(i1∑nxi)2i1∑nyi(xi−n1i1∑nxi)9i1∑9xi2−(i1∑9xi)29i1∑9xiyi−i1∑9xii1∑9yi0.57ω^0y−ω^1x−3.65故有一元线性回归方程y^ω^0ω^1x−3.650.57xy^10−3.650.57×12064.75t2α(n−2)t0.025(7)2.365,Sen−2i1∑9(yi−yi^)2
2.43y0^±t2αsen1i1∑9(xi−x)2(x10−x)2
64.75±2.365×2.43×0.74364.75±4.2699y0^±t12αsen1i1∑9(xi−x)2(x10−x)2
64.75±2.365×2.43×1.245964.75±4.3516
的增大而增大区间宽度随样本容量的增大而减小预测值与均值的差异越大区间宽度越大
R^21-(1-R^2)\times\frac{n-1}{n-m-1}
进行变量转换对新变量进行直线回归分析建立直线回归方程并进行显著性检验和置信区间估计将新变量还原为原变量由新变量的直线回归方程和置信区间得出原变量的曲线回归方程和置信区间
\left\{\begin{aligned}\sum\limits_{i1}^n
xb\sum\limits_{i1}^n(x)^2\end{aligned}\right.
⎧i1∑nyinabi1∑nx′i1∑nx′yai1∑nx′bi1∑n(x′)2
\left\{\begin{aligned}a-0.4377\\b60.4\end{aligned}\right.
\hat{y}-0.437760.4x-0.437760.4\frac{1}{x}
VIF_i\frac{1}{1-R_i^2}\frac{1}{Tol_i}
在大量复杂的实际任务中每个样本属性的数目甚至会超过训练集中的样本总数此时求出的
但无论怎样选择标准存在多个最优解的问题不会改变极易出现过拟合现象——正则化解决过拟合问题
其共同思想通过惩罚项的引入抑制过拟合现象以训练误差增加为代价换取测试误差下降
岭回归实现正则化的方式是在原始均方误差的基础上加一个待求解参数的二范数项即最小化求解的对象变为
LASSO回归选择了待求解参数的一范数作为惩罚项即最小化求解的对象变为
。
相当于在最小均方误差之外额外添加了一重约束条件将最优解限制在高维空间内的一个球内
在最小二乘的结果上做了缩放虽然最优解中参数的贡献被削弱了但参数的数目没有变少
引入稀疏性是简化复杂问题的一种常用方法在数据压缩信号处理等领域亦有应用
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback