96SEO 2026-02-20 08:58 0
。

回归分析的任务就是#xff0c;通过研究自变量X和因变量Y的相关关系#xff0c;尝试去解释Y的形成机制#xff0c;进…一、多元线性回归模型简介
回归分析是数据分析中最基础也是最重要的分析工具绝大多数的数据分析问题都可以使用回归的思想来解决。
回归分析的任务就是通过研究自变量X和因变量Y的相关关系尝试去解释Y的形成机制进而达到通过X去预测Y的目的。
常见的回归分析有五类线性回归、0-1回归、定序回归、计数回归和生存回归其划分的依据是因变量Y的类型。
本篇主要讲解多元线性回归以及lasso回归。
类型模型Y的特点例子线性回归OLS、GLS最小二乘连续数值型变量GDP、产量、收入0-1回归logistic回归二值变量0-1是否违约、是否得病定序回归probit定序回归定序变量等级评定优良差计数回归泊松回归泊松分布计数变量每分钟车流量生存回归Cox等比例风险回归生存变量截断数据企业、产品的寿命
问一个因变量y由多个自变量x决定探究这多个x和y的关系解释哪个x和y关系更紧密
由于回归模型会得到一个拟合曲线进而可以由这个曲线去预测一些值不过注意当要用拟合曲线预测的时候拟合优度一定要大
注回归模型其中涉及到矩阵论、概率论与数理统计的知识本篇不展开证明和讲解。
且推荐使用Stata软件来进行多元线性回归分析。
在某一时点收集的不同对象的数据例如我们自己发放问卷得到的数据全国各省份2018年GDP的数据大一新生今年体测的得到的数据
对同一对象在不同时间连续观察所取得的数据例如从出生到现在你的体重的数据每年生日称一次中国历年来GDP的数据在某地方每隔一小时测得的温度数据
横截面数据与时间序列数据综合起来的一种数据资源例如2008-2018年我国各省份GDP的数据
数据类型常见建模方法横截面数据多元线性回归时间序列数据移动平均、指数平滑、ARIMA、GARCH、VAR、
endogeneity要求所有解释变量均与扰动项不相关这个假定通常太强因为解释变量一般很多比如5-15个解释变量且需要保证它们全部外生。
是否可能弱化此条件答案是肯定的如果你的解释变量可以区分为核心解释变量与控制变量两类。
核心解释变量我们最感兴趣的变量因此我们特别希望得到对其系数的一致估计当样本容量无限增大时收敛于待估计参数的真值控制变量我们可能对于这些变量本身并无太大兴趣而之所以把它们也放入回归方程主要是为了“控制住”那些对被解释变量有影响的遗漏因素在实际应用中我们只要保证核心解释变量与μ不相关即可
如果自变量中有定性变量例如性别、地域等在回归中要怎么处理呢?例如我们要研究性别对于工资的影响性别歧视。
这时候可以用到虚拟变量
为了避免完全多重共线性的影响引入虚拟变量的个数一般是分类数减1。
例如男女是两类就引入了一个Female如果是区别全国34个省的人就可以设置33个虚拟变量。
利用Stata得到初次回归的结果后需要检验结果的可靠性如果可靠就可以解释系数完成工作如果不可靠还需要调整方法继续回归。
横截面数据容易出现异方差的问题时间序列数据容易出现自相关的问题。
OLS估计出来的回归系数是无偏、一致的假设检验无法使用构造的统计量失效了OLS估计量不再是最优线性无偏估计量(BLUE)
原假设扰动项不存在异方差。
P值小于0.05说明在95%的置信水平下拒绝原假设即我们认为扰动项存在异方差。
原假设扰动项不存在异方差。
P值小于0.05说明在95%的置信水平下拒绝原假设即我们认为扰动项存在异方差。
稳健的标准误。
如果发现存在异方差一种处理方法是仍然进行OLS回归但使用稳健标准误。
这是最简单也是目前通用的方法。
只要样本容量较大即使在异方差的情况下若使用稳健标准误则所有参数估计、假设检验均可照常进行。
换言之只要使用了稳健标准误就可以与异方差“和平共处”了广义最小二乘估计法GLS。
原理方差较大的数据包含的信息较少我们可以给予信息量大的数据即方差较小的数据更大的权重缺点我们不知道扰动项真实的协方差矩阵因此我们只能用样本数据来估计这样得到的结果不稳健存在偶然性Stock
如果不关心具体的回归系数而只关心整个方程预测被解释变量的能力则通常可以不必理会多重共线性假设你的整个方程是显著的。
这是因为多重共线性的主要后果是使得对单个变量的贡献估计不准但所有变量的整体效应仍可以较准确地估计如果关心具体的回归系数但多重共线性并不影响所关心变量的显著性那么也可以不必理会。
即使在有方差膨胀的情况下这些系数依然显著;如果没有多重共线性则只会更加显著如果多重共线性影响到所关心变量的显著性则需要增大样本容量剔除导致严重共线性的变量不要轻易删除哦因为可能会有内生性的影响或对模型设定进行修改
将自变量逐个引入模型每引入一个自变量后都要进行检验显著时才加入回归模型缺点随着以后其他自变量的引入原来显著的自变量也可能又变为不显著了但是并没有将其及时从回归方程中剔除掉
与向前逐步回归相反先将所有变量均放入模型之后尝试将其中一个自变量从模型中剔除看整个模型解释因变量的变异是否有显著变化之后将最没有解释力的那个自变量剔除。
此过程不断迭代直到没有自变量符合剔除的条件缺点一开始把全部变量都引入回归方程这样计算量比较大。
若对一些不重要的变量一开始就不引入这样就可以减少一些计算。
当然这个缺点随着现在计算机的能力的提升已经变得不算问题了
向前逐步回归和向后逐步回归的结果可能不同不要轻易使用逐步回归分析因为剔除了自变量后很有可能会产生新的问题例如内生性问题后面会介绍lasso回归有没有更加优秀的筛选方法有的那就是每种情况都尝试一次最终一共有2的k次方
这里也可以看到引入了新的自变量价格后对回归系数的影响非常大。
这就是遗漏变量导致的内生性的造成的。
-177页有详细的论述。
取对数意味着原被解释变量对解释变量的弹性即百分比的变化而不是数值的变化。
目前对于什么时候取对数还没有固定的规则但是有一些经验法则
与市场价值相关的例如价格、销售额、工资等都可以取对数以年度量的变量如受教育年限、工作经历等通常不取对数比例变量如失业率、参与率等两者均可变量取值必须是非负数如果包含0则可以对y取对数ln(1y)
减弱数据的异方差性如果变量本身不符合正态分布取了对数后可能渐近服从正态分布模型形式的需要让模型具有经济学意义
在前面已经介绍了如何解决存在异方差的情况。
但是对于多重共线性并未有一个较好的解决方法解决方法中的增大样本量显然不太现实找点数据已经不容易了还要增大样本量。
所以在不用后面的方法的情况下一般都是将导致严重共线性的变量删除。
下面我们介绍lasso回归。
和lasso回归一起出来的还有岭回归。
事实上回归中关于自变量的选择大有门道
变量过多时可能会导致多重共线性问题造成回归系数的不显著甚至造成OLS估计的失效。
本篇介绍到的岭回归和lasso回归在OLS回归模型的损失函数上加上了不同的惩罚项该惩罚项由回归系数的函数构成。
一方面加入的惩罚项能够识别出模型中不重要的变量对模型起到简化作用可以看作逐步回归法的升级版另一方面加入的惩罚项能够让模型变得可估计即使之前的数据不满足列满秩。
和前面一样还是推荐使用Stata软件分析。
但大多数博客或讲义上都是使用Python来做岭回归和lasso回归的因此有Python机器学习基础的同学可以自己查阅相关的调用代码。
另外Stata中对于岭回归的估计有点bug因此推荐用lasso回归。
我们首先使用最一般的OLS对数据进行回归然后计算方差膨胀因子VIF如果VIF
在前面我们提到可以使用逐步回归法来筛选自变量让回归中仅留下显著的自变量来抵消多重共线性的影响知道lasso回归后我们完全可以把lasso回归视为逐步回归法的进阶版我们可以使用lasso回归来帮我们筛选出不重要的变量步骤如下
判断自变量的量纲是否一样如果不一样则首先进行标准化的预处理;对变量使用lasso回归记录下lasso回归结果表中回归系数不为0的变量这些变量就是最终我们要留下来的重要变量其余未出现在表中的变量可视为引起多重共线性的不重要变量
在得到了重要变量后我们实际上就完成了变量筛选此时我们只将这些重要变量视为自变量然后进行回归并分析回归结果即可。
注意此时的变量可以是标准化前的也可以是标准化后的因为lasso只起到变量筛选的目的
回归分为解释型回归和预测型回归。
预测型回归一般才会更看重R²。
解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可可以对模型进行调整例如对数据取对数或者平方后再进行回归数据中可能有存在异常值或者数据的分布极度不均匀
为了更为精准的研究影响评价量的重要因素去除量纲的影响我们可考虑使用标准化回归系数。
对数据进行标准化就是将原始数据减去它的均数后再除以该变量的标准差计算得到新的变量值新变量构成的回归方程称为标准化回归方程回归后相应可得到标准化回归系数。
标准化系数的绝对值越大说明对因变量的影响就越大只关注显著的回归系数哦。
线性假定并不要求初始模型都呈上述的严格线性关系自变量与因变量可通过变量替换而转化成线性模型。
比如下面的都是线性模型
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback