96SEO 2026-02-20 07:37 0
href="https://www.cnblogs.com/ljbguanli/p/19620609"

xmlns="http://www.w3.org/2000/svg"> style="-webkit-tap-highlight-color: 0)">d="M5,0
rgba(0,
第十七章
Scikit-learn工具全解析
class="toc">
文章目录
17.2 Scikit-learn
`sklearn.model_selection`
17.3 Scikit-learn
三、半监督学习算法(重点!
)
- 1.
Label
无原生支持,但可简化实现)
- 1.
自编码器(Autoencoder)—
实践建议
- 资料关注
是什么?
最主流的机器学习库
fit()模式
核心优势
href="https://scikit-learn.org"
nofollow">scikit-learn.org
基础安装(含NumPy、SciPy、Matplotlib)
验证安装:
punctuation">(sklearn
class="token
punctuation">.
__version__class="token
punctuation">(
return_X_yclass="token
punctuation">.
model_selection
punctuation">(
n_estimatorsclass="token
punctuation">(
X_trainclass="token
punctuation">.
predictclass="token
punctuation">(
X_testclass="token
punctuation">.
scoreclass="token
punctuation">(
X_testclass="token
punctuation">{
accuracyclass="token
punctuation">}
class="token
punctuation">)
数据加载模块sklearn.datasets
| 函数 | 用途 | 示例 |
|---|---|---|
load_iris() | 经典小数据集 | 分类入门 |
fetch_openml(name) | 从OpenML下载 | fetch_openml('mnist_784') |
make_classification() | 生成模拟数据 | 快速测试算法 |
y):训练(监督)或拟合(无监督)
.predict(X):预测标签.predict_proba(X):预测概率(分类).transform(X):转换数据(如PCA、标准化)模型评估sklearn.metrics
punctuation">(y_test
class="token
punctuation">(
y_testclass="token
punctuation">(
y_testclass="token
punctuation">)
id="4__sklearnmodel_selection_101">
4.参数调优sklearn.model_selection
punctuation">.model_selection
string">'n_estimators'
class="token
string">'max_depth'
class="token
punctuation">(
RandomForestClassifierclass="token
punctuation">(
X_trainclass="token
punctuation">.
best_params_class="token
punctuation">)
实现
覆盖监督、无监督、半监督、自监督(简化版)
punctuation">.linear_model
punctuation">(
X_trainpunctuation">(
X_train_regpunctuation">)
punctuation">(max_depth punctuation">( GradientBoostingClassifier punctuation">( punctuation">) punctuation">( punctuation">( punctuation">( punctuation">( punctuation">)class="token
class="token
class="token
class="token
kernelclass="token
class="token
class="token
class="token
punctuation">.decomposition
punctuation">(
n_componentspunctuation">.
fit_transformpunctuation">(
n_componentspunctuation">.
fit_transformpunctuation">(
contaminationpunctuation">)
三、半监督学习算法(重点!
)
Scikit-learn
内置两种标签传播算法
id="1_Label_Propagation_199">1.
Propagation
id="2_Label_Spreading_204">
2.Spreading
更鲁棒,推荐优先使用
punctuation">.semi_supervised
punctuation">.
randomclass="token
punctuation">.
choiceclass="token
punctuation">(
n_samplesclass="token
operator">=
n_labeledclass="token
punctuation">(
n_samplesclass="token
punctuation">[
labeled_idxclass="token
punctuation">[
labeled_idxclass="token
punctuation">(
kernelclass="token
punctuation">.
predictclass="token
punctuation">(
kernelclass="token
punctuation">.
predictclass="token
punctuation">)
⚠️
注意:
y_semi表示
kernel'knn''rbf'
alpha(LabelSpreading)控制标签平滑程度(0~1)无原生支持,但可简化实现)
Scikit-learn
本身不提供深度自监督模型,但可用其组件构建简化版
id="1_Autoencoder__MLP__249">1.
punctuation">.neural_network
punctuation">.
preprocessingstring">'mnist_784'
punctuation">(
X_trainpunctuation">.
predictpunctuation">(
X_testpunctuation">.
subplotspunctuation">.
imshowpunctuation">(
X_testpunctuation">.
reshapepunctuation">.
imshowpunctuation">(
X_reconpunctuation">.
reshapepunctuation">.
set_titlepunctuation">.
set_titlepunctuation">)
这是浅层自编码器,效果不如深度框架(PyTorch),但展示了核心思想。
用特征工程模拟
Scikit-learn
无法直接实现端到端对比学习,但可用其做下游任务
punctuation">(n_components
class="token
punctuation">.
fit_transformclass="token
punctuation">.
randomclass="token
punctuation">.
choiceclass="token
operator">=
n_labeledclass="token
punctuation">[
labeled_idxclass="token
punctuation">[
labeled_idxclass="token
punctuation">.
linear_model
punctuation">(
max_iterclass="token
punctuation">(
X_labeledclass="token
punctuation">.
scoreclass="token
punctuation">(
X_featuresclass="token
punctuation">{
test_accclass="token
punctuation">}
class="token
punctuation">)
现实做法:
PyTorch/TensorFlow
做下游分类/聚类
punctuation">.preprocessing
punctuation">(
strategypunctuation">(
strategystring">'most_frequent'
punctuation">(
handle_unknownstring">'preprocessor'
string">'classifier'
punctuation">(
X_trainpunctuation">)
✅
优势:避免数据泄露,一键应用于新数据!
能力全景图
| 模块 | 功能 | 关键类/函数 |
|---|---|---|
datasets | 数据加载 | load_*,
|
model_selection | 划分、调优 | train_test_split,
|
preprocessing | 数据清洗 | StandardScaler,
|
linear_model | 线性模型 | LogisticRegression,
|
ensemble | 集成学习 | RandomForestClassifier,
|
cluster | 聚类 | KMeans,
|
decomposition | 降维 | PCA,
|
semi_supervised | 半监督 | LabelPropagation,
|
metrics | 评估 | accuracy_score,
|
pipeline | 流水线 | Pipeline,
|
实践建议
的实现经过高度优化
LabelSpreading
更稳定
Pipeline:防止数据泄露,提升可维护性
延伸方向:
TensorFlow(用于复杂自监督)
Auto-sklearn(自动模型选择+调参)SHAP,LIME(与Scikit-learn无缝集成)
id="_402">
资料关注公众号:咚咚王
gitee:https://gitee.com/wy18585051844/ai_learning
《Python编程:从入门到实践》
《Sklearn与TensorFlow机器学习实用指南》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森(Michael+Nielsen)》
《Natural-Language-Processing-with-PyTorch》
《AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型》
class="post-meta-container">
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback