当前位置：首页 > 谷歌SEO >

合肥哪家公司提供专业的js网站开发教程？

96SEO 2026-02-20 09:07 5

ndas提供数据结构、数据分析

sklearn.model_selection包含模型选择的多种方法如交叉验证

sklearn.metrics包含评估模型性能的多种指标提供如accuracy_score这样的方法

sklearn.feature_extraction.text提供将文本转换为特征向量的TF-idf向量化器

sys与Python解释器密切相关的模块和由解释器使用或维护的变量和函数

re正则表达式库用于字符串搜索和替换

sklearn.feature_extraction.text

import

warnings.filterwarnings(ignore)

忽略警告数据预处理

pd.read_excel(./dataset-new/traindata-new.xlsx)

test

pd.read_excel(./dataset-new/testdata-new.xlsx)#

test数据不包含

定义了一个空列表drop_cols用于存储在测试数据集中非空值小于10个的列名。

drop_cols

使用drop方法从训练集和测试集中删除了这些列以避免在后续的分析或建模中使用这些包含大量缺失值的列

train

使用pd.concat将清洗后的训练集和测试集合并成一个名为data的DataFrame便于进行统一的特征工程处理

data

data.columns[2:]除此之外数据预处理可以使用数据增强、数据清洗、手动扩充等方法。

特征工程

将SMILES转换为分子对象列表,并转换为SMILES字符串列表

data[smiles_list]

tfidf.fit_transform(data[smiles_list])#

将结果转为dataframe格式

data[data.Label.notnull()].reset_index(dropTrue)

test

data[data.Label.isnull()].reset_index(dropTrue)#

特征筛选

train[Label].astype(int)特征工程是构建一个良好的机器学习模型的关键步骤。

有用的特征使得模型表现更好。

在这个特征工程中使用了具有关键特征的简单模型要想用最佳方式完成特征工程必须对问题的领域有一定的了解并且很大程度上取决于相关数据。

而在这段代码里

SMILES转换使用RDKit库将数据集中的SMILES字符串转换回字符串的列表。

这是特征工程的一部分这是为了便于下一步特征的提取SMILES可以使用TF-IDF计算方法。

这是一种数据预处理的手段。

字符串处理将SMILES字符串列表转换为单个字符串每个SMILES之间用空格分隔。

TF-IDF计算使用TfidfVectorizer从处理后的SMILES字符串创建TF-IDF特征矩阵TF-IDF是一种词文本的统计学方法用于统计词文本在文件中出现的频率衡量该词条的重要程度。

这是一种特征提取手段。

自然数编码定义了一个函数label_encode将分类特征对象类型转换为整数编码。

首先它接受一个pandas

Series作为输入获取Series中的唯一值列表然后创建一个字典将每个唯一值映射到一个整数最后使用这个字典将原始Series中的每个值映射到相应的整数。

检测到object类型就应用label_encode进行编码。

这样的编码方式比较直观同时符合需要顺序的特点。

特征和标签准备对于所有的特征列cols如果它们的数据类型是对象通常表示为字符串则应用自然数编码从合并后的数据集中分离出训练集和测试集其中训练集包含标签Label测试集不包含。

特征和标签的筛选由于不需要uuid、Label和smiles_list剔除并提取标签列。

模型训练与预测

np.zeros(test_x.shape[0])cv_scores

[]#

train_y)):print(************************************

{}************************************.format(str(i1),

str(seed)))trn_x,

bootstrap_type:Bernoulli,random_seed:seed,od_type:

Iter,

eval_metricAUC)model.fit(trn_x,

trn_y,

val_y),metric_period100,cat_features[],

use_best_modelTrue,

model.predict_proba(val_x)[:,1]test_pred

model.predict_proba(test_x)[:,1]train[valid_index]

val_predtest

kf.n_splitscv_scores.append(f1_score(val_y,

0)))print(cv_scores)print(%s_score_list:

clf_name,

np.mean(cv_scores))print(%s_score_std:

clf_name,

indexNone)代码定义了一个名为cv_model的函数用于交叉验证和预测。

这段代码的核心是交叉验证和CatBoost训练模型。

K折交叉验证

交叉检验是评估模型性能的常用方法。

交叉检验是使用训练数据集来训练模型然后使用测试数据集来评估模型性能。

*一轮交叉验证包括将数据样本划分为互补子集对一个子集称为训练集执行分析并在另一个子集称为验证集或测试集上验证分析结果。

为了减少可变性在大多数方法中使用不同的分区执行多轮交叉验证并且在这些回合中验证结果被组合例如平均以估计最终的预测模型。

引自维基百科*作者使用了暂留集(hold-out

set)这种方法在一部分上训练模型然后在另一部分上检查其性能。

这也是交叉检验的一种。

选择正确的交叉检验取决于所处理的数据集。

在一个数据集上适用的交叉检验并不一定就适合别的数据集。

有几种交叉检验技术最为流行和广泛使用

交叉检验是将训练数据分层几个部分在一部分上训练模型在其余部分上测试。

得到一个数据集来构建机器学习模型时可以把他们分为两个不同的集训练集和验证集。

训练集用来训练模型验证集用来评估模型。

实际上很多人会用第三个集测试集在下述代码中只使用两个集。

我们可以将数据分为k个互不关联的不同集合即所谓的k折交叉验证。

这样每一个不同的集合称为一个“褶皱”。

CatBoost分类器训练模型

最大迭代次数是iterations20000eval_metric‘AUC’表示使用AUC作为评估指标。

AUCArea

Curve是一种评价二分类模型性能的指标之一ROCReceiver

Operating

Characteristic曲线是基于不同的分类阈值计算得出的展示了在各种阈值下真阳性率True

Positive

曲线是以假阳性率FPR为横轴真阳性率TPR为纵轴绘制的曲线。

在理想情况下ROC

曲线应该尽量靠近左上角表示在保持高真阳性率的同时尽量低假阳性率。

AUC

接着使用验证集val_x和val_y对模型进行评估获取预测概率val_pred。

F1_scoreF1分数

F12∗TFFPFN2∗TF它是精确度和召回率的调和平均值是衡量测试准确度的标准。

可能的最高值为1表示完美的精确度和召回率。

精准率P,Precision它用于衡量模型的查准性能正确预测的样本中预测为正的样本的比例。

召回率R,Recall它用于衡量模型的查全性能预测为正的样本中实际为正的样本的比例。

CatBoost

Boosting专为处理分类特征和提高机器学习模型性能而设计。

以下是

CatBoost

属于梯度提升算法家族通过迭代训练一组弱学习器通常是决策树来提高预测准确性。

每一步都会根据前一步模型的错误来改进当前模型。

处理分类特征

的一个显著优势是能够直接处理分类特征无需将它们转换为数值形式如独热编码。

CatBoost

采用了专门的技术来编码分类特征简化了数据预处理过程并且往往能提升模型性能。

高性能

CatBoost接收的主要的参数有最大迭代次数iterations最大深度depth学习率learning_rate梯度学习算法中控制每棵树贡献的步长大小的参数通常小于1分类特征cat_features它是一个用于指定哪些特征是分类变量的列表。

CatBoost可以直接处理这些分类特征而不依赖于数值转换。

标签： 阿q的项目wordpress 建筑人才网代码 js网站开发教程

为您推荐

SEO优化服务概述

作为专业的SEO优化服务提供商，我们致力于通过科学、系统的搜索引擎优化策略，帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。

百度官方合作伙伴白帽SEO技术数据驱动优化效果长期稳定

SEO优化核心服务

网站技术SEO

网站结构优化 - 提升网站爬虫可访问性
页面速度优化 - 缩短加载时间，提高用户体验
移动端适配 - 确保移动设备友好性
HTTPS安全协议 - 提升网站安全性与信任度
结构化数据标记 - 增强搜索结果显示效果

内容优化服务

关键词研究与布局 - 精准定位目标关键词
高质量内容创作 - 原创、专业、有价值的内容
Meta标签优化 - 提升点击率和相关性
内容更新策略 - 保持网站内容新鲜度
多媒体内容优化 - 图片、视频SEO优化

外链建设策略

高质量外链获取 - 权威网站链接建设
品牌提及监控 - 追踪品牌在线曝光
行业目录提交 - 提升网站基础权威
社交媒体整合 - 增强内容传播力
链接质量分析 - 避免低质量链接风险

SEO服务方案对比

服务项目	基础套餐	标准套餐	高级定制
关键词优化数量	10-20个核心词	30-50个核心词+长尾词	80-150个全方位覆盖
内容优化	基础页面优化	全站内容优化+每月5篇原创	个性化内容策略+每月15篇原创
技术SEO	基本技术检查	全面技术优化+移动适配	深度技术重构+性能优化
外链建设	每月5-10条	每月20-30条高质量外链	每月50+条多渠道外链
数据报告	月度基础报告	双周详细报告+分析	每周深度报告+策略调整
效果保障	3-6个月见效	2-4个月见效	1-3个月快速见效

SEO优化实施流程

我们的SEO优化服务遵循科学严谨的流程，确保每一步都基于数据分析和行业最佳实践：

网站诊断分析

全面检测网站技术问题、内容质量、竞争对手情况，制定个性化优化方案。

关键词策略制定

基于用户搜索意图和商业目标，制定全面的关键词矩阵和布局策略。

技术优化实施

解决网站技术问题，优化网站结构，提升页面速度和移动端体验。

内容优化建设

创作高质量原创内容，优化现有页面，建立内容更新机制。

外链建设推广

获取高质量外部链接，建立品牌在线影响力，提升网站权威度。

数据监控调整

持续监控排名、流量和转化数据，根据效果调整优化策略。

SEO优化常见问题

SEO优化一般需要多长时间才能看到效果？

SEO是一个渐进的过程，通常需要3-6个月才能看到明显效果。具体时间取决于网站现状、竞争程度和优化强度。我们的标准套餐一般在2-4个月内开始显现效果，高级定制方案可能在1-3个月内就能看到初步成果。

你们使用白帽SEO技术还是黑帽技术？

我们始终坚持使用白帽SEO技术，遵循搜索引擎的官方指南。我们的优化策略注重长期效果和可持续性，绝不使用任何可能导致网站被惩罚的违规手段。作为百度官方合作伙伴，我们承诺提供安全、合规的SEO服务。

SEO优化后效果能持续多久？

通过我们的白帽SEO策略获得的排名和流量具有长期稳定性。一旦网站达到理想排名，只需适当的维护和更新，效果可以持续数年。我们提供优化后维护服务，确保您的网站长期保持竞争优势。

你们提供SEO优化效果保障吗？

我们提供基于数据的SEO效果承诺。根据服务套餐不同，我们承诺在约定时间内将核心关键词优化到指定排名位置，或实现约定的自然流量增长目标。所有承诺都会在服务合同中明确约定，并提供详细的KPI衡量标准。

SEO优化效果数据

基于我们服务的客户数据统计，平均优化效果如下：

+85%

自然搜索流量提升

+120%

关键词排名数量

+60%

网站转化率提升

3-6月

平均见效周期

行业案例 - 制造业

优化前：日均自然流量120，核心词无排名
优化6个月后：日均自然流量950，15个核心词首页排名
效果提升：流量增长692%，询盘量增加320%

行业案例 - 电商

优化前：月均自然订单50单，转化率1.2%
优化4个月后：月均自然订单210单，转化率2.8%
效果提升：订单增长320%，转化率提升133%

行业案例 - 教育

优化前：月均咨询量35个，主要依赖付费广告
优化5个月后：月均咨询量180个，自然流量占比65%
效果提升：咨询量增长414%，营销成本降低57%

为什么选择我们的SEO服务

专业团队

10年以上SEO经验专家带队
百度、Google认证工程师
内容创作、技术开发、数据分析多领域团队
持续培训保持技术领先

数据驱动

自主研发SEO分析工具
实时排名监控系统
竞争对手深度分析
效果可视化报告

透明合作

清晰的服务内容和价格
定期进展汇报和沟通
效果数据实时可查
灵活的合同条款

我们的SEO服务理念

我们坚信，真正的SEO优化不仅仅是追求排名，而是通过提供优质内容、优化用户体验、建立网站权威，最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系，共同成长。

谷歌SEO

合肥哪家公司提供专业的js网站开发教程？

ndas提供数据结构、数据分析

re正则表达式库用于字符串搜索和替换

import

忽略警告数据预处理

test

test数据不包含

drop_cols

train

data

特征工程

data[smiles_list]

将结果转为dataframe格式

test

特征筛选

而在这段代码里

模型训练与预测

[]#

str(seed)))trn_x,

Iter,

trn_y,

use_best_modelTrue,

val_predtest

clf_name,

clf_name,

K折交叉验证

有几种交叉检验技术最为流行和广泛使用

CatBoost分类器训练模型

AUCArea

Operating

Positive

AUC

F1_scoreF1分数

CatBoost

CatBoost

处理分类特征

高性能

为您推荐

SEO优化服务内容导航

SEO优化服务概述

SEO优化核心服务

网站技术SEO

内容优化服务

外链建设策略

SEO服务方案对比

SEO优化实施流程

网站诊断分析

关键词策略制定

技术优化实施

内容优化建设

外链建设推广

数据监控调整

SEO优化常见问题

SEO优化效果数据

行业案例 - 制造业

行业案例 - 电商

行业案例 - 教育

为什么选择我们的SEO服务

专业团队

数据驱动

透明合作

我们的SEO服务理念

提交需求或反馈

产品中心

SEO基础

SEO技术

联系我们

QQ在线客服

关注微信