96SEO 2026-02-20 02:01 13
点击一个具体的冰箱型号#xff0c;点击了解更多#xff0c;会打开此型号电器的详情页面。

爬取松产品中心网站下的家电说明书。
这里以冰箱为例松下电器-冰箱网址
点击一个具体的冰箱型号点击了解更多会打开此型号电器的详情页面。
由以上操作我们知道了模拟用户点击的具体步骤大致得到了一个整体思路。
如何在整个页面中定位到某一个具体的电器型号如何遍历依次得到此页面所有型号打开新页面如何切换到新打开的窗口如何定位到新打开窗口的说明书下载按钮下载完成后如何切换回到原始的页面进行下一个电器的点击多个页面如何进行翻页
1.按F12打开开发者模式点击如图所示的1检查点击了解详情2会自动定位显示如图3所示。
发现3标识的href就是此型号的详情页面。
所以可以编写函数得到此链接。
方式一使用Selenium模拟用户点击使用xpath定位得到此href
方式二使用requests直接得到此页面中的所有href链接发现具体型号的链接时带有product依据此进行筛选。
get_allurl(url):得到url下所有以.html结尾的href标签下的链接:param
由开发者模式下可以看出我们需要的href标签时a且时以.html为结尾link_nodes
link_nodes:tem_urlnode.get(href)result_link.append(tem_url)return
进入此页面发现此网站下的链接并不是直接以.pdf为结尾的链接而是有封装了一层所以只能通过模拟用户点击的方式。
同时需要点击两次首先第一次时说明书下载出来具体型号我们这里只选第一个NR-ZE391LG-W这个位置。
为了防止有的型号不包含说明书不存在对应的xpath路径出现错误终止程序#
/html/body/div[5]/div/div[2]/div[1]/div/div[1]click_element
5).until(EC.element_to_be_clickable((By.XPATH,
/html/body/div[5]/div/div[2]/div[1]/div/div[1])))#
页面加载完成后会出现具体型号比如图中的NR-ZE391LG-W找到此位置resWebDriverWait(driver,
5).until(EC.visibility_of_element_located((By.XPATH,
/html/body/div[5]/div/div[2]/div[1]/div/div[2]/ul/li/a)))#
此位置包含了一个以.pdf为结尾的href链接是我们需要找的。
if
res:new_urlres.get_attribute(href)#
get_pdf(new_url)print(new_url)time.sleep(2)driver.quit()return
new_urlelse:print(none)time.sleep(2)driver.quit()return
Noneexcept:time.sleep(2)driver.quit()pass此函数返回了pdf的具体链接由此链接就可以直接获取到pdf文件
https://home.panasonic.cn/support/attachments/auld/manual/NR-ZE391LG-W.pdf
get_pdf(url,output_dir):url是一个后缀为.pdf的链接点击就可以下载pdf文件此函数保存pdf到output_dir路径:param
os.path.exists(output_dir):os.makedirs(output_dir)#
streamTrue)response.raise_for_status()except:return#
提取文件名这里需要根据你的URL结构或链接的href属性来提取#
os.path.basename(urlparse(url).path)#
response.iter_content(1024):f.write(chunk)print(fDownloaded:
get_allurl(url):······如上所示······return
get_pdf(url,output_dir):······如上所示······def
clik_url(url):······如上所示······return
page_res(page_url,output_dir):#
1.点击到电饭煲的主页面返回这个页面下所有的以.html结尾的网址prod_urls
range(len(prod_urls)):print(prod_urls[i])#
有一些.html的网页也不含pdf发现含的都带有product字样所以进行过滤if
output_dir)print(本页下载已完成)如果想要获取更多页面的冰箱型号可以观察到不同页面的url是由规律的直接for循环遍历页面就行了。
1.使用获取所有链接再进行筛选的方式代替了模拟用户点击以此定位具体位置进行点击
2.在新打开的页面中没有直接暴露pdf链接需要点击说明书下载按钮才能得到pdf链接点击一次显示pdf链接之后并没有继续采用用户点击的方式而是直接获取这与网站有关有点还是不会显示出来只有点击才会出现
因为没用采用点击也不存在页面切换的问题。
相比于全部Selenium模拟用户点击少了许多步骤。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback