96SEO 2026-04-22 15:43 0
说起 Python 数据分析,Pandas几乎是每位数据爱好者的必备神器。它把表格化的数据抽象成 DataFrame,让我们Ke以像操作 Excel 那样轻松完成清洗、聚合、可视化等工作。可是当你第一次打开官方文档,面对一长串函数签名时是不是有点手足无措?别急,这篇文章把「创建 DataFrame」这件事拆解成若干小步骤,用Zui直观的例子帮你快速入门。

在动手写代码之前,先把概念理清楚会省下不少调试时间。DataFrame 本质上是由两层索引和对应的数据块组成的二维数组。它既Ke以kan作「带标签的 NumPy 矩阵」,也Ke以视作「Python 字典的集合」。正因为这种双向标签机制,你才Neng随心所欲地用列名或行号定位数据。
核心属性速记
.shape返回 。
.columns列标签列表。
.index行标签列表。
.dtypes每列的数据类型。
温馨提示:Ru果你对 NumPy Yi经hen熟悉,那么把 DataFrame 想象成「带有名字的矩阵」会geng容易上手。
2️⃣ 基本准备——导入库 & 创建空框架# 导入 Pandas
import pandas as pd
# 直接生成一个没有任何数据的空 DataFrame
empty_df = pd.DataFrame
print
# 输出:
# Empty DataFrame
# Columns:
# Index:
空框架常用于后期逐步追加记录,比如在循环里收集爬虫结果时非常实用。
3️⃣ 常见构造方式大盘点 🔹 方法一:字典‑列表data = {
'姓名': ,
'年龄': ,
'薪资':
}
df1 = pd.DataFrame(data,
index=)
print
"""
姓名 年龄 薪资
员工A 张三 28 8000
员工B 李四 22 5600
员工C 王五 35 12000
"""
这里我们用字典把每列映射到一个列表,再显式指定了行索引,让表格geng有辨识度。
🔹 方法二:嵌套字典nested = {
'商品A': {2020: 15, 2021: 18},
'商品B': {2021: 7 , 2022: 12},
}
df2 = pd.DataFrame
print
"""
商品A 商品B
2020 15.0 NaN
2021 18.0 7.0
2022 NaN 12.0
"""
当不同列拥有不一致的时间戳或键时Pandas 会自动填充缺失值为 NaN,这正是处理真实业务中「不完整」数据的利器。
s1 = pd.Series
s2 = pd.Series
df3 = pd.concat # 按列拼接
print
"""
第一列 第二列
X 100.0 300.0
Y 200.0 NaN
"""
Series 本身就携带了索引信息,把它们横向拼接后就形成了一个完整的 DataFrame。对齐逻辑全部交给 Pandas 完成,你只需要关注业务本身。
🔹 方法四:NumPy 数组 + 自定义标签import numpy as np
arr = np.arange.reshape # 三行四列矩阵
df4 = pd.DataFrame(arr,
columns=,
index=)
print
"""
A B C D
row1 0 1 2 3
row2 4 5 6 7
row3 8 9 10 11
"""
Ru果你的前置计算Yi经在 NumPy 中完成,这种方式NengZui大限度保持内存连续性,提高后续运算速度。
4️⃣ 实战演练——从 CSV/Excel 快速生成对象现实项目里大多数数据dou保存在文件中。只要一句话,就Neng把外部表格转为 DataFrame:
# CSV 文件读取
df_csv = pd.read_csv
# Excel 工作簿读取
df_xls = pd.read_excel('data/report.xlsx',
sheet_name='2023Q1')
print)
print
⚡ 小技巧:读取大文件时加上参数 chunksize=50000 Ke以分块加载,避免一次性占满内存。
df1 =
print
"""
姓名 年龄 薪资 部门
员工A 张三 28 8000 研发
员工B 李四 22 5600 市场
员工C 王五 35 12000 人事
"""
b) 删除不需要的维度
# 删除 “年龄” 那一列
reduced = df1.drop
print # Index
# 若想直接在原表上操作,可加 inplace=True:
df1.drop
print)
"""
姓名 薪资 部门
员工A 张三 8000 研发
员工B 李四 5600 市场
员工C 王五 12000 人事
"""
c)
索引或列名
df1.rename
df1.index =
print
"""
姓名 月收入 部门
001 张三 8000 研发
002 李四 5600 市场
003 王五 12000 人事
"""
d) 条件筛选
high_income = df1>=10000]
print
"""
姓名 月收入 部门
003 王五 12000 人事
"""
6️⃣ 小结 —— 把“创建”当作探索之旅
Pandas 为我们提供了多种灵活且强大的入口,从Zui朴素的字典‑列表到高速的 NumPy 数组,douNeng顺畅转化为功Neng完备的 DataFrame。掌握这些基本构造方式后你就Ke以自如地在脚本、Jupyter Notebook 或生产环境中切换思路,而不必纠结于数据来源是否统一。
记住:
先思考「我的数据长什么样」再选取对应的方法;
合理利用索引和列标签,让后续查询和统计变得“一键即得”;
遇到缺失值时别惊慌,Pandas Yi经帮你标记为 NaN,只要适时填补或删除即可。
🚀 当你把上述技巧融会贯通,在实际项目中随手敲出几行代码,就Nengkan到整洁的数据表格跃然眼前。这种瞬间的满足感,是所有数据科学家共同追求的小确幸。祝你玩转 Pandas、洞悉数据、创造价值! 🎉
©2026 AI 文案 工作室 | 本文基于原创内容编写,仅供学习参考。作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback