Python pandas 库基础知识 —— 超详细教学2026 最新版从零基础到能独立完成 90% 数据分析任务专为面试 实战设计pandas 是 Python 数据分析的绝对核心库被称为“Python 的 Excel”。本篇一次性讲透 pandas 最重要、最常用的所有基础知识全部配可直接运行代码面试高频点。1. 什么是 pandas一句话记住pandas 高速 强大的二维表格工具DataFrame 一维序列工具SeriesSeries带标签的一维数组像加强版的 list dictDataFrame带行索引和列名的二维表格像 Excel 表格2. 安装与导入2026 推荐写法# 终端安装推荐使用 pyarrow 加速后端pip install pandas pyarrow openpyxl# 导入行业标准写法importpandasaspdimportnumpyasnp# pandas 经常和 numpy 一起使用3. 两大核心对象详解1Series —— 一维带标签数据# 创建 Series 的 5 种常用方式s1pd.Series([10,20,30,40])# 自动生成索引 0,1,2,3s2pd.Series([10,20,30],index[a,b,c])# 自定义索引s3pd.Series({a:100,b:200,c:300})# 从字典创建s4pd.Series(5,indexrange(5))# 标量广播s5pd.Series(np.random.randn(5))# 从 numpy 创建print(s2)# a 10# b 20# c 30# dtype: int64Series 核心属性和方法背下来spd.Series([1,3,5,7,9],indexlist(abcde))s.index# Index([a, b, c, d, e], dtypeobject)s.values# array([1, 3, 5, 7, 9])s.dtype# int64s.name成绩s.shape# (5,)s.size# 5s.hasnans# False2DataFrame —— 二维表格最重要# 最常用创建方式推荐data{姓名:[张三,李四,王五,赵六],年龄:[18,20,19,21],成绩:[95,88,76,92],城市:[北京,上海,广州,深圳]}dfpd.DataFrame(data)# 也可以从列表、numpy、二维数组、csv、excel 等创建dfpd.read_csv(data.csv)dfpd.read_excel(data.xlsx,sheet_nameSheet1)DataFrame 核心属性面试必问df.shape# (行数, 列数) → (4, 4)df.columns# Index([姓名, 年龄, 成绩, 城市], dtypeobject)df.index# RangeIndex(start0, stop4, step1)df.dtypes# 查看每列类型df.values# 转为 numpy 数组老版本用法推荐 df.to_numpy()df.info()# 最常用一键查看缺失值、类型、内存占用df.describe()# 数值列统计信息均值、标准差、最大最小等4. 基础操作每天都要用的 20 个操作① 查看数据df.head(3)# 前3行df.tail(2)# 后2行df.sample(5)# 随机抽样df.info()df.describe(includeall)# 包含字符串列统计② 选取数据最容易错的地方# 推荐写法2026 年标准df[姓名]# 选取单列 → Seriesdf[[姓名,成绩]]# 选取多列 → DataFramedf.loc[0:2]# 按标签选取行包含结束df.iloc[0:3]# 按位置选取行不包含结束df.loc[0:2,[姓名,成绩]]# 行列同时选取推荐# 条件筛选超级常用df[df[成绩]90]df[(df[年龄]18)(df[城市]北京)]# 注意要用 | ~ 并且加括号③ 修改数据df[总分]df[成绩]*1.2# 新增列df.loc[0,年龄]19# 修改单个值df.drop(columns[城市],inplaceTrue)# 删除列df.rename(columns{姓名:name},inplaceTrue)④ 排序与去重df.sort_values(by成绩,ascendingFalse,inplaceTrue)df.drop_duplicates(subset[姓名],keepfirst)⑤ 处理缺失值面试高频df.isnull().sum()# 查看每列缺失个数df.dropna()# 删除有缺失的行df.fillna(0)# 填充为 0df.fillna(df[成绩].mean())# 填充均值df.fillna(methodffill)# 向前填充5. 分组聚合GroupBy—— pandas 最强大功能# 按城市统计平均成绩df.groupby(城市)[成绩].mean()# 多列分组 多聚合resultdf.groupby(城市).agg({成绩:[mean,max,count],年龄:mean})print(result)6. 透视表pivot_table—— 类似 Excel 数据透视表pd.pivot_table(df,values成绩,index城市,columns姓名,aggfuncmean,marginsTrue)# 显示总计7. 文件读写2026 最新推荐写法# 读取dfpd.read_csv(data.csv,encodingutf-8,parse_dates[日期])dfpd.read_excel(data.xlsx,engineopenpyxl,dtype{id:int32})# 写入多 sheet 神器withpd.ExcelWriter(output.xlsx,engineopenpyxl)aswriter:df1.to_excel(writer,sheet_name销售,indexFalse)df2.to_excel(writer,sheet_name汇总,indexFalse)8. 一句话总结面试 30 秒回答版“pandas 是 Python 数据分析的核心库主要提供 Series一维带标签数组和 DataFrame二维表格两大结构。核心操作包括创建、选取loc/iloc、过滤、缺失值处理、分组聚合groupby、透视表pivot_table和文件读写。通过向量化操作pandas 可以高效处理百万级数据是数据清洗、分析、报表生成的标配工具。”本篇结束你已经掌握了 pandas 80% 的日常使用能力接下来我准备了完整进阶系列请直接回复以下任意关键词我立刻发出下一讲下一讲→ pandas 高级用法多表合并、时间序列、apply、自定义函数、性能优化练习题→ 给你 30 道 pandas 基础 面试真题带答案项目实战→ 完整《销售数据分析报表》项目从读取到生成美观 Excel对比 openpyxl→ pandas 与 openpyxl 深度结合写法随时回复我继续更新你现在已经比大多数刚学 Python 的人强太多了继续加油