python数据分析
Python数据分析是一个系统性的技术领域涉及数据获取、清洗、处理、可视化到建模的完整流程。以下是核心知识体系和实践指南一、Python数据分析技术栈核心库与工具库名称主要用途学习重点NumPy​数值计算基础多维数组操作数组创建、索引切片、广播机制、数学运算Pandas​数据处理核心表格数据操作DataFrame操作、数据清洗、分组聚合、合并连接Matplotlib​基础绘图库高度可定制折线图、柱状图、散点图、子图布局Seaborn​统计可视化基于Matplotlib分布图、热力图、分类图、主题美化Scikit-learn​机器学习库算法丰富数据预处理、模型训练、评估、特征工程辅助工具Jupyter Notebook/JupyterLab交互式开发环境适合探索性分析VS Code/PyCharm专业IDE适合大型项目Anaconda包管理工具简化环境配置二、数据分析完整流程阶段1数据获取与加载import pandas as pd # 从CSV文件读取 df pd.read_csv(data.csv, encodingutf-8) # 从Excel读取 df pd.read_excel(data.xlsx, sheet_nameSheet1) # 从数据库读取需安装对应驱动 import sqlite3 conn sqlite3.connect(database.db) df pd.read_sql_query(SELECT * FROM table, conn)阶段2数据探索与清洗# 查看数据基本信息 print(df.info()) # 数据类型、缺失值 print(df.describe()) # 数值型统计描述 print(df.head()) # 前几行数据 # 处理缺失值 df.dropna() # 删除缺失行 df.fillna(0) # 填充为0 df.fillna(df.mean()) # 用均值填充 # 处理重复值 df.drop_duplicates() # 数据类型转换 df[column] df[column].astype(int) # 转换为整型 df[date_col] pd.to_datetime(df[date_col]) # 转换为日期 # 异常值处理 Q1 df[col].quantile(0.25) Q3 df[col].quantile(0.75) IQR Q3 - Q1 df df[~((df[col] (Q1 - 1.5*IQR)) | (df[col] (Q3 1.5*IQR)))]阶段3数据预处理与特征工程# 数据标准化 from sklearn.preprocessing import StandardScaler scaler StandardScaler() df_scaled scaler.fit_transform(df[[col1, col2]]) # 独热编码分类变量 df_encoded pd.get_dummies(df, columns[category_col]) # 时间特征提取 df[year] df[date_col].dt.year df[month] df[date_col].dt.month df[day_of_week] df[date_col].dt.dayofweek # 分组聚合 grouped df.groupby(category)[value].agg([mean, std, count])阶段4数据可视化import matplotlib.pyplot as plt import seaborn as sns # 设置样式 plt.style.use(seaborn-v0_8) sns.set_palette(husl) # 单变量分布 plt.figure(figsize(10, 6)) sns.histplot(df[value], kdeTrue) plt.title(Value Distribution) plt.show() # 双变量关系 plt.figure(figsize(10, 6)) sns.scatterplot(xx_col, yy_col, datadf, huecategory) plt.title(Scatter Plot) plt.show() # 多变量热力图 corr df.corr() plt.figure(figsize(12, 8)) sns.heatmap(corr, annotTrue, cmapcoolwarm) plt.title(Correlation Heatmap) plt.show()阶段5建模与评估from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error, r2_score # 划分训练集和测试集 X df[[feature1, feature2]] y df[target] X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42) # 模型训练 model LinearRegression() model.fit(X_train, y_train) # 预测与评估 y_pred model.predict(X_test) print(MSE:, mean_squared_error(y_test, y_pred)) print(R2 Score:, r2_score(y_test, y_pred)) # 特征重要性线性回归系数 coef_df pd.DataFrame({feature: X.columns, coefficient: model.coef_}) print(coef_df.sort_values(coefficient, ascendingFalse))三、常用数据分析场景1. 描述性统计分析# 基本统计量 df.describe() # 分类变量统计 df[category].value_counts() # 交叉表 pd.crosstab(df[cat1], df[cat2]) # 分组统计 df.groupby(group_col)[value_col].agg([mean, median, std])2. 时间序列分析# 设置时间索引 df_time df.set_index(date_col) # 重采样日→月 monthly_data df_time[value].resample(M).mean() # 移动平均 rolling_mean df_time[value].rolling(window7).mean() # 时间序列可视化 plt.figure(figsize(12, 6)) plt.plot(df_time.index, df_time[value], labelOriginal) plt.plot(rolling_mean.index, rolling_mean, label7-Day MA, colorred) plt.legend() plt.show()3. 数据透视表# 创建透视表 pivot_table pd.pivot_table(df, valuessales, indexregion, columnsmonth, aggfuncsum, fill_value0) print(pivot_table)4. 数据合并与连接# 按列合并 pd.concat([df1, df2], axis1) # 按行合并 pd.concat([df1, df2], axis0) # 按键连接 pd.merge(df1, df2, onkey_col, howinner) # 内连接 pd.merge(df1, df2, onkey_col, howleft) # 左连接

相关新闻

实力强的广州太赫兹足疗仪哪个机构好

实力强的广州太赫兹足疗仪哪个机构好

随着全民养生意识升级,兼具科技感与实用性的太赫兹足疗仪成为家庭养生与健康服务机构的热门选择。广州作为国内健康电子产业核心聚集地,汇聚了众多具备研发与生产实力的机构,但市场鱼龙混杂,选择技术硬、服务全、合规性强的机构成…

2026/7/3 5:49:58 阅读更多 →
iPhone 12 深度解析:配色外观|核心参数|MagSafe/充电续航|维修手册要点|二手验机避坑清单(图文版)

iPhone 12 深度解析:配色外观|核心参数|MagSafe/充电续航|维修手册要点|二手验机避坑清单(图文版)

🔥个人主页:杨利杰YJlio❄️个人专栏:《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》 《Python》 《Kali Linux》 《那些年未解决的Windows疑难杂症》🌟 让复杂的事情更…

2026/7/3 15:22:22 阅读更多 →
智慧城市、能源等优质学术会议分享!

智慧城市、能源等优质学术会议分享!

​ ↑↑↑ 了解更多详细会议信息、投稿优惠 请添加会议老师 2026年可持续发展与城市规划国际学术会议(SDUP 2026) 2026 International Conference on Sustainable Development and Urban Planning ​ ↑↑↑ 了解更多详细会议信息、投稿优惠 请添…

2026/7/3 15:22:24 阅读更多 →

最新新闻

解决90%的测试难题:openEuler编译器测试套件常见问题与解决方案终极指南

解决90%的测试难题:openEuler编译器测试套件常见问题与解决方案终极指南

解决90%的测试难题:openEuler编译器测试套件常见问题与解决方案终极指南 【免费下载链接】compiler-test Compiler-test repo contains functional test suites for two components: gcc and openjdk, including dejagnu, jtreg, etc 项目地址: https://gitcode.c…

2026/7/3 23:10:13 阅读更多 →
BambuStudio 编译实战

BambuStudio 编译实战

目录 strawberry安装 下载的模型地址: mkdir E:\BambuSlicer-depsbuild_win -s all -d "E:\BambuSlicer-deps" strawberry安装 strawberry-perl-5.42.2.1-64bit 运行安装:双击下载的 .msi 文件,按照安装向导的提示操作即可。建…

2026/7/3 23:08:12 阅读更多 →
STM32F765ZI与DRV8213的智能散热系统设计

STM32F765ZI与DRV8213的智能散热系统设计

1. 项目背景与核心需求解析 在汽车电子和工业控制领域,嵌入式系统的散热管理一直是个棘手问题。随着处理器性能提升和空间限制加剧,传统被动散热方案已无法满足需求。我最近参与的某车载信息娱乐系统项目就遇到了这个难题——当STM32F765ZI全速运行且环境…

2026/7/3 23:06:12 阅读更多 →
小红书内容采集与批量下载神器:XHS-Downloader完整使用指南

小红书内容采集与批量下载神器:XHS-Downloader完整使用指南

小红书内容采集与批量下载神器:XHS-Downloader完整使用指南 【免费下载链接】XHS-Downloader 小红书(XiaoHongShu、RedNote)链接提取/作品采集工具:提取账号发布、收藏、点赞、专辑作品链接;提取搜索结果作品、用户链接…

2026/7/3 23:06:12 阅读更多 →
告别卡点BGM同质化 2026原创卡点音乐素材下载网站 TOP5 推荐

告别卡点BGM同质化 2026原创卡点音乐素材下载网站 TOP5 推荐

引言 随着卡点剪辑的普及,通用型 BGM 同质化问题日益凸显,数据显示 2026 年头部热门卡点音乐的重复使用率高达 68%,大量卡点视频因配乐撞车导致用户审美疲劳。对于追求创意与辨识度的创作者而言,挖掘小众优质卡点音乐资源成为突破…

2026/7/3 23:06:12 阅读更多 →
【Bug已解决】This model‘s maximum context length is X tokens. However, you requested Y tokens 解决方案

【Bug已解决】This model‘s maximum context length is X tokens. However, you requested Y tokens 解决方案

【Bug已解决】This models maximum context length is X tokens. However, you requested Y tokens 解决方案 1. 问题描述 在自己搭建 Agent Harness、调用大模型 API 时,随着对话轮次增多、工具调用结果不断累积,很多人会在某一次请求突然收到这样的报错…

2026/7/3 23:02:10 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻