代码收藏家技术教程 2024-12-03

数据分析与可视化：用 Python 处理、分析与展示数据

Python 在数据分析领域有着非常强大的生态和灵活性，从数据清洗、处理，到分析、可视化，它几乎无所不能。今天，我们一起来聊聊如何用 Python 处理、分析和展示数据，并用几个实际案例让你快速上手。

一、数据分析的流程

数据分析其实是一个完整的闭环，可以分为以下几个步骤：

获取数据：从文件、数据库、API 或网络爬虫中收集数据。
数据清洗：处理缺失值、异常值，转换数据格式。
数据分析：统计、分类、聚类、相关性分析等。
数据可视化：用图表清晰地表达数据特征。
报告与决策：通过可视化和分析结果为业务提供决策支持。

二、Python 数据分析的常用工具

要用 Python 处理数据，离不开以下几个主流工具：

Pandas：数据处理与操作的基础工具，提供 DataFrame 结构，方便清洗和分析数据。

NumPy：高效的数组计算库，用于数学计算和数据处理。

Matplotlib 和 Seaborn：常用的可视化工具，适合绘制各种统计图表。

Plotly 和 Bokeh：交互式可视化工具，适合动态展示数据。

Scikit-learn：常用于机器学习和高级分析的库。

三、案例 1：读取与清洗数据

假设我们有一个包含产品销售数据的 CSV 文件，名为 sales_data.csv，其中包含以下字段：

产品 ID（product_id）

销售日期（sale_date）

销售额（revenue）

城市（city）

我们的目标是：

读取数据；
清洗缺失值；
格式化日期字段。

import pandas as pd

# 读取 CSV 文件
df = pd.read_csv("sales_data.csv")

# 查看数据前几行
print(df.head())

# 检查缺失值
print(df.isnull().sum())

# 填充缺失值
df['revenue'] = df['revenue'].fillna(df['revenue'].mean())

# 转换日期格式
df['sale_date'] = pd.to_datetime(df['sale_date'])

print(df.info())  # 检查数据清洗后的结果

四、案例 2：数据分析

在数据清洗后，我们想分析不同城市的销售情况以及总体趋势：

按城市统计总销售额：

# 按城市分组统计销售额
city_revenue = df.groupby('city')['revenue'].sum().reset_index()

print(city_revenue)

按月统计销售额趋势：

# 添加月份字段
df['month'] = df['sale_date'].dt.to_period('M')

# 按月份分组统计
monthly_trend = df.groupby('month')['revenue'].sum().reset_index()

print(monthly_trend)

五、案例 3：数据可视化

数据分析得出的结论如果不能清晰地展示给他人，很难为决策提供依据。接下来，我们使用 Matplotlib 和 Seaborn 绘制几种常用图表。

柱状图：城市销售额对比

import matplotlib.pyplot as plt

# 绘制柱状图
plt.bar(city_revenue['city'], city_revenue['revenue'], color='skyblue')
plt.title("城市销售额对比")
plt.xlabel("城市")
plt.ylabel("总销售额")
plt.xticks(rotation=45)
plt.show()

折线图：月度销售趋势

# 绘制折线图
plt.plot(monthly_trend['month'].astype(str), monthly_trend['revenue'], marker='o', color='green')
plt.title("月度销售额趋势")
plt.xlabel("月份")
plt.ylabel("总销售额")
plt.grid()
plt.show()

分布图：销售额分布

import seaborn as sns

# 使用 Seaborn 绘制分布图
sns.histplot(df['revenue'], kde=True, color='purple')
plt.title("销售额分布图")
plt.xlabel("销售额")
plt.ylabel("频率")
plt.show()

六、案例 4：交互式可视化

静态图表有时候不足以直观展示数据的动态关系，这时我们可以使用 Plotly 来创建交互式图表。

城市销售额饼图

import plotly.express as px

# 绘制饼图
fig = px.pie(city_revenue, names='city', values='revenue', title="城市销售额占比")
fig.show()

销售趋势动态折线图

# 动态折线图
fig = px.line(monthly_trend, x='month', y='revenue', title="月度销售趋势", markers=True)
fig.show()

七、综合案例：将分析结果存储到数据库

分析数据后，我们可能需要将结果保存到数据库供后续使用。这里用 SQLite 做示例。

连接 SQLite 数据库并存储结果：

import sqlite3

# 创建数据库连接
conn = sqlite3.connect('sales_analysis.db')

# 存储城市销售数据
city_revenue.to_sql('city_revenue', conn, if_exists='replace', index=False)

# 存储月度趋势数据
monthly_trend.to_sql('monthly_trend', conn, if_exists='replace', index=False)

conn.close()

从数据库读取数据用于后续分析：

# 读取数据库中的数据
conn = sqlite3.connect('sales_analysis.db')
data = pd.read_sql('SELECT * FROM city_revenue', conn)
print(data)
conn.close()

八、提升数据可视化与分析的效率

数据清洗工具：使用 Pandas 的 apply 方法批量处理字段，提升清洗效率；

自动化分析：结合 Jupyter Notebook 和模板化代码，快速生成分析报告；

更美观的可视化：试试 Seaborn 的主题设置（sns.set_theme()）或 Plotly 的自定义样式；

分布式处理：当数据量很大时，可以使用 Dask 或 PySpark 等工具加速分析。

九、总结

通过 Python，我们可以完成从数据获取、清洗、分析到可视化的全流程操作。掌握这些技能后，你不仅可以高效地完成业务分析，还能通过清晰的图表讲述数据背后的故事。

数据分析是实践性很强的技能，希望通过这篇文章，你能对 Python 的数据处理和可视化有更深入的理解。如果有其他问题，欢迎随时交流~

作者：全栈探索者chen

物联沃分享整理
物联沃-IOTWORD物联网 » 数据分析与可视化：用 Python 处理、分析与展示数据

代码收藏家普通

分享到：