代码收藏家技术教程 2024-07-31

python–实验15 数据分析与可视化

知识点

1 数据分析概述

1.1流程

1.2定义

1.3数据分析常用工具

2 科学计算

2.1numpy

2.1.1定义

2.1.2创建数组的方式

2.1.3np.random的随机数函数

3 数据可视化

3.1定义

3.2基本思想

3.3Matplotlib库

3.3.1模块

4 数据分析

4.1Pandas

4.2数据结构

4.3基本使用

实验

知识点

1 数据分析概述

1.1流程：

数据收集

数据处理

数据分析

报告撰写

数据展示

1.2定义：使用统计方法分析大量数据，提取信息，形成结论。

1.3数据分析常用工具

Numpy

定义：Python数值计算扩展

功能：存储处理大型矩阵，数组运算，数学函数库

ndarray：多维数组对象

创建数组函数：array, zeros, ones, empty, arange, linspace, random.rand

属性：ndim, shape, size, dtype, itemsize

形状改变方法：reshape, resize, ravel, swapaxes, transpose

随机数函数：rand, randn, randint, seed

统计函数：sum, mean, average, std, var, min, max, argmin, argmax, unravel index, ptp, median

Matplotlib

定义：Python数据可视化绘图模块

功能：开源免费，易于嵌入

pyplot模块：类似MATLAB命令式绘图

图表与风格控制函数：plot, boxplot, bar, barh, hist, pie, scatter, specgram, stackplot, step, violinplot, vlines, polar

Pandas

定义：数据分析模块

功能：数据处理、分析、展现

数据结构：Series（一维数组），DataFrame（二维表格）

基本属性：index, values, dtype, shape, size, columns

基本使用：算术运算与数据对齐，IO操作，数据预处理，数据可视化

2 科学计算

2.1numpy

2.1.1定义

NumPy（Numerical Python）是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库 。

ndarray，一个具有矢量运算和复杂广播能力的多维数组；

组成

创建adarray对象的函数

ndarray对象的常见属性

改变数组形状的办法

能够对整组数据进行快速运算，无需编写循环；

线性代数、随机数生成以及傅里叶变换功能；

用于集成由C、C++、Fortran等语言编写的代码API。

2.1.2创建数组的方式

array（）

ones（）

arange（）

2.1.3np.random的随机数函数

统计函数

示例

3 数据可视化

3.1定义：将数字信息以图形图像形式呈现

3.2基本思想：数据作为图元表示，构成图形，多维属性表示

3.3Matplotlib库

3.3.1模块

Python绘图模块——pyplot

pyplot 模块隶属于matplotlib绘图工具库

pyplot模块中封装了一套类似MATLAB命令式的绘图函数，用户只要调用pyplot模块中的函数，就可以快速绘图。

引入方式

函数表达

plot（x, y, fmt, * args,** kwargs ）

参数含义

x和y参数用于接收x和y轴所用到的数据，可以是列表或numpy数组；

fmt参数是可选的，用于控制组成线条的字符串，由颜色值字符、风格值字符和标记值字符组成。

图标与风格控制

绘图区域

示例

import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']   # 设置显示中文字体
plt.rcParams['axes.unicode_minus'] = False     # 设置正常显示符号
data = np.arange(0, 1.1, 0.01)
plt.title("曲线")        # 添加标题
plt.xlabel("x")          # 添加x轴的名称
plt.ylabel("y")          # 添加y轴的名称
# 设置x和y轴的刻度
plt.xticks([0, 0.5, 1])
plt.yticks([0, 0.5, 1.0])
plt.plot(data, data**2)              # 绘制y=x^2曲线
plt.plot(data, data**3)              # 绘制y=x^3曲线
plt.legend(["y=x^2", "y=x^3"])     # 添加图例
plt.show()                           # 在本机上显示图形

4 数据分析

4.1Pandas简介：https://pandas.pydata.org/

pandas是专门为解决数据分析任务而建立的模块，它包含了与数据处理、数据分析和数据展现相关的功能。

4.2数据结构：

Series：带标签的一维数组

Series表示一维数据，类似于一维数组，能够保存任意类型的数据，比如整型、浮点型等。Series由数据和与之相关的整数或标签（自定义）索引两部分组成，默认它会给每一项数据分配编号，编号的范围从0到N-1（N为长度）。

语法

DataFrame：带标签的二维表格

DataFrame类似于电子表格或数据库表，由行和列组成。DataFrame也可以视为一组共享行索引的Series对象，其结构示意如图所示。

语法

对象常见属性

4.3基本使用：

算术运算与数据对齐

pandas具有自动对齐的功能，它能够将两个数据结构的索引对齐。参与运算的两个数据结构的基础形状可以不同，具有的索引也可以不同。当pandas中的两个数据结构进行运算时，它们会自动寻找重叠的索引进行计算，若索引不重叠则自动赋值为NaN。若原来的数据都是整型，生成NaN以后会自动转换成浮点型。任何数与NaN计算的结果都为NaN。

IO操作：读取和写入文件

常见的处理方式是将待分析的数据以文件的形式存储到本地，之后再对文件进行读写操作。pandas模块提供了一系列读写不同格式文件的函数和方法，关于这些函数和方法的说明如表所示。

数据预处理：数据清洗、数据集成、数据变换、数据规约

实际使用的数据一般具有不完整性、冗余性和模糊性，无法直接满足数据分析的要求。为了提高数据的质量，在进行数据分析之前，必须对原始数据做一定的预处理工作。

数据预处理是整个数据分析过程中最为耗时的操作，使用经过规范化处理后的数据不但可以节约分析时间，而且可以保证分析结果能够更好起到决策和预测作用。

示例

数据可视化：绘制图形

matplotlib是众多Python可视化工具的鼻祖，但实现较为底层，画图步骤繁琐，需要很多基本组件。pandas是基于matplotlib的开源框架之一，直接使用其自身的绘图功能较matplotlib更加方便简单。Pandas内置数据类型绘制图形的常用方法如表所示。

示例

#pandas的基本使用
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#随机产生0~1之间的10行4列数据
df = pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d'])
#绘制柱状图
df.plot(stacked=True,kind='bar')
plt.show()

示例

小结

掌握数据分析工具的使用方法

使用工具分析数据的能力

实验

实验目的：

了解什么是数据分析
熟悉numpy数组进行科学计算
掌握numpy、matplotlib、pandas模块的作用
熟悉matplotlib绘制图表、pandas库处理数据

实验内容：

说明：基础题为必做题，提高题为选做题

1. (基础题)随机产生10行10列的矩阵（每个数的范围：100~1000），求最大值、最小值及最大最小值的差。（利用Numpy模块）

程序运行效果如下：

程序完整代码：

import numpy as np

# 随机产生10行10列的矩阵，每个数的范围：100~1000
matrix = np.random.randint(100, 1001, size=(10, 10))

# 求最大值、最小值及最大最小值的差
max_value = np.max(matrix)
min_value = np.min(matrix)
difference = max_value - min_value

print("矩阵:")
print(matrix)
print("最大值:", max_value)
print("最小值:", min_value)
print("最大值与最小值的差:", difference)

2.(基础题)根据程序运行结果，补充代码。

import numpy as np
import matplotlib.pyplot as plt
nums = np.arange(0, 101) # 生成0~100的数组
# 分成2*2的矩阵区域，占用编号为1的区域，即第1行第1列的子图
plt.subplot(2,1,1)
# 在选中的子图上作图
plt.plot(nums, nums)
# 分成2*2的矩阵区域，占用编号为2的区域，即第1行第2列的子图
_________①_____________

# 在选中的子图上作图
_________②_____________
_________③_____________

import numpy as np
import matplotlib.pyplot as plt

nums = np.arange(0, 101)    # 生成0~100的数组

# 分成2*2的矩阵区域，占用编号为1的区域，即第1行第1列的子图
plt.subplot(2, 1, 1)
# 在选中的子图上作图
plt.plot(nums, nums)

# 分成2*2的矩阵区域，占用编号为2的区域，即第1行第2列的子图
plt.subplot(2, 1, 2)
plt.plot(nums, nums ** 2)  # 绘制平方曲线
plt.ylabel('Square')      # y轴标签
plt.xlabel('Index')        # x轴标签

3（基础题）.已知有如下一张表格：

按以下要求操作：

仿照以上表格结构，创建一个DataFrame对象。
将DataFrame的B列数据按照降序排列
将排序后的DataFrame写入到E盘test.csv文件中。

根据题目要求，补充代码。

import numpy as np

import pandas as pd

df_data = np.array([[1, 5, 8, 8], [2, 2, 4, 9],

[7, 4, 2, 3], [3, 0, 5, 2]]) # 创建数组

col_data = np.array(['A', 'B', 'C', 'D']) # 创建数组

# 基于数组创建DataFrame对象

df_obj = pd.DataFrame(columns=___(1)______, data=___(2)____)

print(df_obj)

# 将B列数据降序排列

sorted_df = df_obj.sort_values(by=['B'], ascending=False)

print(sorted_df)

# 将sorted_df写入文件

sorted_df._____(3)_____(r'E:\write_data.csv')

print('写入完毕')

import numpy as np
import pandas as pd

df_data = np.array([[1, 5, 8, 8], [2, 2, 4, 9], [7, 4, 2, 3], [3, 0, 5, 2]])  # 创建数组
col_data = np.array(['A', 'B', 'C', 'D'])  # 创建数组

# 基于数组创建DataFrame对象
df_obj = pd.DataFrame(columns=col_data, data=df_data)

print(df_obj)

# 将B列数据降序排列
sorted_df = df_obj.sort_values(by=['B'], ascending=False)

print(sorted_df)

# 将sorted_df写入文件
sorted_df.to_csv(r'E:\test.csv', index=False)  # index=False表示不写入行索引
print('写入完毕')

4(基础题）现有如下所示的股票数据：

按以下要求操作：

仿照上图表格，创建一个DataFrame对象
使用条形图展示股票数据，其中证券简称为x轴，最新价为y轴。
将条形图以shares_bar.png为文件名保存在E盘。

根据题目要求，补充代码。

import pandas as pd

import matplotlib.pyplot as plt

stock_data = pd.DataFrame({'证券代码': ['000609', '000993', '002615',

'000795', '002766', '000971',

'000633', '300173', '300279', '000831'],

'证券简称': ['中迪投资', '闽东电力', '哈尔斯',

'英洛华', '索菱股份', '高升控股',

'合金投资', '智慧松德', '和晶科技', '五矿稀土'],

'最新价': [4.80, 4.80, 5.02, 3.93, 6.78,

3.72, 4.60, 4.60, 5.81, 9.87],

'涨幅跌%': [10.09, 10.09, 10.09, 10.08,

10.06, 10.06, 10.06, 10.05, 10.05, 10.04]})

print(stock_data)

plt.rcParams['font.sans-serif'] = ['SimHei'] # 正常显示中文标签

plt.rcParams['axes.unicode_minus'] = False # 正常显示负号

x_axis = stock_data[___(1)______]#证券简称为x轴

y_axis = stock_data[___(2)______]#最新价为y轴

plt.___(3)______(x_axis, y_axis) #使用条形图展示股票数据

# 将条形图以shares_bar.png为文件名保存在E盘

plt.savefig(___(4)______)

plt.show()

import pandas as pd
import matplotlib.pyplot as plt

stock_data = pd.DataFrame({'证券代码': ['000609', '000993', '002615',
                                '000795', '002766', '000971',
                                '000633', '300173', '300279', '000831'],
                            '证券简称': ['中迪投资', '闽东电力', '哈尔斯',
                                '英洛华', '索菱股份', '高升控股',
                                '合金投资', '智慧松德', '和晶科技', '五矿稀土'],
                            '最新价': [4.80, 4.80, 5.02, 3.93, 6.78,
                                            3.72, 4.60, 4.60, 5.81, 9.87],
                            '涨幅跌%': [10.09, 10.09, 10.09, 10.08,
                                    10.06, 10.06, 10.06, 10.05, 10.05, 10.04]})

print(stock_data)

plt.rcParams['font.sans-serif'] = ['SimHei']  # 正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False    # 正常显示负号

x_axis = stock_data['证券简称']  # 证券简称为x轴
y_axis = stock_data['最新价']    # 最新价为y轴

plt.bar(x_axis, y_axis)  # 使用条形图展示股票数据

# 将条形图以shares_bar.png为文件名保存在E盘
plt.savefig(r'E:\shares_bar.png')

plt.show()

作者：摆烂牛杂