Python数据分析：利用pandas进行数据处理

Python数据分析：利用pandas进行数据处理

在数据分析领域，Python已经成为了炙手可热的语言之一。Python语言的优点在于其易于学习、易于编写和易于扩展。同时Python还拥有一个庞大的生态系统，其中包括了大量的数据分析库。

其中，pandas（Python Data Analysis Library）就是一个十分强大的数据分析库。pandas提供了DataFrame和Series两种数据结构，这些结构可以用来处理各种形式的数据，包括数值、序列、时间序列和表格数据。同时，pandas还提供了强大的数据分析功能，例如数据聚合、数据透视表、数据统计和数据可视化等。

本篇文章就是为了向大家介绍Python数据分析中的pandas库。我们将从以下几个方面来介绍：

1. 安装pandas库
2. Series和DataFrame数据结构
3. 数据选择和过滤
4. 数据聚合和操作
5. 数据可视化

安装pandas库

在使用pandas之前，需要先安装该库。可以使用pip命令来进行安装：

```python
!pip install pandas
```

安装完成后，我们就可以开始使用pandas了。

Series和DataFrame数据结构

pandas中最基本的数据结构是Series和DataFrame。Series是一个一维的高效数组，每个元素都有一个与之相关联的标签，也就是索引。DataFrame则是一个表格型的数据结构，可以将多个Series按照一定的规则组合起来。

我们可以通过以下方式来创建一个Series：

```python
import pandas as pd
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)
```

输出结果为：

```
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
```

在该例中，我们使用了pd.Series()方法来创建一个Series对象。在创建时，我们传入了一个数组[1, 3, 5, np.nan, 6, 8]。Series对象在创建时会自动为每个元素添加索引，这些索引可以用来访问每个元素。

我们也可以通过以下方式来创建一个DataFrame：

```python
import pandas as pd
import numpy as np

data = {'name': ['Tom', 'Jack', 'Steve', 'Ricky'], 'age': [28, 34, 29, 42]}
df = pd.DataFrame(data)
print(df)
```

输出结果为：

```
    name  age
0    Tom   28
1   Jack   34
2  Steve   29
3  Ricky   42
```

在该例中，我们使用了pd.DataFrame()方法来创建一个DataFrame对象。在创建时，我们传入了一个字典对象，其中每个key代表了一列数据，每个value则是该列数据的内容。DataFrame对象在创建时会自动为每个行添加索引，这些索引可以用来访问每个行。

数据选择和过滤

在处理数据时，我们通常需要选择和过滤一些数据。pandas提供了许多方法来实现数据的选择和过滤。

选择单个列：

```python
import pandas as pd
import numpy as np

data = {'name': ['Tom', 'Jack', 'Steve', 'Ricky'], 'age': [28, 34, 29, 42]}
df = pd.DataFrame(data)

print(df['name'])
```

输出结果为：

```
0      Tom
1     Jack
2    Steve
3    Ricky
Name: name, dtype: object
```

在该例中，我们使用了类似字典索引的方式来选择一个列。此时会返回该列的Series对象。

选择多个列：

```python
import pandas as pd
import numpy as np

data = {'name': ['Tom', 'Jack', 'Steve', 'Ricky'], 'age': [28, 34, 29, 42], 'gender': ['M', 'F', 'M', 'M']}
df = pd.DataFrame(data)

print(df[['name', 'gender']])
```

输出结果为：

```
    name gender
0    Tom      M
1   Jack      F
2  Steve      M
3  Ricky      M
```

在该例中，我们传入了一个列表来选择两个列。此时会返回一个DataFrame对象。

选择多行：

```python
import pandas as pd
import numpy as np

data = {'name': ['Tom', 'Jack', 'Steve', 'Ricky'], 'age': [28, 34, 29, 42], 'gender': ['M', 'F', 'M', 'M']}
df = pd.DataFrame(data)

print(df[1:3]) #选择第2行到第3行
```

输出结果为：

```
    name  age gender
1   Jack   34      F
2  Steve   29      M
```

在该例中，我们使用了类似列表切片的方式来选择多行。此时会返回一个DataFrame对象。

使用条件选择：

```python
import pandas as pd
import numpy as np

data = {'name': ['Tom', 'Jack', 'Steve', 'Ricky'], 'age': [28, 34, 29, 42], 'gender': ['M', 'F', 'M', 'M']}
df = pd.DataFrame(data)

print(df[df['age'] > 30]) #选择年龄大于30岁的行
```

输出结果为：

```
    name  age gender
1   Jack   34      F
3  Ricky   42      M
```

在该例中，我们通过条件选择的方式来选择年龄大于30岁的行。此时会返回一个DataFrame对象。

数据聚合和操作

pandas提供了一些强大的数据聚合和操作的方法，例如groupby、join、concat和merge等。

使用groupby进行分组聚合：

```python
import pandas as pd
import numpy as np

data = {'name': ['Tom', 'Jack', 'Steve', 'Ricky'], 'age': [28, 34, 29, 42], 'gender': ['M', 'F', 'M', 'M']}
df = pd.DataFrame(data)

grouped = df.groupby('gender')
print(grouped.mean()) #计算每个性别的平均年龄
```

输出结果为：

```
        age
gender     
F        34
M        33.0
```

在该例中，我们使用了groupby方法来对数据进行分组。此时会返回一个GroupBy对象，我们可以对该对象进行聚合操作，例如计算平均值或者求和。

使用join和concat进行数据合并：

```python
import pandas as pd
import numpy as np

data1 = {'name': ['Tom', 'Jack', 'Steve', 'Ricky'], 'age': [28, 34, 29, 42]}
data2 = {'name': ['Tom', 'Jack'], 'gender': ['M', 'F']}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

print(pd.concat([df1, df2], axis=1)) #按列合并df1和df2
print(pd.merge(df1, df2, on='name')) #按name列合并df1和df2
```

输出结果为：

```
    name  age   name gender
0    Tom   28    Tom      M
1   Jack   34   Jack      F
2  Steve   29    NaN    NaN
3  Ricky   42    NaN    NaN

   name  age gender
0   Tom   28      M
1  Jack   34      F
```

在该例中，我们使用了concat和merge方法来进行数据合并。concat方法可以按行或者按列进行数据合并，而merge方法可以按某些列进行数据合并。

数据可视化

pandas提供了接口来进行数据可视化，例如使用Matplotlib库来绘制图形。

使用plot方法绘制折线图：

```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = {'year': [2012, 2013, 2014, 2015, 2016], 'sales': [100, 150, 200, 250, 300]}
df = pd.DataFrame(data)

plt.plot(df['year'], df['sales'])
plt.show()
```

输出结果为折线图：

![折线图](https://i.loli.net/2021/09/25/3vuzKyrLld1U9o6.png)

在该例中，我们使用了plot方法来绘制折线图。此时会返回一个Matplotlib的Axes对象，我们可以对该对象进行进一步的设置，例如设置x轴和y轴的标签、设置标题等。

使用bar方法绘制柱状图：

```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = {'year': [2012, 2013, 2014, 2015, 2016], 'sales': [100, 150, 200, 250, 300]}
df = pd.DataFrame(data)

plt.bar(df['year'], df['sales'])
plt.show()
```

输出结果为柱状图：

![柱状图](https://i.loli.net/2021/09/25/taGmbwqzOMiJ4fN.png)

在该例中，我们使用了bar方法来绘制柱状图。

结语

pandas是一个十分强大的数据分析库，拥有丰富的数据结构和数据操作方法。本篇文章介绍了pandas的一些基本操作和数据可视化方法，希望对大家有所帮助。
首页

课程中心

免费公开课

技术干货

就业动态

马哥动态

Python数据分析：利用pandas进行数据处理