Python数据处理：Pandas从入门到精通

Python数据处理：Pandas从入门到精通

Python是当今最流行的编程语言之一，其在数据处理和数据分析方面的应用越来越广泛。Pandas是Python数据处理中最重要的库之一，它提供了高性能、易于使用的数据结构和数据分析工具，使得Python在这个领域越来越受欢迎。

本文将介绍Pandas库的基本概念和使用方法，涵盖了从入门到精通的所有内容。我们将从Pandas的数据结构开始，介绍Series和DataFrame对象及其操作方法。然后，我们将深入了解如何进行数据选择、索引和过滤，以及如何对数据进行排序、聚合和分组。

Pandas的数据结构

Pandas中最重要的数据结构是Series和DataFrame。Series是一维数组，它可以存储任何数据类型，包括整数、浮点数、字符串和Python对象。DataFrame是二维表格，它可以存储多个Series，每个Series代表一个列。DataFrame也可以在行方向上进行索引，每一行都代表一个观测结果。

创建Series对象的方法非常简单，只需要传入一个Python列表即可：

```python
import pandas as pd
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)
```

输出：

```
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
```

在这个例子中，我们创建了一个包含6个元素的Series，其中第四个元素是NaN（即“Not a Number”，表示缺失值）。Pandas默认会将NaN值识别为缺失值，因此我们可以使用fillna()方法来填充缺失值：

```python
s.fillna(0)
```

输出：

```
0    1.0
1    3.0
2    5.0
3    0.0
4    6.0
5    8.0
dtype: float64
```

DataFrame对象可以通过多种方式创建，最常见的方法是传入一个字典。字典的每个键代表一个列的名称，而字典的每个值代表该列的数据。如果字典中的每个值都是长度相等的列表或数组，则它们将自动组合成DataFrame：

```python
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 35, 40],
        'city': ['New York', 'Paris', 'London', 'Tokyo']}
df = pd.DataFrame(data)
print(df)
```

输出：

```
       name  age      city
0     Alice   25  New York
1       Bob   30     Paris
2   Charlie   35    London
3     David   40     Tokyo
```

对数据的选择、索引和过滤

Pandas提供了多种方法来选择、索引和过滤数据。首先，我们可以使用loc和iloc属性来选择行和列。

loc使用标签来选择行和列，可以使用单个标签、标签列表或标签范围：

```python
df.loc[1:2, 'name':'age']
```

输出：

```
      name  age
1      Bob   30
2  Charlie   35
```

iloc使用整数位置来选择行和列，可以使用单个整数、整数列表或整数范围：

```python
df.iloc[1:3, 0:2]
```

输出：

```
      name  age
1      Bob   30
2  Charlie   35
```

Pandas还支持使用布尔索引来选择和过滤数据。我们可以将一个条件表达式应用于整个DataFrame，并根据条件输出True或False的布尔值：

```python
df['age'] > 30
```

输出：

```
0    False
1    False
2     True
3     True
Name: age, dtype: bool
```

然后，我们可以将这个条件表达式传递给DataFrame，并只选择那些为True的行：

```python
df[df['age'] > 30]
```

输出：

```
     name  age   city
2  Charlie   35  London
3    David   40  Tokyo
```

对数据的排序、聚合和分组

Pandas提供了多种方法来排序、聚合和分组数据。首先，我们可以使用sort_values()方法按列的值对数据进行排序：

```python
df.sort_values(by='age')
```

输出：

```
      name  age      city
0    Alice   25  New York
1      Bob   30     Paris
2  Charlie   35    London
3    David   40     Tokyo
```

我们还可以使用groupby()方法将数据按照某些标准进行分组。例如，我们可以将数据按城市进行分组，并计算每个城市中年龄的平均值：

```python
df.groupby('city')['age'].mean()
```

输出：

```
city
London      35
New York    25
Paris       30
Tokyo       40
Name: age, dtype: int64
```

我们还可以将多个标准组合起来进行分组。例如，我们可以将数据按城市和性别进行分组，并计算每个组中年龄的平均值：

```python
df.groupby(['city', 'gender'])['age'].mean()
```

输出：

```
city      gender
London    Female    35.0
New York  Male      25.0
Paris     Male      30.0
Tokyo     Male      40.0
Name: age, dtype: float64
```

结语

本文介绍了Pandas库的基本概念和使用方法，涵盖了从入门到精通的所有内容。我们介绍了Pandas的数据结构、数据选择、索引和过滤、数据排序、聚合和分组等方面的知识点。通过本文的学习，读者将掌握Pandas库的核心功能，能够在Python中高效地进行数据处理和数据分析。
首页

课程中心

免费公开课

技术干货

就业动态

马哥动态

Python数据处理：Pandas从入门到精通