匠心精神 - 良心品质腾讯认可的专业机构-IT人的高薪实战学院

咨询电话:4000806560

「Python」 Pandas中DataFrame的常用操作,玩转数据分析

Python是一种广泛使用的高级编程语言,适用于不同领域的编程任务,例如数据分析。其中,Pandas是Python中重要的数据分析库,主要用于数据的清洗、转换和分析。DataFrame是一种Pandas中重要的数据结构,在数据分析中经常被使用。本文将介绍DataFrame在Pandas中的常用操作,帮助读者更好地玩转数据分析。

1. 创建DataFrame

Pandas中的DataFrame可以通过从不同的数据源中读取数据来创建,如CSV文件、Excel文件、SQL数据库或其他数据源。除此之外,还可以通过Python中的字典或numpy中的数组来创建DataFrame。

示例代码如下:

```python
import pandas as pd

# 通过字典创建DataFrame
data = {'name': ['John', 'Mary', 'Peter', 'Tom'],
        'age': [25, 28, 21, 35],
        'city': ['New York', 'London', 'Paris', 'Tokyo']}
df = pd.DataFrame(data)

# 通过numpy数组创建DataFrame
import numpy as np
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df = pd.DataFrame(data, columns=['A', 'B', 'C'])
```

2. 查看DataFrame

在数据分析中,经常需要查看DataFrame的基本信息,例如列名称、数据类型、数据行数等。可以使用Pandas中的一些函数来查看DataFrame的基本信息。

示例代码如下:

```python
# 查看DataFrame的列名称
print(df.columns)

# 查看DataFrame的数据类型
print(df.dtypes)

# 查看DataFrame的数据行数
print(df.shape[0])
```

3. 筛选DataFrame

在数据分析中,有时需要筛选出特定的数据行或列进行分析。可以使用Pandas中的一些函数对DataFrame进行筛选。

示例代码如下:

```python
# 筛选年龄小于30岁的数据行
df_young = df[df['age'] < 30]

# 筛选名字为Peter或Tom的数据行
df_pt = df[df['name'].isin(['Peter', 'Tom'])]

# 筛选第一列和第二列的数据列
df_ab = df[['A', 'B']]
```

4. 排序DataFrame

在数据分析中,有时需要对DataFrame按照某一列进行排序。可以使用Pandas中的sort_values函数对DataFrame进行排序。

示例代码如下:

```python
# 按照年龄从小到大对数据进行排序
df_sort = df.sort_values(by=['age'])
```

5. 统计DataFrame

在数据分析中,有时需要对DataFrame进行统计分析,例如计算平均值、方差、最大值、最小值等。可以使用Pandas中的一些函数对DataFrame进行统计。

示例代码如下:

```python
# 计算年龄的平均值
avg_age = df['age'].mean()

# 计算年龄的方差
var_age = df['age'].var()

# 计算年龄的最大值
max_age = df['age'].max()

# 计算年龄的最小值
min_age = df['age'].min()
```

6. 分组DataFrame

在数据分析中,有时需要对DataFrame按照某一列进行分组分析。可以使用Pandas中的groupby函数对DataFrame进行分组。

示例代码如下:

```python
# 按照城市进行分组,并计算每个城市的平均年龄
df_group = df.groupby('city').agg({'age': 'mean'})
```

以上就是Pandas中DataFrame的常用操作,希望本文能够对初学者有所帮助。读者可以通过实践不断深入学习Pandas,从而更好地玩转数据分析。