Pandas数据分析库入门教程

Pandas是一个Python数据处理库，它提供了高效的数据结构和数据分析工具，可以帮助我们完成各种数据分析任务。本文将介绍Pandas库的基础知识，包括数据结构、数据读写、数据选择和数据操作等。

1. 数据结构

Pandas库提供了两种主要的数据结构：Series和DataFrame。

Series是一种类似于一维数组的数据类型，它由一组数据和一组与之相关的标签（索引）组成。我们可以使用下面的语法创建一个Series对象：

import pandas as pd
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

在这个例子中，我们创建了一个由五个整数组成的Series对象，并将其与字符标签（a, b, c, d, e）相关联。可以使用下面的语法访问Series对象中的数据和标签：

print(s[0]) # 输出 1
print(s['a']) # 输出 1
print(s[[0, 3]]) # 输出 a    1
                 #     d    4
                 #     dtype: int64
print(s[['a', 'c']]) # 输出 a    1
                      #     c    3
                      #     dtype: int64

DataFrame是一种二维表格数据结构，它由一组行和一组列组成。我们可以使用下面的语法创建一个DataFrame对象：

import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 35, 40],
        'country': ['USA', 'Canada', 'UK', 'Australia']}
df = pd.DataFrame(data)

在这个例子中，我们创建了一个由四行三列的DataFrame对象，并将其与列标签（name, age, country）相关联。可以使用下面的语法访问DataFrame对象中的数据和标签：

print(df.head()) # 输出   name  age    country
                 #        0    Alice   25        USA
                 #        1      Bob   30     Canada
                 #        2  Charlie   35         UK
                 #        3    David   40  Australia
print(df['name']) # 输出 0       Alice
                  #     1         Bob
                  #     2     Charlie
                  #     3       David
                  #     Name: name, dtype: object
print(df.loc[0]) # 输出 name         Alice
                 #     age            25
                 #     country       USA
                 #     Name: 0, dtype: object
print(df.iloc[0]) # 输出 name     Alice
                  #     age        25
                  #     country   USA
                  #     Name: 0, dtype: object

2. 数据读写

Pandas库支持多种数据格式，包括CSV、Excel、JSON、SQL等。我们可以使用下面的语法读取和写入CSV格式的数据：

import pandas as pd
df = pd.read_csv('data.csv')
df.to_csv('data.csv')

在这个例子中，我们读取了一个名为data.csv的CSV文件，并将其存储在一个DataFrame对象中。然后，我们将DataFrame对象中的数据写入到data.csv文件中。

3. 数据选择

Pandas库提供了多种方法来选择数据，包括按标签、按位置、按条件等。我们可以使用下面的语法选择DataFrame对象中的数据：

import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 35, 40],
        'country': ['USA', 'Canada', 'UK', 'Australia']}
df = pd.DataFrame(data)

# 按标签选择数据
print(df.loc[0]) # 输出 name         Alice
                 #     age            25
                 #     country       USA
                 #     Name: 0, dtype: object
print(df.loc[[0, 2]]) # 输出     name  age country
                      #     0  Alice   25     USA
                      #     2   Charlie   35      UK

# 按位置选择数据
print(df.iloc[0]) # 输出 name         Alice
                  #     age            25
                  #     country       USA
                  #     Name: 0, dtype: object
print(df.iloc[[0, 2]]) # 输出      name  age country
                       #      0  Alice   25     USA
                       #      2   Charlie   35      UK

# 按条件选择数据
print(df[df['age'] > 30]) # 输出       name  age    country
                        #     2  Charlie   35         UK
                        #     3    David   40  Australia

4. 数据操作

Pandas库还提供了多种数据操作方法，包括数据清洗、数据转换、数据聚合等。我们可以使用下面的语法对DataFrame对象进行操作：

import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 35, 40],
        'country': ['USA', 'Canada', 'UK', 'Australia']}
df = pd.DataFrame(data)

# 数据清洗
df = df.drop(columns=['country']) # 删除country列

# 数据转换
df['age'] = df['age'].apply(lambda x: x * 2) # 将age列中的数据乘以2

# 数据聚合
df_mean = df.groupby('name').mean() # 按name列对数据进行分组并计算每个组的平均值

以上就是Pandas数据分析库的入门教程，希望能帮助读者快速掌握基础知识，并开始进行实际的数据分析任务。
首页

课程中心

免费公开课

技术干货

就业动态

马哥动态

Pandas数据分析库入门教程