用Python简化数据分析：一次性学会NumPy，Pandas和Matplotlib

用Python简化数据分析：一次性学会NumPy，Pandas和Matplotlib

数据分析是一项在各种行业中越来越重要的工作，而Python已经成为数据分析师和科学家们的首选语言。 Python的强大功能和生态系统使其成为数据分析的理想选择。在本文中，我们将介绍三个Python库：NumPy，Pandas和Matplotlib，这些库是 Python 数据分析的基础。

NumPy

NumPy是Python的一个基础库，它提供了多维数组对象和一系列操作这些数组的函数。NumPy的主要功能之一是提供了高效的数组处理能力，因此它在数据分析中非常有用。以下是一些NumPy的基本操作：

1. 导入NumPy库并创建一个数组

```python
import numpy as np

data = np.array([1, 2, 3, 4, 5])
print(data)
```

输出：[1 2 3 4 5]

2. 数组的形状和尺寸

```python
import numpy as np

data = np.array([[1, 2], [3, 4], [5, 6]])
print(data.shape) # 输出：(3, 2)
print(data.size) # 输出：6
```

3. 数组的索引和切片

```python
import numpy as np

data = np.array([1, 2, 3, 4, 5])
print(data[2]) # 输出：3

data = np.array([[1, 2], [3, 4], [5, 6]])
print(data[1]) # 输出：[3 4]
print(data[1, 0]) # 输出：3

print(data[:, 1]) # 输出：[2 4 6]
```

Pandas

Pandas是一个用于数据分析的Python库，它提供了一个DataFrame对象，可用于处理各种类型的数据。Pandas 也提供了一些用于数据清理的功能。以下是一些Pandas的基本操作：

1. 导入Pandas库并创建一个DataFrame

```python
import pandas as pd

data = pd.DataFrame({'Country': ['China', 'India', 'USA', 'Indonesia'],
                     'Population': [1393, 1366, 329, 270],
                     'GDP': [147.3, 2.7, 19.4, 1.1]})
print(data)
```

输出：

|    | Country    |   Population |   GDP |
|---:|:-----------|-------------:|------:|
|  0 | China      |         1393 | 147.3 |
|  1 | India      |         1366 |   2.7 |
|  2 | USA        |          329 |  19.4 |
|  3 | Indonesia  |          270 |   1.1 |

2. DataFrame的基本信息

```python
import pandas as pd

data = pd.DataFrame({'Country': ['China', 'India', 'USA', 'Indonesia'],
                     'Population': [1393, 1366, 329, 270],
                     'GDP': [147.3, 2.7, 19.4, 1.1]})
print(data.shape) # 输出：(4, 3)
print(data.columns) # 输出：Index(['Country', 'Population', 'GDP'], dtype='object')
print(data.describe()) # 输出：描述性统计信息
```

3. 数据清洗

```python
import pandas as pd
import numpy as np

data = pd.DataFrame({'Country': ['China', 'India', 'USA', 'Indonesia'],
                     'Population': [1393, 1366, np.nan, 270],
                     'GDP': [147.3, 2.7, 19.4, np.nan]})
data.dropna(inplace=True) # 删除包含缺失值的行
print(data)
```

输出：

|    | Country   |   Population |   GDP |
|---:|:----------|-------------:|------:|
|  0 | China     |         1393 | 147.3 |

4. 数据筛选

```python
import pandas as pd

data = pd.DataFrame({'Country': ['China', 'India', 'USA', 'Indonesia'],
                     'Population': [1393, 1366, 329, 270],
                     'GDP': [147.3, 2.7, 19.4, 1.1]})
print(data[data['GDP'] > 10]) # 输出GDP大于10的行
```

输出：

|    | Country   |   Population |   GDP |
|---:|:----------|-------------:|------:|
|  0 | China     |         1393 | 147.3 |
|  2 | USA       |          329 |  19.4 |

Matplotlib

Matplotlib是Python中最常用的绘图库之一，它可以用来创建各种类型的图形。以下是一些Matplotlib的基本操作：

1. 导入Matplotlib库并创建一个简单的直方图

```python
import matplotlib.pyplot as plt
import numpy as np

data = np.random.normal(0, 1, 1000) # 生成1000个正态分布的随机数
plt.hist(data)
plt.show()
```

输出：

![histogram](https://i.imgur.com/ch3030v.png)

2. 创建一个散点图

```python
import matplotlib.pyplot as plt
import numpy as np

x = np.random.normal(0, 1, 100)
y = np.random.normal(0, 1, 100)
plt.scatter(x, y)
plt.show()
```

输出：

![scatter plot](https://i.imgur.com/1sHkzpn.png)

3. 创建一张折线图

```python
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.plot(x, y)
plt.show()
```

输出:

![line plot](https://i.imgur.com/4FoWr7e.png)

结论

本文介绍了 Python 数据分析中的三个基本库：NumPy，Pandas和Matplotlib。通过对这些库的了解，可以大大简化数据分析的工作，并使结果更加可读和易于理解。同时也可以发现 Python 生态系统中的其他强大库和工具，例如SciPy，scikit-learn和TensorFlow 等。
首页

课程中心

免费公开课

技术干货

就业动态

马哥动态

用Python简化数据分析：一次性学会NumPy，Pandas和Matplotlib