匠心精神 - 良心品质腾讯认可的专业机构-IT人的高薪实战学院

咨询电话:4000806560

【数据操作】Python Pandas常用基础操作总结

【数据操作】Python Pandas常用基础操作总结

Pandas 是 Python 语言中一个强大且灵活的数据分析工具,它提供了高效、易用的数据操作功能。在本文中,我们将回顾一些 Pandas 常用基础操作,以帮助您更加有效地处理数据。

1.创建 DataFrame

DataFrame 是 Pandas 中最重要的数据结构之一,它提供了一种灵活、高效的表格型数据结构,类似于 R 中的数据框。我们可以通过多种方式来创建一个 DataFrame,例如:

```python
import pandas as pd

# 从 CSV 文件中读取
df = pd.read_csv('data.csv')

# 从字典中创建
data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35]}
df = pd.DataFrame(data)

# 从 Numpy 数组中创建
import numpy as np
data = np.array([[1, 2], [3, 4], [5, 6]])
df = pd.DataFrame(data, columns=['a', 'b'])

# 从外部数据库导入
import sqlalchemy
engine = sqlalchemy.create_engine('mysql+pymysql://user:password@localhost/mydb')
df = pd.read_sql("SELECT * FROM mytable", engine)
```

2.数据选择和过滤

Pandas 提供了类似于 SQL 的语法,可以轻松地对 DataFrame 中的数据进行选择和过滤。例如,我们可以通过如下方式选择一列数据:

```python
df['name']
```

如果我们需要选择多个列,可以使用以下方式:

```python
df[['name', 'age']]
```

数据还可以根据条件进行选择和过滤。例如,我们可以使用以下方式选择年龄大于 30 岁的人:

```python
df[df['age'] > 30]
```

也可以使用 loc 和 iloc 来按照标签或位置选择数据。例如,以下代码选择第一行数据:

```python
df.iloc[0]
```

3.数据排序

在 Pandas 中,我们可以使用 sort_values() 方法对 DataFrame 进行排序。以下是一个简单的示例:

```python
df.sort_values(by=['age'], ascending=False)
```

此代码将按照年龄从大到小对数据进行排序。

4.数据聚合

Pandas 提供了许多用于数据聚合的函数,例如 mean()、sum()、max()、min() 等等。以下代码使用 mean() 函数计算年龄的平均值:

```python
df['age'].mean()
```

我们也可以对多个列进行聚合,例如以下代码将根据年龄和姓名计算平均值:

```python
df.groupby(['name', 'age']).mean()
```

5.数据合并

Pandas 中的 merge() 函数允许我们将不同的 DataFrame 合并为一个。以下是一个简单的示例:

```python
df1 = pd.DataFrame({'name': ['Alice', 'Bob'], 'age': [25, 30]})
df2 = pd.DataFrame({'name': ['Charlie', 'Dave'], 'age': [35, 40]})
df = pd.concat([df1, df2])
```

此代码将创建一个新的 DataFrame,其中包含 df1 和 df2 中的所有数据。

总结

Pandas 是 Python 中一个强大且灵活的数据分析工具,提供了高效、易用的数据操作功能。我们可以使用 Pandas 创建 DataFrame、选择和过滤数据、排序、聚合和合并数据。通过掌握这些基础操作,我们可以更有效地处理和分析数据。