【数据操作】Python Pandas常用基础操作总结 Pandas 是 Python 语言中一个强大且灵活的数据分析工具,它提供了高效、易用的数据操作功能。在本文中,我们将回顾一些 Pandas 常用基础操作,以帮助您更加有效地处理数据。 1.创建 DataFrame DataFrame 是 Pandas 中最重要的数据结构之一,它提供了一种灵活、高效的表格型数据结构,类似于 R 中的数据框。我们可以通过多种方式来创建一个 DataFrame,例如: ```python import pandas as pd # 从 CSV 文件中读取 df = pd.read_csv('data.csv') # 从字典中创建 data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35]} df = pd.DataFrame(data) # 从 Numpy 数组中创建 import numpy as np data = np.array([[1, 2], [3, 4], [5, 6]]) df = pd.DataFrame(data, columns=['a', 'b']) # 从外部数据库导入 import sqlalchemy engine = sqlalchemy.create_engine('mysql+pymysql://user:password@localhost/mydb') df = pd.read_sql("SELECT * FROM mytable", engine) ``` 2.数据选择和过滤 Pandas 提供了类似于 SQL 的语法,可以轻松地对 DataFrame 中的数据进行选择和过滤。例如,我们可以通过如下方式选择一列数据: ```python df['name'] ``` 如果我们需要选择多个列,可以使用以下方式: ```python df[['name', 'age']] ``` 数据还可以根据条件进行选择和过滤。例如,我们可以使用以下方式选择年龄大于 30 岁的人: ```python df[df['age'] > 30] ``` 也可以使用 loc 和 iloc 来按照标签或位置选择数据。例如,以下代码选择第一行数据: ```python df.iloc[0] ``` 3.数据排序 在 Pandas 中,我们可以使用 sort_values() 方法对 DataFrame 进行排序。以下是一个简单的示例: ```python df.sort_values(by=['age'], ascending=False) ``` 此代码将按照年龄从大到小对数据进行排序。 4.数据聚合 Pandas 提供了许多用于数据聚合的函数,例如 mean()、sum()、max()、min() 等等。以下代码使用 mean() 函数计算年龄的平均值: ```python df['age'].mean() ``` 我们也可以对多个列进行聚合,例如以下代码将根据年龄和姓名计算平均值: ```python df.groupby(['name', 'age']).mean() ``` 5.数据合并 Pandas 中的 merge() 函数允许我们将不同的 DataFrame 合并为一个。以下是一个简单的示例: ```python df1 = pd.DataFrame({'name': ['Alice', 'Bob'], 'age': [25, 30]}) df2 = pd.DataFrame({'name': ['Charlie', 'Dave'], 'age': [35, 40]}) df = pd.concat([df1, df2]) ``` 此代码将创建一个新的 DataFrame,其中包含 df1 和 df2 中的所有数据。 总结 Pandas 是 Python 中一个强大且灵活的数据分析工具,提供了高效、易用的数据操作功能。我们可以使用 Pandas 创建 DataFrame、选择和过滤数据、排序、聚合和合并数据。通过掌握这些基础操作,我们可以更有效地处理和分析数据。