python中dataframe函数用法

在Python中，pandas库是一个非常强大的数据处理工具，它提供了DataFrame这个数据结构，用于处理和分析表格数据。DataFrame是一个二维的、大小可变的、潜在的异质的表格数据结构，它是Python编程语言中pandas库的一部分。DataFrame是Python编程语言中pandas库的一部分，它是Python编程语言中pandas库的一部分。

（图片来源网络，侵删）

创建DataFrame

1、从字典创建

可以使用字典来创建一个DataFrame，其中字典的键将成为列名，而字典的值将成为列中的数据。

import pandas as pd
data = {
    'name': ['Alice', 'Bob', 'Cathy'],
    'age': [25, 30, 35],
    'city': ['New York', 'San Francisco', 'Los Angeles']
}
df = pd.DataFrame(data)

2、从列表创建

可以使用列表来创建一个DataFrame，其中每个子列表将成为一行。

data = [['Alice', 25, 'New York'],
        ['Bob', 30, 'San Francisco'],
        ['Cathy', 35, 'Los Angeles']]
df = pd.DataFrame(data, columns=['name', 'age', 'city'])

3、从其他DataFrame创建

可以使用现有的DataFrame来创建一个新的DataFrame，可以选择性地指定行和列的范围。

df_new = df[['name', 'age']]

4、从文件创建

可以使用read_csv、read_excel等函数从文件中读取数据并创建DataFrame。

df = pd.read_csv('data.csv')

常用操作

1、选择行和列

可以使用列名或索引值来选择行和列。

选择列
df['name']
选择行
df.loc[0]

2、筛选数据

可以使用布尔表达式来筛选数据。

筛选年龄大于30的人
df[df['age'] > 30]

3、排序数据

可以使用sort_values函数对数据进行排序。

按年龄升序排序
df.sort_values(by='age')

4、分组和聚合数据

可以使用groupby函数对数据进行分组，然后使用聚合函数（如sum、mean等）对分组后的数据进行聚合。

按城市分组，计算每个城市的平均年龄
df.groupby('city')['age'].mean()

5、合并和连接数据

可以使用merge、concat等函数将多个DataFrame合并成一个。

合并两个DataFrame，按名字列进行连接
pd.merge(df1, df2, on='name')

常用函数

1、描述性统计

可以使用describe函数获取数据的描述性统计信息，如计数、平均值、标准差等。

df.describe()

2、缺失值处理

可以使用dropna、fillna等函数对缺失值进行处理。

删除包含缺失值的行
df.dropna()
用平均值填充缺失值
df.fillna(df.mean())

3、字符串操作

可以使用str属性对字符串列进行操作，如替换、分割等。

将名字中的空格替换为下划线
df['name'] = df['name'].str.replace(' ', '_')

pandas库中的DataFrame是一个非常实用的数据结构，可以帮助我们轻松地处理和分析表格数据，通过掌握上述常用操作和函数，我们可以更高效地处理数据，从而更好地支持数据分析和建模工作。

原创文章，作者：酷盾叔，如若转载，请注明出处：https://www.kdun.com/ask/288035.html

本网站发布或转载的文章及图片均来自网络，其原创性以及文中表达的观点和判断不代表本网站。如有问题，请联系客服处理。

python中dataframe函数用法

创建DataFrame

常用操作

常用函数

相关推荐

如何在MySQL中使用循环语句进行数据处理？

MySQL数据库中如何处理多个字段重复问题？

如何在MySQL中使用IP地址函数来处理IP地址数据？

如何实现MySQL数据库中缺失值的自动填充？

发表回复