在Python中,pandas
库是一个非常强大的数据处理工具,它提供了DataFrame
这个数据结构,用于处理和分析表格数据。DataFrame
是一个二维的、大小可变的、潜在的异质的表格数据结构,它是Python编程语言中pandas库的一部分。DataFrame
是Python编程语言中pandas库的一部分,它是Python编程语言中pandas库的一部分。
创建DataFrame
1、从字典创建
可以使用字典来创建一个DataFrame,其中字典的键将成为列名,而字典的值将成为列中的数据。
import pandas as pd data = { 'name': ['Alice', 'Bob', 'Cathy'], 'age': [25, 30, 35], 'city': ['New York', 'San Francisco', 'Los Angeles'] } df = pd.DataFrame(data)
2、从列表创建
可以使用列表来创建一个DataFrame,其中每个子列表将成为一行。
data = [['Alice', 25, 'New York'], ['Bob', 30, 'San Francisco'], ['Cathy', 35, 'Los Angeles']] df = pd.DataFrame(data, columns=['name', 'age', 'city'])
3、从其他DataFrame创建
可以使用现有的DataFrame来创建一个新的DataFrame,可以选择性地指定行和列的范围。
df_new = df[['name', 'age']]
4、从文件创建
可以使用read_csv
、read_excel
等函数从文件中读取数据并创建DataFrame。
df = pd.read_csv('data.csv')
常用操作
1、选择行和列
可以使用列名或索引值来选择行和列。
选择列 df['name'] 选择行 df.loc[0]
2、筛选数据
可以使用布尔表达式来筛选数据。
筛选年龄大于30的人 df[df['age'] > 30]
3、排序数据
可以使用sort_values
函数对数据进行排序。
按年龄升序排序 df.sort_values(by='age')
4、分组和聚合数据
可以使用groupby
函数对数据进行分组,然后使用聚合函数(如sum
、mean
等)对分组后的数据进行聚合。
按城市分组,计算每个城市的平均年龄 df.groupby('city')['age'].mean()
5、合并和连接数据
可以使用merge
、concat
等函数将多个DataFrame合并成一个。
合并两个DataFrame,按名字列进行连接 pd.merge(df1, df2, on='name')
常用函数
1、描述性统计
可以使用describe
函数获取数据的描述性统计信息,如计数、平均值、标准差等。
df.describe()
2、缺失值处理
可以使用dropna
、fillna
等函数对缺失值进行处理。
删除包含缺失值的行 df.dropna() 用平均值填充缺失值 df.fillna(df.mean())
3、字符串操作
可以使用str
属性对字符串列进行操作,如替换、分割等。
将名字中的空格替换为下划线 df['name'] = df['name'].str.replace(' ', '_')
pandas
库中的DataFrame
是一个非常实用的数据结构,可以帮助我们轻松地处理和分析表格数据,通过掌握上述常用操作和函数,我们可以更高效地处理数据,从而更好地支持数据分析和建模工作。
原创文章,作者:酷盾叔,如若转载,请注明出处:https://www.kdun.com/ask/288035.html
本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。
发表回复