Pandas快速笔记

1 Pandas$^{[1]}$

python下数据分析库。

1.1 数据结构

1.1.1 Series

Pandas Series 类似表格中的一个(column),类似于一维数组,可以保存任何数据类型。

1
pandas.Series( data, index, dtype, name, copy)

参数说明:

  • data:一组数据(ndarray 类型)。
  • index:数据索引标签,如果不指定,默认从 0 开始。
  • dtype:数据类型,默认会自己判断。
  • name:设置名称。
  • copy:拷贝数据,默认为 False。
1
2
print(pd.Series([1, 2, "数据3"], ["数据1", "数据2", 3]))	#data,index构造
print(pd.Series({"数据1": 1, "数据2": 2, 3: "数据3"})) #字典key:value构造
1
2
3
4
5
6
7
8
数据1      1
数据2 2
3 数据3
dtype: object
数据1 1
数据2 2
3 数据3
dtype: object

左侧一列是索引,右侧一列是数据,一一对应。

1.1.2 DataFrame

DataFrame 是一个表格型的数据结构)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

img

1
pandas.DataFrame( data, index, columns, dtype, copy)

参数说明:

  • data:一组数据(ndarray、series, map, lists, dict 等类型)。
  • index:索引值,或者可以称为行标签。
  • columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。
  • dtype:数据类型。
  • copy:拷贝数据,默认为 False。
.loc属性

返回指定行的数据。

1
2
3
df.loc[0]	#返回第一行(单行),返回一个Series
df.loc[[0,1]] #返回第一行和第二行(多行),返回一个DataFrame
df.loc["行索引"]

1.1.3 CSV文件

CSV(Comma-Separated Values,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。

1
2
3
4
5
df = pd.read_csv("xxx.csv")	#读取csv文件并返回一个DataFrame
df.to_csv("xxx.csv") #将DataFrame保存为csv文件
df.head(n) #返回前n行,默认为5
df.tail(n) #返回最后n行,默认为5
df.info() #返回表格的一些基本信息

1.1.4 数据操作

  • **dropna()**删除包含空字段的行

    1
    DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

    参数说明:

    • axis:默认为 0,表示逢空值剔除整行,如果设置参数 axis=1 表示逢空值去掉整列。
    • how:默认为 ‘any’ 如果一行(或一列)里任何一个数据有出现 NA 就去掉整行,如果设置 how=’all’ 一行(或列)都是 NA 才去掉这整行。
    • thresh:设置需要多少非空值的数据才可以保留下来的。
    • subset:设置想要检查的列。如果是多个列,可以使用列名的 list 作为参数。
    • inplace:如果设置 True,将计算得到的值直接覆盖之前的值并返回 None,修改的是源数据。
  • **isnull()**判断各个单元格是否为空。

  • **fillna()**替换空字段。

  • **duplicated()**判断对应数据是否重复。

  • drop_duplicates() 删除重复数据。

  • **merge**合并表格(DataFrame)。

    1
    newData = pd.merge(left, right, how: str = "inner", on=None)
    • left和right均为DataFrame类型
    • how指定合并方式:
      • inner(缺省):求交
      • left:以左表格为主进行合并
      • right:以右表格为主进行合并
      • outer:求并
    • on指定按某一列进行合并

参考

[1] Pandas 教程 | 菜鸟教程 (runoob.com)