Pandas快速笔记
1 Pandas$^{[1]}$
python下数据分析库。
1.1 数据结构
1.1.1 Series
Pandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。
1 |
|
参数说明:
- data:一组数据(ndarray 类型)。
- index:数据索引标签,如果不指定,默认从 0 开始。
- dtype:数据类型,默认会自己判断。
- name:设置名称。
- copy:拷贝数据,默认为 False。
1 |
|
1 |
|
左侧一列是索引,右侧一列是数据,一一对应。
1.1.2 DataFrame
DataFrame 是一个表格型的数据结构)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。
1 |
|
参数说明:
- data:一组数据(ndarray、series, map, lists, dict 等类型)。
- index:索引值,或者可以称为行标签。
- columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。
- dtype:数据类型。
- copy:拷贝数据,默认为 False。
.loc属性
返回指定行的数据。
1 |
|
1.1.3 CSV文件
CSV(Comma-Separated Values,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。
1 |
|
1.1.4 数据操作
**
dropna()
**删除包含空字段的行1
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
参数说明:
- axis:默认为 0,表示逢空值剔除整行,如果设置参数 axis=1 表示逢空值去掉整列。
- how:默认为 ‘any’ 如果一行(或一列)里任何一个数据有出现 NA 就去掉整行,如果设置 how=’all’ 一行(或列)都是 NA 才去掉这整行。
- thresh:设置需要多少非空值的数据才可以保留下来的。
- subset:设置想要检查的列。如果是多个列,可以使用列名的 list 作为参数。
- inplace:如果设置 True,将计算得到的值直接覆盖之前的值并返回 None,修改的是源数据。
**
isnull()
**判断各个单元格是否为空。**
fillna()
**替换空字段。**
duplicated()
**判断对应数据是否重复。drop_duplicates()
删除重复数据。**
merge
**合并表格(DataFrame)。1
newData = pd.merge(left, right, how: str = "inner", on=None)
- left和right均为DataFrame类型
- how指定合并方式:
- inner(缺省):求交
- left:以左表格为主进行合并
- right:以右表格为主进行合并
- outer:求并
- on指定按某一列进行合并
参考
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!