pandas数据结构

《pandas数据结构》

简介

pandas是数据处理和分析的操作工具,它是基于NumPy实现的,因此很多操作方式和NumPy相似。pandas广泛应用于数据处理领域,尤其在金融、机器学习方面应用甚多。它具有以下功能:

  • 能够按轴自动对齐数据;
  • 集成时间序列功能;
  • 同时处理时间序列数据和非时间序列数据;
  • 方便的进行算术运算和统计功能;
  • 灵活处理缺失值;
  • 快速合并数据;
  • 处理常见数据库的数据。

可以说pandas是数据分析师必备工具。在python中约定俗成的导入规则是:

在pandas中,有两种主要的数据结构:

  • Series
  • DataFrame

接下来将一一介绍。

Series

Series可以看成是一维数组,它是由一组数据和与之相关的索引做成。可以通过series()函数创建;

可以看出,创建的Series数据有两列值,第一列为索引值,如果创建的时候没有指定,就会默认使用0到N-1的整数索引;第二列为数据值。也可以通过指定索引来创建一个Series数据:

可以使用valuesindex属性获取它的数组形式和索引对象:

除此之外,还可以通过引入一个字典创建Series:

Series的索引也可以通过赋值的方式就地修改:

重新赋值的索引长度要和原来的长度一致才行。

DataFrame

DataFrame是一种表格型数据结构,可以把它看成是多个Series的组合。除了数据值以外,它既有行索引也有列索引。虽然DataFrame是以二维结构保存数据,但是通过层次化索引可以表示更高维度的数据。创建DataFrame的方法有很多,通常使用一个等长列表或NumPy数组组成的字典创建DataFrame:

通过字典创建的DataFrame,字典中的键变成了列索引。如果没有指定行索引,默认使用0到N-1的整数型索引。同样我们可以通过index关键字指定行索引:

如果我们要指定列的顺序,在创建DataFrame的时候通过columns关键字实现:

与Series一样,通过valuesindex属性获取它的数组形式和索引对象。除此之外,DataFrame还可以通过类似字典标记的方式或属性的方式访问指定的列:

另一种常见的创建DataFrame的方式是传入嵌套字典:

还可以通过赋值的方式修改列或者增加列:

如果不需要某列,可以通过del关键字删除:

总结

本文介绍了pandas中两种主要的数据结构以及它们的创建方式。在实际使用过程中,Series使用相对较少。在后续的文章中将会详细介绍DataFrame的使用。

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注

2 + 7 =