pandas去重、替换和重命名索引

《pandas去重、替换和重命名索引》

简介

本文将介绍pandas的几个实用操作——去重替换重命名索引

去除重复数据

在DataFrame中经常会碰到重复行数据,比如:

使用duplicated()方法能够返回一个布尔型Series:

默认是对所有列进行重复判断,False表示不重复,True表示重复。如果要去除重复行可以使用drop_duplicates()方法:

可以看出不加任何参数的话,是对所有列进行重复判断,也可以指定判断的列:

这里根据'n1'列进行重复判断,只保留了第一个出现的不重复的值。我们也可以通过keep参数控制重复值:

替换数据

在前面我们已经介绍了缺失值的替换,这里介绍通过replace()方法进行更普遍的替换。

假设有一个数据:

我们想要替换缺失值,可以这样处理:

只需要传入待替换值和替换值,我们也可以一次性替换多个数据:

如果针对不同的值替换不同的值有两种方式可以实现:

在DataFrame中使用的方式相同:

可以替换DataFrame中的数据,或者替换指定列中的数据,使用inplace参数可以对原数据对象进行修改。

重命名索引

首先介绍set_axis()方法重命名索引,例如:

可见这种方式是对原数据对象进行修改,在DataFrame中也是如此:

set_axis()方法是强制修改原数据对象,使用起来不够灵活。接下来要讲更适用的方法rename()

可以看出rename()方法可以传入一个字典,指定修改的轴索引。而且这个方法也有inplace参数可以决定是否修改原数据对象:

总结

本文介绍了pandas数据处理中的去重替换重命名索引操作。记住一点:操作的方法有很多,关键是要掌握不同方法的优劣,用适合自己的方式去处理数据。

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注

20 − 14 =