20个Pandas数据实战案例，干货多多

作者：俊欣

来源：关于数据分析与可视化

今天我们讲一下pandas当中的数据过滤内容，小编之前也写过也一篇相类似的文章，但是是基于文本数据的过滤，大家有兴趣也可以去查阅一下。

下面小编会给出大概20个案例来详细说明数据过滤的方法，首先我们先建立要用到的数据集，代码如下

import pandas as pd
df = pd.DataFrame({
    "name": ["John","Jane","Emily","Lisa","Matt"],
    "note": [92,94,87,82,90],
    "profession":["Electrical engineer","Mechanical engineer",
                  "Data scientist","Accountant","Athlete"],
    "date_of_birth":["1998-11-01","2002-08-14","1996-01-12",
                     "2002-10-24","2004-04-05"],
    "group":["A","B","B","A","C"]
})

output

    name  note           profession date_of_birth group
0   John    92  Electrical engineer    1998-11-01     A
1   Jane    94  Mechanical engineer    2002-08-14     B
2  Emily    87       Data scientist    1996-01-12     B
3   Lisa    82           Accountant    2002-10-24     A
4   Matt    90              Athlete    2004-04-05     C

筛选表格中的若干列

代码如下

df[["name","note"]]

output

    name  note
0   John    92
1   Jane    94
2  Emily    87
3   Lisa    82
4   Matt    90

再筛选出若干行

我们基于上面搜索出的结果之上，再筛选出若干行，代码如下

df.loc[:3, ["name","note"]]

output

    name  note
0   John    92
1   Jane    94
2  Emily    87
3   Lisa    82

根据索引来过滤数据

这里我们用到的是iloc方法，代码如下

df.iloc[:3, 2]

output

0    Electrical engineer
1    Mechanical engineer
2         Data scientist

通过比较运算符来筛选数据

df[df.note > 90]

output

   name  note           profession date_of_birth group
0  John    92  Electrical engineer    1998-11-01     A
1  Jane    94  Mechanical engineer    2002-08-14     B

dt属性接口

dt属性接口是用于处理时间类型的数据的，当然首先我们需要将字符串类型的数据，或者其他类型的数据转换成事件类型的数据，然后再处理，代码如下

df.date_of_birth = df.date_of_birth.astype("datetime64[ns]")
df[df.date_of_birth.dt.month==11]

output

   name  note           profession date_of_birth group
0  John    92  Electrical engineer    1998-11-01     A

或者我们也可以

df[df.date_of_birth.dt.year > 2000]

output

   name  note           profession date_of_birth group
1  Jane    94  Mechanical engineer    2002-08-14     B
3  Lisa    82           Accountant    2002-10-24     A
4  Matt    90              Athlete    2004-04-05     C

多个条件交集过滤数据

当我们遇上多个条件，并且是交集的情况下过滤数据时，代码应该这么来写

df[(df.date_of_birth.dt.year > 2000) &  
   (df.profession.str.contains("engineer"))]

output

   name  note           profession date_of_birth group
1  Jane    94  Mechanical engineer    2002-08-14     B

多个条件并集筛选数据

当多个条件是以并集的方式来过滤数据的时候，代码如下

df[(df.note > 90) | (df.profession=="Data scientist")]

output

    name  note           profession date_of_birth group
0   John    92  Electrical engineer    1998-11-01     A
1   Jane    94  Mechanical engineer    2002-08-14     B
2  Emily    87       Data scientist    1996-01-12     B

Query方法过滤数据

Pandas当中的query方法也可以对数据进行过滤，我们将过滤的条件输入

df.query("note > 90")

output

   name  note           profession date_of_birth group
0  John    92  Electrical engineer    1998-11-01     A
1  Jane    94  Mechanical engineer    2002-08-14     B

又或者是

df.query("group=='A' and note > 89")

output

   name  note           profession date_of_birth group
0  John    92  Electrical engineer    1998-11-01     A

nsmallest方法过滤数据

pandas当中的nsmallest以及nlargest方法是用来找到数据集当中最大、最小的若干数据，代码如下

df.nsmallest(2, "note")

output

    name  note      profession date_of_birth group
3   Lisa    82      Accountant    2002-10-24     A
2  Emily    87  Data scientist    1996-01-12     B

df.nlargest(2, "note")

output

   name  note           profession date_of_birth group
1  Jane    94  Mechanical engineer    2002-08-14     B
0  John    92  Electrical engineer    1998-11-01     A

isna()方法

isna()方法功能在于过滤出那些是空值的数据，首先我们将表格当中的某些数据设置成空值

df.loc[0, "profession"] = np.nan
df[df.profession.isna()]

output

   name  note profession date_of_birth group
0  John    92        NaN    1998-11-01     A

notna()方法

notna()方法上面的isna()方法正好相反的功能在于过滤出那些不是空值的数据，代码如下

df[df.profession.notna()]

output

    name  note           profession date_of_birth group
1   Jane    94  Mechanical engineer    2002-08-14     B
2  Emily    87       Data scientist    1996-01-12     B
3   Lisa    82           Accountant    2002-10-24     A
4   Matt    90              Athlete    2004-04-05     C

assign方法

pandas当中的assign方法作用是直接向数据集当中来添加一列

df_1 = df.assign(score=np.random.randint(0,100,size=5))
df_1

output

    name  note           profession date_of_birth group  score
0   John    92  Electrical engineer    1998-11-01     A     19
1   Jane    94  Mechanical engineer    2002-08-14     B     84
2  Emily    87       Data scientist    1996-01-12     B     68
3   Lisa    82           Accountant    2002-10-24     A     70
4   Matt    90              Athlete    2004-04-05     C     39

explode方法

explode()方法直译的话，是爆炸的意思，我们经常会遇到这样的数据集

  Name            Hobby
0   吕布  [打篮球, 玩游戏, 喝奶茶]
1   貂蝉       [敲代码, 看电影]
2   赵云        [听音乐, 健身]

Hobby列当中的每行数据都以列表的形式集中到了一起，而explode()方法则是将这些集中到一起的数据拆开来，代码如下

 Name Hobby
0   吕布   打篮球
0   吕布   玩游戏
0   吕布   喝奶茶
1   貂蝉   敲代码
1   貂蝉   看电影
2   赵云   听音乐
2   赵云    健身

当然我们会展开来之后，数据会存在重复的情况，

df.explode('Hobby').drop_duplicates().reset_index(drop=True)

output

 Name Hobby
0   吕布   打篮球
1   吕布   玩游戏
2   吕布   喝奶茶
3   貂蝉   敲代码
4   貂蝉   看电影
5   赵云   听音乐
6   赵云    健身

展开阅读全文

页面更新：2024-04-03

标签：数据干货奶茶实战表格看电影属性接口条件案例类型代码方法

1 2 3 4 5

港股日报来了！恒指破关键点位，阿里、腾讯创新低，大佬抄底也被套！B站亏损翻番，市值缩水8成

中国基金报记者姚波多重负面因素共振之下，恒指击穿22000点，创下自2020年疫情全球爆发以来新低。汽车、零售、消费者服务、互联网及医疗跌幅居前。普跌局面下，机构调低恒指最差目标点位。摩根士丹利首席亚洲股票策略师郭

如果你现在很穷，不妨试一下互联网低成本的轻创业，也许会有惊喜

我是小萌姐姐，自由撰稿人。点击右上角“关注”，为您分享自媒体变现和女性成长干货。大家好，我是小萌，一个从0开始学写作，3个月拿到稿费，并成为百万大号签约作者的自由撰稿人。在头条做分享，经常会有读者朋友咨询写作创业的

李嘉诚逃离英国，欧洲股市又崩盘了

今天以为是独立行情，结果走成了骗炮行情！全天看，指数风轻云淡，个股屁滚尿流。两市仅1000家上涨，3500多家下跌，涨跌中位数-1.27%，亏钱效应明显啊。尤其是创业板又快新低了，有点让人懵逼！近期市场比较极端，一天KTV、一天ICU，板块

今日A股为啥突然大跌？原因找到了！下周一股市会跌吗？

收盘三大指数集体收跌，上证指数跌幅为0.96%，深证指数跌幅为1.37%，创业板指数跌幅为1.55%；个股普遍下跌为主，上涨个股有1026家，下跌个股高达3546家；个股超70%下跌，从跌幅榜来看，鸿蒙概念和可燃冰大跌，油气改革、培育钻石和有机硅

全国政协委员莫天全建议：调整二孩、三孩家庭的住房信贷政策

澎湃新闻记者计思敏3月4日，澎湃新闻（www.thepaper.cn）获悉，全国政协委员莫天全在2022年两会期间提交了六份提案，其中包括关于推进房地产业良性循环和健康发展的建议。莫天全指出，2021年，中国房地产市场经历了从2021年上半年

俄乌第二轮会谈结束，双方就临时停火达成一致

原标题：凌晨, 俄乌第二轮会谈结束，双方就临时停火达成一致！美国宣布对8名普京亲信及其家人实施制裁；东阿阿胶原总裁被查！涉嫌严重违纪违法公司Wind数据显示，如果将披露2021年业绩快报和2021年正式年报的公司都算在内，截至目

西江月.春讯

昨夜东风唱晓，今朝杨柳枝娇。衔泥紫燕弄新潮，回首当年难觉。水面鸳鸯戏闹，角楼春讯频抛。薄云淡月度良宵，往事皆随烟袅。

农村的夫妻

世上最亲近的人不是父母兄弟姐妹不是儿女子孙而是毫无血缘关系的夫妻生时吵吵闹闹同甘苦死后一穴共眠泥销骨

学会自己给自己“看病”

很赞同这样一段话：“习惯从别人的眼光中寻找自己，结果茫茫然；从别人的赞扬中放大自己，结果飘飘然；在别人的议论中扭曲自己，结果昏昏然。” 当下，很多人信奉“多栽花，少种刺”，不敢或不愿给他人挑毛病，所以指望外人给自己“看

108岁的日本老人分享晚年长寿秘籍，做自己想做的事，活得更年轻

108岁的日本老人分享晚年长寿秘籍，做自己想做的事，活得更年轻。生而为人，不管经历多少岁月，内心深处总有想要做的事情，想要去见的人，和想要追求的生活。所谓的长寿秘籍，不过是能够在漫长的时光里面，找到适合自己的方式。不管

中国探月工程四期已启动，未来十年陆续实施，建立月球科研站基本型

未来，中国人将努力实现从火星采样返回，在这之前，我国已经有了从地外天体取样返回的经验积累，并且已圆满完成探月工程三步走规划。中国探月工程三期总设计师胡浩表示：目前探月工程四期已经启动，为载人登月做技术储备。记者：是

中国古人就懂得量子纠缠，并知道如何应用，两个故事告诉你

在量子力学里有许多诡异现象，其中就包括量子纠缠。那么什么是量子纠缠呢？就是把几个组合在一起的量子强行分开，你就会发现，一个量子怎么动，另一个或几个量子也怎么动，没有距离限制，并且是同时进行。这就好比你和你女朋友，把

地球有多幸运才造就了如今的生机勃勃？简直是巧夺天工

地球，承载着人类所有的梦想，是千万物种的共同家园。地球的环境有多么完美？我们每天生活在其中很难通过对比感受得到。但我们可以想象得到，一旦离开地球到了外太空，我们在地球上拥有的一切都会消失不见。没有了地球的保护，意

为什么太阳系内有如此多的小行星？听完科学家的解释恍然大悟

太阳系是以太阳为中心并受其引力维持运转的天体系统太阳系是一个复杂且巨大的天体系统，虽然从宇宙的尺度来看，太阳系十分普通，在宇宙中存在大量和太阳类似的恒星，在银河系中就存在至少3000万个恒星，每个恒星都拥有一个和太

长征八号一箭22星，连助推器都不用，印度曾发射104颗却自愧不如

提到中国航天，近年来可谓是颇有建树，尤其是中国长征运载火箭，已经达到了4代19种型号。除此之外，中国航天此前发射了长征八号运载火箭，并且还完成了一箭22星发射任务。这也就意味着中国航天再度打破了，曾经在2015年由长征六

上滑加载更多 ↓

20个Pandas数据实战案例，干货多多

筛选表格中的若干列

再筛选出若干行

根据索引来过滤数据

通过比较运算符来筛选数据

dt属性接口

多个条件交集过滤数据

多个条件并集筛选数据

Query方法过滤数据

nsmallest方法过滤数据

isna()方法

notna()方法

assign方法

explode方法

港股日报来了！恒指破关键点位，阿里、腾讯创新低，大佬抄底也被套！B站亏损翻番，市值缩水8成

如果你现在很穷，不妨试一下互联网低成本的轻创业，也许会有惊喜

李嘉诚逃离英国，欧洲股市又崩盘了

今日A股为啥突然大跌？原因找到了！下周一股市会跌吗？

全国政协委员莫天全建议：调整二孩、三孩家庭的住房信贷政策

俄乌第二轮会谈结束，双方就临时停火达成一致

西江月.春讯

农村的夫妻

学会自己给自己“看病”

108岁的日本老人分享晚年长寿秘籍，做自己想做的事，活得更年轻

中国探月工程四期已启动，未来十年陆续实施，建立月球科研站基本型

中国古人就懂得量子纠缠，并知道如何应用，两个故事告诉你

地球有多幸运才造就了如今的生机勃勃？简直是巧夺天工

为什么太阳系内有如此多的小行星？听完科学家的解释恍然大悟

长征八号一箭22星，连助推器都不用，印度曾发射104颗却自愧不如

孩子不爱吃洋葱，用了一个小方法，一口气吃6个还说没过瘾

媒体晒费城新三巨头数据，霍华德点赞

别再写 main 方法测试了，太 Low！这才是专业 Java 测试方

每天20分钟，孩子玩出超强专注力，妈妈的方法很简单值得学

英伟达证实遭遇攻击，核心源代码惨遭泄露，75GB机密数据被

Python项目实战：OpenCV计算机视觉在Web端的部署（二）

幼儿园阶段，有4种家长不讨老师喜欢，跟家庭条件没有直接

毛衣起球显质感差五种处理毛衣起球的方法分享

鱼刺卡在喉咙，不要再喝醋了，教你简单方法，鱼刺自动跑出来

慢sql治理经典案例分享