pandas冷门又很强大的技巧-cut_技术 _ 頭條網

如果有一组数据，需要根据不同的范围返回一个标签，比如，一组成绩，60分以下不合格，60-80：良，80-95：优秀，我们可以通过判断来实现这个功能，但是如果让你平均分成4份，可能就会稍微麻烦点，在pandas中提供了一个可以实现上述功能的方法:

cut

参数解释：

pandas.cut

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise')[source]

Bin值为离散间隔。

需要将数据值分段并排序到箱中时使用cut。此函数对于从连续变量转换为分类变量也很有用。例如，cut可以将年龄转换为年龄范围组。支持分箱到相同数量的箱柜或预先指定的箱柜阵列。

x : array-like

数组或者序列，但是必须是一维的

bins : int, sequence of scalars, or IntervalIndex

int：定义x范围内的等宽bin的数量。 x的范围在每一侧扩展0.1％，以包括x的最小值和最大值。标量序列：定义bin边缘，允许不均匀的宽度。没有扩展x的范围。IntervalIndex：定义要使用的精确bin。请注意，bin的IntervalIndex必须不重叠。

right : bool, default True

指示是否包含最右边。如果right == True（默认值），则bin [1,2,3,4]表示(1,2], (2,3], (3,4]。当bin是IntervalIndex时，该参数被忽略。

labels : array or bool, optional

指定返回的bin的标签。必须与生成的箱柜长度相同。如果为False，则仅返回bin的整数指示符。这会影响输出容器的类型（见下文）。当bin是IntervalIndex时，将忽略此参数。

retbins : bool, default False

表示是否将分割后的bins返回，当bins为一个int型的标量时比较有用，这样可以得到划分后的区间，默认为False。

precision : int, default 3

保留区间小数点的位数，默认为3.

include_lowest : bool, default False

bool型的参数，表示区间的左边是开还是闭的，默认为false，也就是不包含区间左部（闭）。

duplicates : {default ‘raise’, ‘drop’}, optional

是否允许重复区间。有两种选择：raise：不允许，drop：允许。

返回值：

out：一个pandas.Categorical, Series或者ndarray类型的值，代表分区后x中的每个值在哪个bin（区间）中，如果指定了labels，则返回对应的label。

bins：分隔后的区间，当指定retbins为True时返回。

实例：

如果传入的是一个数组：

pd.cut(np.array([1, 7, 5, 4, 6, 3]), 3)

把它分成3份：

返回的是每个数据所在的区间

如果我们想看一下如何划分区间的：

pd.cut(np.array([1, 7, 5, 4, 6, 3]), 3, retbins=True)

如果想给每个划分的区间设置一个标签：

pd.cut(np.array([1, 7, 5, 4, 6, 3]), 3, labels=["bad", "medium", "good"])

返回的就不在是对应的划分区间，而是划分区间对应的标签，

需要注意的是标签要和划分的区间长度要相等

现在我们传入一个序列

s = pd.Series(np.array([2, 4, 6, 8, 10]),
index=['a', 'b', 'c', 'd', 'e'])

现在分成3组：

pd.cut(s, 3)

查看分的组：

pd.cut(s, 3,retbins=True)

给每个分组添加标签：

pd.cut(s, 3, labels=["bad", "medium", "good"])

如果传入bins一个分好的组：

pd.cut(s, bins=[0, 2, 4, 6, 8, 10], labels=False, retbins=True, right=False)

接下来需要讲一下分组的边界问题：

主要涉及这几个参数：right、include_lowest 、duplicates

right：默认为True

在默认情况下，每段值是不包含左边的界值，包含右边的界值（如上图）。

如果我们要选择左边界，那么只需要加一个参数：right = False就可以。

include_lowest:默认为FALSE

第一个间隔是否应该是包含在内

bins给定分组的第一个值是否包含在内，默认是不包含的，可以修改为True

duplicates：{default ‘raise’, ‘drop’}, optional

是否允许重复区间。有两种选择：raise：不允许，drop：允许。

扩展应用：groupby中利用cut分组当做分组的键：

新建数据：

df = pd.DataFrame({'Age': np.random.randint(20, 70, 100),
'Sex': np.random.choice(['Male', 'Female'], 100),
'number_of_foo': np.random.randint(1, 20, 100)})
df

利用分好的组当做分组的键：

age_groups = pd.cut(df['Age'], bins=[19,40,65,np.inf])
df.groupby(age_groups).mean()

参数解释：

实例：

接下来需要讲一下分组的边界问题：

扩展应用：groupby中利用cut分组当做分组的键：

相關文章:

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

第一章 Spring Framework概述

opencv人工智能深度学习这样实现人脸的年龄检测

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

深入了解ProcessFunction的状态操作(Flink-1.10)

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪