pandas group分组与agg聚合的实例-巨人网络通讯

主页 > 知识库 > pandas group分组与agg聚合的实例

pandas group分组与agg聚合的实例

如下：

import pandas as pd
 
df = pd.DataFrame({'Country':['China','China', 'India', 'India', 'America', 'Japan', 'China', 'India'], 
     'Income':[10000, 10000, 5000, 5002, 40000, 50000, 8000, 5000],
     'Age':[5000, 4321, 1234, 4010, 250, 250, 4500, 4321]})

构造的数据如下：

 Age Country Income
0 5000 China 10000
1 4321 China 10000
2 1234 India 5000
3 4010 India 5002
4 250 America 40000
5 250 Japan 50000
6 4500 China 8000
7 4321 India 5000

分组

单列分组

df_gb = df.groupby('Country')
for index, data in df_gb:
 print(index)
 print(data)

输出

America
 Age Country Income
4 250 America 40000
China
 Age Country Income
0 5000 China 10000
1 4321 China 10000
6 4500 China 8000
India
 Age Country Income
2 1234 India 5000
3 4010 India 5002
7 4321 India 5000
Japan
 Age Country Income
5 250 Japan 50000

多列分组

df_gb = df.groupby(['Country', 'Income'])
for (index1, index2), data in df_gb:
 print((index1, index2))
 print(data)

输出

('America', 40000)
 Age Country Income
4 250 America 40000
('China', 8000)
 Age Country Income
6 4500 China 8000
('China', 10000)
 Age Country Income
0 5000 China 10000
1 4321 China 10000
('India', 5000)
 Age Country Income
2 1234 India 5000
7 4321 India 5000
('India', 5002)
 Age Country Income
3 4010 India 5002
('Japan', 50000)
 Age Country Income
5 250 Japan 50000

聚合

对分组后数据进行聚合

默认情况对分组之后其他列进行聚合

df_agg = df.groupby('Country').agg(['min', 'mean', 'max'])
print(df_agg)

输出

 Age     Income      
   min   mean max min   mean max
Country              
America 250 250.000000 250 40000 40000.000000 40000
China 4321 4607.000000 5000 8000 9333.333333 10000
India 1234 3188.333333 4321 5000 5000.666667 5002
Japan  250 250.000000 250 50000 50000.000000 50000

对分组后的部分列进行聚合

某些情况，只需要对部分数据进行不同的聚合操作，可以通过字典来构建

num_agg = {'Age':['min', 'mean', 'max']}
print(df.groupby('Country').agg(num_agg))

输出

 Age     
   min   mean max
Country       
America 250 250.000000 250
China 4321 4607.000000 5000
India 1234 3188.333333 4321
Japan  250 250.000000 250
num_agg = {'Age':['min', 'mean', 'max'], 'Income':['min', 'max']}
print(df.groupby('Country').agg(num_agg))

输出

  Age     Income  
   min   mean max min max
Country          
America 250 250.000000 250 40000 40000
China 4321 4607.000000 5000 8000 10000
India 1234 3188.333333 4321 5000 5002
Japan  250 250.000000 250 50000 50000

补充：pandas——很全的groupby、agg，对表格数据分组与统计

我这篇groupby写的不好。太复杂了。其实实际上经常用的就那么几个。举个例子，把常用的往那一放就很容易理解和拿来用了。日后再写一篇。

groupby功能：分组

groupby + agg(聚集函数们)：分组后，对各组应用一些函数，如'sum',‘mean',‘max',‘min'…

groupby默认纵方向上分组，axis=0

DataFrame
import pandas as pd
import numpy as np

 df = pd.DataFrame({'key1':['a', 'a', 'b', 'b', 'a'],
     'key2':['one', 'two', 'one', 'two', 'one'],
     'data1':np.random.randn(5),
     'data2':np.random.randn(5)})
print(df)

  data1  data2 key1 key2
0 -0.410122 0.247895 a one
1 -0.627470 -0.989268 a two
2 0.179488 -0.054570 b one
3 -0.299878 -1.640494 b two
4 -0.297191 0.954447 a one

分组，并对分组进行迭代

list(df.groupby(['key1']))#list后得到：[(group1),(group2),......]

[('a',  data1  data2 key1 key2
 0 -0.410122 0.247895 a one
 1 -0.627470 -0.989268 a two
 4 -0.297191 0.954447 a one), ('b',  data1  data2 key1 key2
 2 0.179488 -0.054570 b one
 3 -0.299878 -1.640494 b two)]

list后得到：[(group1),(group2),…]

每个数据片(group)格式: (name,group)元组

1. 按key1（一个列）分组，其实是按key1的值

groupby对象支持迭代，产生一组二元元组：（分组名，数据块）,（分组名，数据块）…

for name,group in df.groupby(['key1']):
 print(name)
 print(group)

a
  data1  data2 key1 key2
0 -0.410122 0.247895 a one
1 -0.627470 -0.989268 a two
4 -0.297191 0.954447 a one
b
  data1  data2 key1 key2
2 0.179488 -0.054570 b one
3 -0.299878 -1.640494 b two

2. 按[key1, key2]（多个列）分组

对于多重键，产生的一组二元元组：（（k1,k2），数据块）,（（k1,k2），数据块）…

第一个元素是由键值组成的元组

for name,group in df.groupby(['key1','key2']):
 print(name) #name=(k1,k2)
 print(group)

('a', 'one')
  data1  data2 key1 key2
0 -0.410122 0.247895 a one
4 -0.297191 0.954447 a one
('a', 'two')
  data1  data2 key1 key2
1 -0.62747 -0.989268 a two
('b', 'one')
  data1 data2 key1 key2
2 0.179488 -0.05457 b one
('b', 'two')
  data1  data2 key1 key2
3 -0.299878 -1.640494 b two

3. 按函数分组

4. 按字典分组

5. 按索引级别分组

6.将函数跟数组、列表、字典、Series混合使用也不是问题，因为任何东西最终都会被转换为数组

将这些数据片段做成字典

dict(list(df.groupby(['key1'])))#dict(list())

{'a':  data1  data2 key1 key2
 0 -0.410122 0.247895 a one
 1 -0.627470 -0.989268 a two
 4 -0.297191 0.954447 a one, 'b':  data1  data2 key1 key2
 2 0.179488 -0.054570 b one
 3 -0.299878 -1.640494 b two}

分组后进行一些统计、计算等

1. 分组后，返回一个含有分组大小的Series

按key1分组

df.groupby(['key1']).size()

key1
a 3
b 2
dtype: int64

dict(['a1','x2','e3'])



{'a': '1', 'e': '3', 'x': '2'}

按[key1,key2]分组

df.groupby(['key1','key2']).size()

key1 key2
a  one  2
  two  1
b  one  1
  two  1
dtype: int64

2. 对data1按key1进行分组，并计算data1列的平均值

df['data1'].groupby(df['key1']).mean()
#groupby没有进行任何的计算。它只是进行了一个分组

key1
a -0.444928
b -0.060195
Name: data1, dtype: float64

df.groupby(['key1'])['data1'].mean()#理解：对df按key1分组，并计算分组后df['data1']的均值
#等价于：df.groupby(['key1']).data1.mean()

key1
a -0.444928
b -0.060195
Name: data1, dtype: float64

说明：

groupby没有进行任何的计算。它只是进行了一个分组。

数据（Series）根据分组键进行了聚合，产生了一个新的Series，其索引为key1列中的唯一值。

这种索引操作所返回的对象是一个已分组的DataFrame（如果传入的是列表或数组）或已分组的Series

df.groupby(['key1'])['data1'].size()

key1
a 3
b 2
Name: data1, dtype: int64

3.对data1按[key1,key2]进行分组，并计算data1的平均值

df['data1'].groupby([df['key1'],df['key2']]).mean()

key1 key2
a  one -0.353657
  two -0.627470
b  one  0.179488
  two -0.299878
Name: data1, dtype: float64

df.groupby(['key1','key2'])['data1'].mean()
#等价于：df.groupby(['key1','key2']).data1'.mean()

key1 key2
a  one -0.353657
  two -0.627470
b  one  0.179488
  two -0.299878
Name: data1, dtype: float64

通过两个键对数据进行了分组，得到的Series具有一个层次化索引（由唯一的键对组成）：

df.groupby(['key1','key2'])['data1'].mean().unstack()

key2	one	two
key1
a	-0.353657	-0.627470
b	0.179488	-0.299878

在上面这些示例中，分组键均为Series。实际上，分组键可以是任何长度适当的数组。非常灵活。

横方向上

按列的数据类型（df.dtypes）来分

df共两种数据类型：float64和object，所以会分为两组（dtype(‘float64'）,数据片),（dtype(‘O'), 数据片）

list(df.groupby(df.dtypes, axis=1))

[(dtype('float64'),  data1  data2
 0 -0.410122 0.247895
 1 -0.627470 -0.989268
 2 0.179488 -0.054570
 3 -0.299878 -1.640494
 4 -0.297191 0.954447), (dtype('O'), key1 key2
 0 a one
 1 a two
 2 b one
 3 b two
 4 a one)]

agg的应用

groupby+agg 可以对groupby的结果同时应用多个函数

SeriesGroupBy的方法agg()参数：

aggregate(self, func_or_funcs, * args, ** kwargs)
func: function, string, dictionary, or list of string/functions

返回：aggregated的Series

s= pd.Series([10,20,30,40])
s

0 10
1 20
2 30
3 40
dtype: int64

for n,g in s.groupby([1,1,2,2]):
 print(n)
 print(g)

0 10
1 20
dtype: int64
2
2 30
3 40
dtype: int64

s.groupby([1,1,2,2]).min()
1
1 10
2 30
dtype: int64

#等价于这个：
s.groupby([1,1,2,2]).agg('min')

1 10
2 30
dtype: int64

s.groupby([1,1,2,2]).agg(['min','max'])#加[]，func仅接受一个参数

	min	max
1	10	20
2	30	40

常常这样用：

df

	data1	data2	key1	key2
0	-0.410122	0.247895	a	one
1	-0.627470	-0.989268	a	two
2	0.179488	-0.054570	b	one
3	-0.299878	-1.640494	b	two
4	-0.297191	0.954447	a	one

比较下面，可以看出agg的用处：

df.groupby(['key1'])['data1'].min()

key1
a -0.627470
b -0.299878
Name: data1, dtype: float64

df.groupby(['key1'])['data1'].agg({'min'})

	min
key1
a	-0.627470
b	-0.299878

#推荐用这个√
df.groupby(['key1']).agg({'data1':'min'})#对data1列，取各组的最小值，名字还是data1

	data1
key1
a	-0.627470
b	-0.299878

#按key1分组后，aggregate各组data1的最小值和最大值：
df.groupby(['key1'])['data1'].agg({'min','max'})

	max	min
key1
a	-0.297191	-0.627470
b	0.179488	-0.299878

#推荐用这个√
df.groupby(['key1']).agg({'data1':['min','max']})

	data1
	min	max
key1
a	-0.627470	-0.297191
b	-0.299878	0.179488

可以对groupby的结果更正列名（不推荐用这个，哪怕在后面单独更改列名）

# 对data1，把min更名为a，max更名为b
df.groupby(['key1'])['data1'].agg({'a':'min','b':'max'})#这里的'min' 'max'为两个函数名

d:\python27\lib\site-packages\ipykernel_launcher.py:2: FutureWarning: using a dict on a Series for aggregation
is deprecated and will be removed in a future version

	a	b
key1
a	-0.627470	-0.297191
b	-0.299878	0.179488

重要技巧： groupby之后直接.reset_index()可以得到一个没有多级索引的DataFrame

之后可以通过df.rename({‘old_col1':‘new_col1',‘old_col2':‘new_col2',…})重命名

eg:

df1= df.groupby(['date'])['price'].agg({'sum','count'}).reset_index()

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。如有错误或未考虑完全的地方，望不吝赐教。

您可能感兴趣的文章:

Pandas中DataFrame的分组/分割/合并的实现
pandas 实现分组后取第N行
pandas分组排序如何获取第二大的数据
pandas groupby分组对象的组内排序解决方案
pandas组内排序,并在每个分组内按序打上序号的操作
pandas 实现某一列分组,其他列合并成list

标签：随州安庆西安锦州白城股票日照天水

巨人网络通讯声明：本文标题《pandas group分组与agg聚合的实例》，本文关键词 pandas,group,分组,与,agg,聚合,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《pandas group分组与agg聚合的实例》相关的同类信息！

pandas group分组与agg聚合的实例

如下： import pandas as pd df = pd.DataFrame({'Country':['China','China', 'India', 'India', 'America', 'Japan', 'China', 'India'], 'Income':[10000, 10000, 5000, 5002, 40000, 50000, 8000, 5000], 'Age':[5000, 4321, 1234, 4010, 250, 250, 45...

10-18

电销卡为什么要收费用？

相信很多没有用过电销卡的朋友，第一次买卡都会有这个疑问，就是电销卡为什么要收取一个额外的费用呢？有这个疑问也不...

05-30

丽江语音电销机器人（电销机器人电话机器人）

本文目录一览： 1、电销板滞人运用成就怎样样 2、电销板滞人是什么？ 3、电销板滞人怎样样？ 4、电销板滞人有什么听命...

11-25

电话机器人在自来水客服中心的应用

随着技术的进步，人工智能已经开始走入我们的生活，而且正以一种磁悬浮般的速度向我们奔来。人工智能将会为我们带来哪...

10-24

400电话对企业的好处用代理商安装400电话怎样？怎样选择代理商？

400电话不会占线，这样可以有效的增加用户的体验，也可以直接提升企业的业务量，所以400电话的优势对于企业来说有着极大...

01-12

金华房地产电销软件公司,电话营销线路-价格靠谱

金华房地产电销软件公司,电话营销线路不会受到情绪的影响，流畅的与客户进行沟通，回答专业性的问题，提高成交率。依...

12-17

常州客服外呼系统开发（常州呼叫中心）

本文目录一览： 1、外呼系统怎么办理？2、哪些电话外呼系统及电话销售系统好使？而且功能完善？3、外呼系统哪家公司做...

11-27

安阳ai电话机器人加盟（安阳ai电话机器人加盟店）

本篇文章给咱们谈谈安阳AI电话机器人加盟，以及安阳ai电话机器人加盟店对应的知识点，希望对各位有所协助，不要忘了保...

06-12

金华稳定群呼线路办理公司,呼叫中心软件-原创

金华稳定群呼线路办理公司,呼叫中心软件但实际意图客户很少，不是电动推销员能力不好，不是销售员技能不够，但在电话...

12-16

WinXP系统提示werfault.exe应用程序错误该怎么办?

电脑总是提示werfault.exe应用程序错误该怎么办？请问图片中是什么原因？截图是程序错误（内存不能读）。首先要知道werf...

10-20

无锡联通电销线路办理多少钱,呼叫中心系统哪家好-大家都知道

无锡联通电销线路办理多少钱,呼叫中心系统哪家好怎样去了解呼叫中心是最快的途径？这个其实都不我们说，您就会知道，...

12-16

南京华翔云语app

南京华翔云语app，办理南京华翔云语app，南京华翔云语app办理云语app 自带黑名单过滤系统呼出不限归属地齐全需要的老板...

11-23

佛山人工外呼系统怎么样（广州外呼系统哪里有）

今天给各位分享佛山人工外呼系统怎么样的知识，其中也会对广州外呼系统哪里有进行解释，如果能碰巧解决你现在面临的问...

11-06

微信公众号代运营公司如何吸粉？有哪些技巧？

微信公众号代运营本身的吸粉的具体办法就有很多，所以这也是威海市呢么会有很多企业和商家挑选公众号代运营的主要原因...

03-01

贵阳不封卡电销卡办理（贵阳办电话卡）

本篇文章给大家谈谈贵阳不封卡电销卡办理，以及贵阳办电话卡对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。...

05-18

怎么申请一个400的电话（怎样申请400电话号码）

怎么申请一个400的电话（怎样申请400电话号码）近年来，越来越多的企业开始使用400电话，它可以提高客服效率、降低客户...

08-14

金华稳定电话呼叫软件多少钱,呼叫中心系统办理多少钱-了解详情

金华稳定电话呼叫软件多少钱,呼叫中心系统办理多少钱大家知道一个电子商务企业建立呼叫中心。第一个就是客服，有些客...

12-16

ofo新增用户远超摩拜成行业第一品牌增速连续8个月第一

共享单车在近年来的快速普及，为在城市生活的用户带来了极大的便当，同时也让城市的生活环境变得更加绿色。进入 2017...

10-16

移动蓝星卡9元套餐怎么样?

现在有很多的流量卡月租非常便宜，但是像移动蓝星卡这样只要9元月租的卡也是很少的，接下来我们来看下移动蓝星卡9元套...

10-20

哪里有羿智云外呼系统（智云呼官网）

本文目次一览： 1、成都那家外呼体系对照好， 2、外呼软件有哪些？ 3、电销外呼体系哪个好了？市道上的太多了！有可能推...

11-26

ai电话机器人讯飞（ai语音电话机器人）

本篇文章给咱们谈谈ai电话机器人讯飞，以及ai语音电话机器人对应的知识点，期望对各位有所协助，不要忘了保藏本站喔。...

05-17

周乔亮：政采IT项目如何选择服务外包供应商

在政府采购活动中，与IT有关的采购项目较多，频率也较高。这是因为政府机关、吃财政饭的公共事业机构以及为社会提供公...

10-22

Win10 Build 10125测试版修复了斯巴达项目存在的大问题

Windows 10 Build 10125测试版刚刚在互联网上泄露，感兴趣的可以下载安装（Win10 Build 10125 86/64位ios镜像下载），它可能没有的新功...

10-20

400电话有哪些智能转接模式

每个企业的400电话都需要绑定多个固话和手机，当用户的拨打咨询时，怎么转接绑定的电话，这就是400电话的智能转接模式。...

05-09

如何成为一名客服“神枪手”

“我们都是神枪手，每一颗子弹消灭一个敌人”，这是经典红色歌曲《游击队之歌》当中的一句歌词。作为客服行业从业者，...

10-22

成都语音外呼系统线路（成都电话外呼系统）

本文目录一览： 1、外呼线路供给(电话发售公用) 2、成都那家外呼体系对照好， 3、外呼线路供给是什么？ 4、外呼体系什么...

11-25

人工客服机器人云呼ai_电话机器人

比人工销售电话机器人更容易使用。电话机器人一天可以打800-1000通电话，不受环境、感情、身体状况等的影响，经常进行稳...

10-31

郑州自动外呼系统价钱（智能外呼系统费用）

本文目录一览： 1、外呼体系什么价格？2、外呼体系装置需求哪些费用？3、外呼体系多少钱一个月？4、外呼体系一个多少钱...

04-23

正规物联卡公司排行，谁第一？（物联卡公司排行榜）

随着社会、科技、经济全面发展，物联网发展、物联卡广泛已成为必不可当的趋势。市面上物联卡公司更是层出不穷。究竟哪...

11-07

语音外呼系统平台软件价格（语音营销外呼系统）

本文目录一览： 1、呼叫中心或外呼系统哪种又便宜又好的啊2、外呼系统安装需要哪些费用？3、外呼系统一个多少钱，有哪...

11-27

苏州电销防封app代理

苏州电销防封app代理电销app：操作简单便捷！手机下载APP就可直接在线拨打！不封号、强大CRM管理系统！也可以通过API接...

12-03

电信400客服电话是多少电信打400电话要钱吗

400电话是运营商专门为企业设计的呼叫管理中心。它有20多种功能，不仅可以提高企业的通信效率和服务水平，还可以提升企...

01-13

电销卡是什么样的卡号（电销卡是什么卡?谁知道?）

本文目录一览：1、电销卡到底是什么卡呢?2、电销卡和电话卡的区别有哪些?3、电销卡是什么?为什么电销卡也会封号?电销卡...

07-10

Centos系统用户密码字符串生成命令-shadow

这两天在看puppet，准备用这个管理我手下系统的用户添加分配与删除工作，不过每次要是都用系统的passwd命令生成用户密码那...

10-20

携程商户怎么显示到高德地图？携程地图商户位置服务？

请问：携程的酒店定位？您好您可以致电酒店问一下具体位置使用百度地图查询会更加准确手机携程如何连接百度地图？...

11-26

400号怎样申请

申请400号码，需要根据具体需求选择相应的运营商和服务商，按照要求填写相关申请表格，并缴纳相应的费用。下面详细介绍...

07-21

电销免封号好用吗

电销免封号好用吗电销卡的使用成本相对来说是比较低的，一般来说都是套餐服务，一个外呼电话也就几分钱，所以这样也...

12-16

2013十大网络流行用语 2013十大最新网络语言 2013十大最火网络语言

由国家语言资源监测与研究网络媒体中心、商务印书馆、中国网络电视台联合主办的汉语盘点2013近日在京揭晓。经过专家评...

10-19

南阳市稳定不封号电销卡便宜

早期，三大运营商各分配了3000万码号资源，空留1704号段无人认领。不过，随着联通合作虚拟运营商飞速发展用户，联通不仅...

02-23

史上最“给力”的机器人——FANUCM-2000iA机器人

在过去的生产模式中，要搬运重量级物品的时候一般都需要输送带或者有类似功能的机器。虽然很多厂家仍然在使用这种机器...

10-30

呼叫中心客服系统-企蜂-企蜂云

客户关系管理的实施重在员工的参与，让员工充分的认识到其中的价值尤为重要。要实施新的客户管理模式，还要适应一个相...

本篇文章给大家谈谈石家庄电话机器人如何，以及大连电话机器人对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔...

05-03

德阳电话机器人（德阳电话机器人系统）

本文目录一览：1、阿里斯顿太阳能24小时官网电话热线-(全国各网点)24小时400服务热线_百...2、ai问答机器人在线3、315之后,骚...

08-28

诚信可靠的电销外呼系统（电话销售外呼系统软件电销网）

本文目录一览： 1、电销外呼体系哪个好了？市面上的太多了！有能够引荐的吗？2、有靠谱的外呼体系吗，别让我再办卡，公...

11-28

录音外呼系统怎么删录音（呼呼收音机怎么删除录音）

今天给各位分享录音外呼系统怎么删录音的知识，其中也会对呼呼收音机怎么删除录音进行解释，如果能碰巧解决你现在面临...

11-06

如何在百度地图注册多个店面？如何在百度地图注册多个店面入驻？

如何在百度地图上标注多个地点？地理法：举例来说：的地理位置 1、点内右上角的容第2个图标（如图），确认“收藏点”...

11-27

400电话办理怎样选择适合套餐企业400电话申请的套餐选择

选择合适的400电话套餐，不仅可以为企业节省成本，避免浪费，还可以满足企业的所有需求。面对10多个400电话套餐，我该如...

01-12

电销卡代理商湛江店（销售电销卡）

本文目录一览： 1、湛江哪里有沟通100营业厅，我想办全球通卡。2、电销卡不封号卡哪里有卖3、电销卡在哪里办理4、长江电...

04-22

兰州企业外呼系统公司的简单介绍

今天给各位分享兰州企业外呼系统公司的知识，其中也会对进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，...

05-17

包含催收外呼系统联系方式的词条

本篇文章给我们谈谈催收外呼体系联络方法，以及对应的知识点，期望对各位有所协助，不要忘了保藏本站喔。本文目录一...

05-18

pandas group分组与agg聚合的实例

10-18

本页收集关于pandas group分组与agg聚合的实例的相关信息资讯供网民参考！

下一篇：详解python requests中的post请求的参数问题

一起分享吧