当前位置: 首页 > news >正文

中国建设银行网站江苏分行哈尔滨网站推广

中国建设银行网站江苏分行,哈尔滨网站推广,南皮做网站,wordpress qqword内容目录1. 添加随机日期2. 聚合求和3.聚合求和排序4. 聚合求和排序取前十5. 聚合取极值6. 重新赋值7. 按条件赋值pandas作为数据处理的得力工具,简便了数据开发过程,之前串联了pandas的使用方法,现在用几个小案例巩固一下常用的pandas方法。…

内容目录

      • 1. 添加随机日期
      • 2. 聚合求和
      • 3.聚合求和排序
      • 4. 聚合求和排序取前十
      • 5. 聚合取极值
      • 6. 重新赋值
      • 7. 按条件赋值

pandas作为数据处理的得力工具,简便了数据开发过程,之前串联了pandas的使用方法,现在用几个小案例巩固一下常用的pandas方法。

前一章节的pandas使用链接:pandas模块的使用
假设有一个数据文件,是某个网站的点击、下单记录(说明:数据只是模拟案例提供使用,没有任何实际意义)

page click add pay cost		
1516609143869 2 8 92 9

假设一行数据如上所示,分别为页面、点击、添加、支付、花费等字段,那么需要实现的功能如下。

1. 添加随机日期

数据缺少日期,为了模拟数据,需要对每行数据增加一个随机日期,要求:日期范围在2023-01-01 至 2023-01-15之间

# TODO 1 : 读入数据到DataFrame
data = pd.DataFrame(pd.read_table(path, sep= ' ', header=None, names=['page','click','add','pay','cost']))

为每行数据增加一个随机日期

# TODO 2 : 增加随机日期,范围在01-01,01-15之间
dates = pd.date_range(start='2023-01-01', end='2023-01-15', periods=len(data))
date_rng_formatted = [date.strftime("%Y-%m-%d") for date in dates]data['dt'] = np.random.choice(date_rng_formatted, len(data))

2. 聚合求和

要求:按照page字段聚合,求click、add、pay的和

# TODO 3 : 每个页面的总共点击、添加、支付、花费总
df_sum = data.groupby('page').agg({'click':'sum','add':'sum','pay':'sum', 'cost':'sum'})

3.聚合求和排序

要求:每个页面的总共点击、添加、支付、花费总量按照点击、添加、支付、花费排序

# TODO 4 : 每个页面的总共点击、添加、支付、花费总量按照点击、添加、支付、花费排序
df_sort = data.groupby('page').agg({'click':'sum','add':'sum','pay':'sum', 'cost':'sum'}).sort_values(['click','add','cost'],ascending=False)

4. 聚合求和排序取前十

这里分为两个类别:

  1. 聚合求和排序后取全部的前十
# 方法一
# TODO 5 : 每个页面的总共点击、添加、支付、花费总量按照点击、添加、支付、花费排序,取前十
df_sort_get = data.groupby('page').agg({'click':'sum','add':'sum','pay':'sum', 'cost':'sum'}).sort_values(['click','add','cost'],ascending=False).head(10)#方法二
df_sort_get = data.groupby('page').agg({'click':'sum','add':'sum','pay':'sum', 'cost':'sum'}).sort_values(['click','add','cost'],ascending=False).iloc[:10]
  1. 聚合求和排序后取每个分组的前十
# TODO 6 : 每个页面总共点击、添加、支付的总和排序并取组内前十
df_group_sort_get = data.sort_values(['click','add','cost'], ascending=False).groupby('page').head(5).iloc[:,[0,1,2,3]]

5. 聚合取极值

要求:按照日期,取每个日期里点击量最多的记录

# TODO 7 : 求每日点击总和最多的页面并按照dt字段升序输出
df_dt_page = data.groupby(['page','dt']).agg({'click':'sum'}).sort_values(['click'], ascending=False).groupby('dt').head(1).sort_values('dt')

6. 重新赋值

要求:将每个页面总点击数量不超过100的重新赋值为0

# TODO 8 : 将每个页面总点击数量不超过100的重新赋值为0
data_sum = data.groupby(['page']).agg({'click':'sum'})
data_sum.loc[data_sum['click']<100,'click'] = 0

7. 按条件赋值

要求:将每个页面总点击数量不超过100的重新赋值为0,否则为1,并赋予新列

# TODO 9 : 将每个页面总点击数量不超过100的重新赋值为0,否则为1,并赋予新列
data_sum_tmp = data.groupby(['page']).agg({'click':'sum'})
def func(x):if x['click'] < 100:return 0else:return 1
data_sum_tmp['new_cloumn'] = data_sum_tmp.apply(func, axis=1)

以上列举了几个常用到的pandas处理方法,但是不够全面,在真实使用下肯定用到的方法和技巧会更多,需要多多练习和总结。

http://www.yidumall.com/news/103852.html

相关文章:

  • 做亚马逊有哪些站外折扣网站网络营销方案怎么写
  • 网站做采集会有问题么关联词有哪些关系
  • 龙岗平湖网站建设公司关键词优化搜索引擎
  • 网站给假冒伪劣产品做推广西安关键词优化软件
  • 福州网站建设工作室推广方式和推广渠道
  • 保定网站制作专业济南新闻头条最新事件
  • wordpress安装二级目录西安百度提升优化
  • 展示型网站一样做seo优化吗下拉框关键词软件
  • 网站链接推广工具软文推广系统
  • 网站ui界面设计模板百度指数免费添加
  • 注塑模具东莞网站建设最近的电脑培训学校
  • 邯郸网站建设联系电话百度搜索排名怎么收费
  • 织梦网站模板套用企业seo排名
  • 步步高学习机进网站怎么做百度信息流广告位置
  • 网站建设验收内容网站服务器怎么搭建
  • 怎么做网站投放adsense企业网站推广方案的策划
  • 网站logo怎么做透明网球新闻最新消息
  • 泰安网站建设哪家专业百度客服中心人工电话
  • 苏州相城做网站哪家好电商网站建设教程
  • 江苏网络公司网站建设高报师培训机构排名
  • 海纳网站建设百度网站认证
  • 山西省工程建设标准定额网站凡科网免费建站
  • 正能量软件不良网站直播百度搜索简洁版网址
  • 洛阳网站建设内容传统营销方式有哪些
  • 广东今天新闻最新消息百度产品优化排名软件
  • 系统下载网站源码百度推广开户多少钱一个月
  • 可信网站多少钱2020最成功的网络营销
  • 网站的布局方式有哪些内容怎样在百度上做广告
  • 如何找人做网站营销推广公司
  • 竞价推广方案怎么写关键词seo排名怎么样