爆款云主机2核4G限时秒杀,88元/年起!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心

      Python描述性统计示例

      首页 知识中心 软件开发 文章详情页

      Python描述性统计示例

      2024-09-23 05:58:49 阅读次数:34

                                        Python描述性统计示例

      1 声明

      本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。

      2 描述性统计分析简介

      描述性统计分析是指运用制表和分类,图形以及计算概括性数据来描述数据特征的一种分析活动。因为本文采用的是Python语言,所以这里采用dataframe、pyplot里的方法来实现数据的描述性统计分析。

      3 描述下二手房数据

      import pandas as pd
      import warnings # current version of seaborn generates a bunch of warnings that we'll ignore
      warnings.filterwarnings("ignore")
      import seaborn as sns
      import matplotlib.pyplot as plt
      sns.set(, color_codes=True)
      
      def sndhsVisual():
          ##该数据集有区域、房间数、大厅数、面积数、楼层、有无地铁、有无学区、价格等字段
          hsdata = pd.read_csv('input/sndHsPr.csv')
          #print(hsdata.head())
          ##print(hsdata.price.quantile([0.25,0.5,0.75,0.4,0.5,0.6,0.7,0.8,0.9,1.0]))
          ##打印各个段的中位数
          ##print(hsdata.price.quantile([0.25,0.5,0.75,1.0]))
          #定义区映射字段,方便图标展示
          dictDist = {
              u'chaoyang':"朝阳",
              u'dongcheng':"东城",
              u'fengtai':"丰台",
              u'haidian':"海淀",
              u'shijingshan':"石景山",
              u'xicheng':"西城"
          }
          #对dist(地区)字段应用APPLY方法替换
          hsdata.dist = hsdata.dist.apply(lambda x: dictDist[x])
      
          from scipy import stats
          import numpy as np
          ###print(type(stats.mode(hsdata.price)[0][0]))
      
          ##获取均值、中位数、标准差
          print(hsdata.price.agg(['mean','median','std']))
          #方法一通过stats.mode获取众数
          mode = np.array(stats.mode(hsdata.price)[0][0].tolist())
          mean_median=hsdata.price.agg(['mean', 'median', 'std']).as_matrix()
          merger = np.hstack((mode, mean_median))
          ###print(type(merger))  ##类型为ndarray
          ##获取众数、均值、中位数、标准差
          print(pd.Series(merger,index=['mode','mean', 'median', 'std']))
          print('###############')
          ##方法二通过value_counts下的index.get_level_values获取众数
          mode_n = hsdata['price'].value_counts(ascending=False).index.get_level_values(0).values[0]
          print(pd.Series([mode_n],index=['mode']).append(hsdata.price.agg(['mean','median','std'])))
          print('###############')
          ##大于0的,右偏数据
          print("偏度"+str(hsdata['price'].skew())) # 大于0的,右偏数据
          ##小于0的,分散的
          print("峰度"+str(hsdata['price'].kurtosis())) #小于0的,分散的
          ##print(hsdata.head(n=10)) # 这里可以指定n
          ##print(()) # 打印数据的信息(列名、数据行、为空记录数、数据类型)
          ##pd.set_option('display.width', 10)  # 150,设置打印宽度
          ##pd.set_option('display.max_colwidth', 2)
          hsdata.price = hsdata.price / 10000 # 以万为单位
          pd.set_option('display.float_format', lambda x: '%.2f' % x) #指定数据显示为保留小数点后2位
          #print(hsdata.describe(include =[np.number]))  ## 这里对所有数字类型的查看数据描述,这里分不出连续变量、离散变量
      
          ## 通过describe方法查看变量的统计信息,变量分析-连续性型
          print(hsdata[['area', 'price']].describe(include=[np.number])) ## 这里看连续型的更有意义
      
          ## 1 变量分析-离散型
          #print(hsdata.columns.values)
          for i in range(hsdata.columns.size):
              if hsdata.columns.values[i] not in ('area','price'):
                  print("变量"+hsdata.columns.values[i]+"频次统计:")
                  '''  
                  df1 = pd.DataFrame(hsdata[hsdata.columns.values[i]].value_counts()).T
                  df1.index=['value_cnt']
                  print(df1)
                  '''
                  df = hsdata[hsdata.columns.values[i]].agg(['value_counts']) #注意这里的[],是Series到DataFrame的过程
                  print(df.T)
                  print('\n')
              else:
                  continue
      
          ## 2 变量分析-连续型
          plt.rcParams['font.sans-serif']=['SimHei']
          sns.distplot(hsdata.price,color='green',bins=20,kde=True,rug = False) #kde表示是否画出一条高斯核密度估计线,这里的密度对应频次,rug=True表示rug表示在x轴上每个观测上生成的小细条
          plt.xlabel('房子单价 单位万/平米')
          plt.ylabel('密度')
          #plt.show()
          '''
          plt.hist(hsdata.price,bins=20)
          plt.show()'''
      
          ##按照地区的中位数排名并记录为新的DataFrame
          df_dist_price=pd.DataFrame(hsdata.groupby('dist').median().price.sort_values(ascending=True))
          ## 打印按照地区中位数升序的排名的索引值
          print('按照地区中位数升序的排名:'+str(df_dist_price.index.values))
      
      
          '''
          # 方法1,借助dataframe的category类型对指定的list排序
          data_tmp = hsdata[['dist', 'price']]
          data_tmp.dist = data_tmp.dist.astype("category")
          data_tmp.dist.cat.set_categories(["石景山", "丰台", "朝阳", "海淀", "东城", "西城"], inplace=True)
          ##dat1.dist.cat.set_categories(df_dist_price.index.values, inplace=True) 或者用这种方式替换
          sns.boxplot(x='dist', y='price', data=data_tmp)
          ##data_tmp.boxplot(column='price',by='dist') 或者调用DataFrame的boxplot方法
          plt.ylabel("房价单价(万元/平方米)")
          plt.xlabel("城区")
          plt.title("城区对房价的分组箱线图")
          plt.show()
          '''
      
          ## 方法2,借助sns.boxplot的order属性,这里的有两个分类变量加一个连续变量时X是其中一个,hue是另外个.
          data_dist = hsdata[['dist', 'price']]
          sns.boxplot(x='dist', y='price', data=data_dist, order=df_dist_price.index.values,hue=None)
          plt.ylabel("单位面积房价(万元/平方米)")
          plt.xlabel("城区")
          plt.title("城区对房价的分组箱线图")
          plt.show()
      
          #房间数量与价格的描述性统计
          data_rownum = hsdata[['roomnum','price']]
          df_rownum_price_sort = pd.DataFrame(data_rownum.groupby('roomnum').median().price.sort_values(ascending=True))
          sns.boxplot(x='roomnum',y='price',data=data_rownum,order=df_rownum_price_sort.index.values,hue=None)
          plt.ylabel("单位面积房价(万元/平方米)");
          plt.xlabel("房子室数")
          plt.title("房子室数对房价的分组箱线图")
          plt.show()
      
          # 厅数与价格的描述性统计
          ##print(hsdata.groupby('halls').halls.agg(['count']))
          #print(hsdata['halls'].value_counts())
          #print("厅最大值:"+str(hsdata['halls'].max()))
      
          data_halls = hsdata[['halls', 'price']]
      
      
          data_halls = hsdata[['halls', 'price']]
          df_halls_price_sort = pd.DataFrame(data_halls.groupby('halls').median().price.sort_values(ascending=True))
          sns.boxplot(x='halls', y='price', data=data_halls, order=df_halls_price_sort.index.values, hue=None)
          plt.ylabel("单位面积房价(万元/平方米)");
          plt.xlabel("房子厅数")
          plt.title("房子厅数对房价的分组箱线图")
          plt.show()
      
          '''
          print(data_halls.groupby('halls').median().price.sort_index(ascending=False))
          data_halls.halls = data_halls.halls.astype('category')
          data_halls.halls.cat.set_categories([0, 1, 2, 3], inplace=True)
          data_halls.boxplot(column='price', by='halls')
          plt.show()
          '''
      
          '''hsdata[['area', 'price']].plot.scatter(x='price',y='area')
          plt.show()'''
      
          data_floor = hsdata[['floor', 'price']]
          df_floor_price_sort = pd.DataFrame(data_floor.groupby('floor').median().price.sort_values(ascending=True))
          sns.boxplot(x='floor', y='price', data=data_floor, order=df_floor_price_sort.index.values, hue=None)
          plt.ylabel("单位面积房价(万元/平方米)");
          plt.xlabel("楼层")
          plt.title("楼层对房价的分组箱线图")
          plt.show()
      
      
          data_subway = hsdata[['subway', 'price']]
          df_subway_price_sort = pd.DataFrame(data_subway.groupby('subway').median().price.sort_values(ascending=True))
          sns.boxplot(x='subway', y='price', data=data_subway, order=df_subway_price_sort.index.values, hue=None)
          plt.ylabel("单位面积房价(万元/平方米)");
          plt.xlabel("地铁")
          plt.title("地铁对房价的分组箱线图")
          plt.show()
      
          data_school = hsdata[['school', 'price']]
          df_school_price_sort = pd.DataFrame(data_school.groupby('school').median().price.sort_values(ascending=True))
          sns.boxplot(x='school', y='price', data=data_school, order=df_school_price_sort.index.values, hue=None)
          plt.ylabel("单位面积房价(万元/平方米)");
          plt.xlabel("学校")
          plt.title("学校对房价的分组箱线图")
          plt.show()
      
          ##地区与学区中位数统计
          print(hsdata.groupby(['dist', 'school']).median().price.sort_index(ascending=False).unstack())
          hsdata.boxplot(column='price', by=['dist', 'school'], figsize=(12, 6))
          plt.show()
      
      
      
      if __name__ == '__main__':
          sndhsVisual()

       

      4 执行结果

      "D:\Program Files\Python37\python.exe" E:/dataVisual/Iris.py
      mean      61151.810919
      median    57473.000000
      std       22293.358147
      Name: price, dtype: float64
      mode      50000.000000
      mean      61151.810919
      median    57473.000000
      std       22293.358147
      dtype: float64
      ###############
      mode      50000.000000
      mean      61151.810919
      median    57473.000000
      std       22293.358147
      dtype: float64
      ###############
      偏度0.6794935869486859
      峰度-0.019305888544372873
                area    price
      count 16210.00 16210.00
      mean     91.75     6.12
      std      44.00     2.23
      min      30.06     1.83
      25%      60.00     4.28
      50%      78.83     5.75
      75%     110.52     7.61
      max     299.00    14.99
      变量dist频次统计:
                      丰台    海淀    朝阳    东城    西城   石景山
      value_counts  2947  2919  2864  2783  2750  1947


      变量roomnum频次统计:
                       2     3     1    4    5
      value_counts  7971  4250  3212  675  102


      变量halls频次统计:
                        1     2    0   3
      value_counts  11082  4231  812  85


      变量floor频次统计:
                    middle  high   low
      value_counts    5580  5552  5078


      变量subway频次统计:
                        1     0
      value_counts  13419  2791


      变量school频次统计:
                        0     1
      value_counts  11297  4913


      按照地区中位数升序的排名:['石景山' '丰台' '朝阳' '海淀' '东城' '西城']
      school    0    1
      dist            
      东城     6.71 7.75
      丰台     4.16 4.90
      朝阳     4.96 5.67
      海淀     6.02 7.56
      石景山    3.77 3.28
      西城     7.26 9.32

      Process finished with exit code 0
       

      结论:通过分析得到地区、有无地铁、是否学区房跟价格关联性较大。

      例子中的图标:

      城区房价箱线图

      Python描述性统计示例

      室数房价箱线图

      Python描述性统计示例

      厅数房价箱线图:

      Python描述性统计示例

      楼层房价箱线图:

      Python描述性统计示例

      地铁房价箱线图: 

      Python描述性统计示例

      学校房价箱线图: 

      Python描述性统计示例

       地区与学箱线图:

      Python描述性统计示例

      版权声明:本文内容来自第三方投稿或授权转载,原文地址:https://shenliang.blog.csdn.net/article/details/102662973,作者:ShenLiang2025,版权归原作者所有。本网站转在其作品的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系,请发邮件至ctyunbbs@chinatelecom.cn沟通。

      上一篇:使用 Spring Security 实现角色和权限管理

      下一篇:Spring-webflux 响应式编程

      相关文章

      2024-12-13 06:53:30

      【Python知识】Python图表绘制库-Matplotlib使用

      Matplotlib 是 Python 中一个非常流行的绘图库,它提供了大量的图形绘制功能,可以创建各种静态、动态和交互式的图表。

      2024-12-13 06:53:30
      Matplotlib , 图表 , 散点图 , 直方图 , 示例 , 绘制
      查看更多
      推荐标签

      作者介绍

      天翼云小翼
      天翼云用户

      文章

      33561

      阅读量

      5248948

      查看更多

      最新文章

      【Python知识】Python图表绘制库-Matplotlib使用

      2024-12-13 06:53:30

      查看更多

      热门文章

      【Python知识】Python图表绘制库-Matplotlib使用

      2024-12-13 06:53:30

      查看更多

      热门标签

      java Java python 编程开发 代码 开发语言 算法 线程 Python html 数组 C++ 元素 javascript c++
      查看更多

      相关产品

      弹性云主机

      随时自助获取、弹性伸缩的云服务器资源

      天翼云电脑(公众版)

      便捷、安全、高效的云电脑服务

      对象存储

      高品质、低成本的云上存储服务

      云硬盘

      为云上计算资源提供持久性块存储

      查看更多

      随机文章

      【Python知识】Python图表绘制库-Matplotlib使用

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号