您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 刘慧--大数据在CPI统计中的应用研究36
课题组成员:秦丽萍孔黎明刘慧朱国众2014.6大数据在CPI统计中的应用——以1号店价格指数为例2019/8/12主要内容居民消费价格(CPI)统计简介大数据物价统计的应用现状1号店价格指数编制方法研究及实例数据比较评估•城乡居民购买并用于日常生活消费的商品和服务项目的价格。•调查内容按用途划分为八大类、262个基本分类。•包括食品、烟酒、衣着、家庭设备用品及维修服务、医疗保健和个人用品、交通和通信、娱乐教育文化用品及服务、居住。2019/8/13居民消费价格(CPI)统计简介调查内容分类固定——国家规定代表品抽样——地方自定•消费量较大的消费项目。•价格变动具有较强的代表性。•同基本分类下代表品异质性越大越好。•合格产品。注册商标、产地、规格等级等标识齐全。2019/8/14居民消费价格(CPI)统计简介抽样原则2014年,上海CPI代表品共抽选1300多种•调查方法:采用定人、定点、定时的方法直接采集代表品价格。•调查频率:与居民生活密切相关、价格变动频繁的商品,五天一次。一般性商品(服务),每月2-3次。政府统一定价或价格稳定的商品(服务),每月一次。•报告周期:月度,每月10日前公布上月数据。2019/8/15居民消费价格(CPI)统计简介方法频率2014年,上海每月采集价格笔数为35000多笔•权数测算:主要根据居民家庭消费支出资料,辅以典型调查。权数五年固定不变。•计算方法:先计算代表品月度时点平均价格变动幅度,代表品之间几何平均得出基本分类月度变动幅度,基本分类以上按逐级拉氏加权平均得出各级分类月度变动幅度。2019/8/16居民消费价格(CPI)统计简介计算方法•抽样代表性:代表品、网点抽选仍以重点、典型性为主。——抽多少,怎么抽?•权数变动性:五年固定,拉氏加权计算。——消费结构变动如何体现?•计算科学性:代表品之间几何平均计算。——相当与等权计算?•数据及时性:月度指数存在滞后性。——如何反映短期波动?2019/8/17居民消费价格(CPI)统计简介疑惑和挑战2019/8/18大数据物价统计的应用现状及比较应用现状•每日网上价格指数:美国麻省理工学院对全世界海量网上零售价格进行价格指数计算,每天抓取70多个国家的50万条价格信息。•淘宝网价格指数:阿里巴巴公司基于淘宝网、天猫网、支付宝等网络平台的数据,推出网络购物消费价格指数。•谷歌搜索数据CPI:国内学者通过谷歌搜索平台选取对CPI相关系数高的几十个关键词,跟踪测算出搜索CPI指数。2019/8/19大数据物价统计的应用现状及比较应用比较统计方法比较指数名称每日网上价格指数淘宝网ISPI谷歌搜索数据CPI官方CPI分类主要包括食品饮料、家居用品、家具、服装、鞋类、卫生、能源等。食品、衣着、家庭设备用品及服务、医疗保健护理、交通和通讯、教育文化娱乐服务、居住等九大类。分为宏观形势指数和供求关系指数。宏观形势指数主要与货币政策、经济走势相关;供求关系指数主要与关注和购买商品相关。食品、烟酒及用品、衣着、家庭设备用品及维修服务、医疗保健和个人用品、交通和通信、娱乐教育文化用品及服务、居住等。权重成交额的比重成交额的比重根据关键词搜索数据与CPI的相关性大小根据居民总消费支出中所占的比重,五年固定。计算方法采用链式加权的拉氏指数采用链式加权的拉氏指数综合指数合成法链式拉氏指数数据来源全球网上商品服务交易淘宝网、天猫网、支付宝等网络平台交易数据谷歌解析平台搜索数据全国31个省市500个市县,6.3万个价格调查点2019/8/110大数据物价统计的应用现状及比较应用比较统计功能比较指数名称每日网上价格指数淘宝网ISPI谷歌搜索数据CPI官方CPI指数用途物价变动趋势网络零售价格变动趋势和变化程度预测物价变动趋势居民消费价格变动趋势和变化程度发布频率日、周、月、年日、周、月、年日、周、月、年月、年预警能力领先官方CPI领先官方CPI预测官方CPI转折点预测经济形势感受符合度较高很高较高一般2019/8/111大数据物价统计的应用现状及比较应用比较不足比较指数名称存在的主要不足网络零售CPI1.不能反映服务消费价格情况2.不能综合性反应价格变动情况搜索数据CPI1.不能反映价格变动程度2.不能反映价格的变化结构官方CPI1.不能提供日、周等短周期数据2.不能及时体现消费市场结构变化3.数据发布滞后时间偏长•以现行CPI编制框架为基础,确保数据可比性和衔接性•充分利用大数据,改进现行CPI不足:抽样代表性?——代表品抽选更有依据√权数变动性?——权数设置更为灵活√计算科学性?——计算方法更加多样√数据及时性?——指数周期更趋高频√2019/8/1121号店价格指数编制方法及实例编制思路2019/8/1131号店价格指数编制方法及实例分类体系方法:•以1号店现有的后台商品分类体系(三级分类目录)为基础•两大原则:代表性——体现营运状况及线上销售特点稳定性——不应频繁变动,确保指数延续性实例:分类筛选过程:•第三级目录数量较大(1500多个)、稳定性不高ו不符基本要求的分类,如集团消费、团购消费、购物卡、礼品等ו消费未成气候的分类,如生鲜食品、服装、交通工具、珠宝饰品等ו消费量大、有特色分类,如休闲速食食品、进口食品、母婴产品、厨卫清洁、家居用品等√•研究初期,不宜纳入过大规模的分类目录2019/8/1141号店价格指数编制方法及实例分类体系实例:分类筛选结果:10个一级分类45个二级分类2019/8/1151号店价格指数编制方法及实例分类体系一级分类二级分类一级分类二级分类食品休闲零食家居厨具锅具厨房调料床上用品干货收纳洗晒方便面/速食装饰/日用粮油餐具水具糖果/巧克力美容护理口腔护理罐装食品女性护理饼干/糕点男士护理进口食品进口乳制品缤纷彩妆进口休闲零食美容工具进口果干/坚果身体护理进口饮用水/饮料面部护肤饮料乳制品生活电器个人护理冲调饮品厨房电器酒大家电饮料生活电器厨卫清洁一次性用品电器附件家庭清洁护理手机手机通讯清洁用具手机配件纸制品数码数码影像衣物清洁护理数码影音母婴奶粉系列数码配件母婴营养品2019/8/1161号店价格指数编制方法及实例代表品选取方法:•将各二级分类下所有在报告期有销售的商品按销售额大小排序•几种方案:全部选取可比性问题,带入奇异值×固定数量——排位前n个的选取为代表品固定金额——累加销售额达到该类别总销售额固定比例的前n个选取为代表品实例:•使用固定金额的方法,比例定为七成。优点:有足够的代表性有足够的稳定性留出一定数量作为备用•最终选取结果:各二级分类下的平均代表品数量在100个左右,食品、厨卫清洁等商品繁多的分类在200-300个。2019/8/1171号店价格指数编制方法及实例代表品选取2019/8/1181号店价格指数编制方法及实例权数设置方法:•代表品权数:该商品在报告期或基期的销售额占同分类下所有代表品销售额的比重•分类权数:该分类在报告期或基期的销售额占上级分类总销售额的比重2019/8/1191号店价格指数编制方法及实例计算过程方法:•代表品平均价格:,t期均价=销售总额/销售量•代表品环比指数:,t期指数=t期均价/t-1期均价njtijnjtijtijtiqqpp11%1001ittitippG2019/8/1201号店价格指数编制方法及实例计算过程方法:•基本分类环比指数:——派氏指数,报告期权数——拉氏指数,基期权数——费雪指数,综合权数mitimititiLtjSSGk11miitmiittiPtjSSGk1111PtjLtjFtjkkk2019/8/1211号店价格指数编制方法及实例计算过程方法:•逐级分类环比指数:——派氏指数,报告期权数——拉氏指数,基期权数——费雪指数,综合权数hjtjhjtjLtjLtQQkK11hjjthjjtPtjPtQQkK1111PtjLtjFtjKKK实例:2019/8/1221号店价格指数编制方法及实例计算过程代表品环比权数拖把92.340百洁布101.515扫帚100.225脸盆103.410浴帘104.810加权平均二级分类环比权数清洁卫浴98.030代表品环比权数保鲜膜102.530垃圾袋105.325纸杯90.920牙签95.715鞋套107.610加权平均二级分类环比权数一次性用品100.420二级分类环比权数纸制品102.820二级分类环比权数厨具餐具104.930加权平均一级分类环比权数厨卫清洁101.230一级分类环比权数食品105.430一级分类环比权数母婴108.740几何平均100.32019/8/1231号店价格指数编制方法及实例计算过程方法:链式法推算其他指数•定基指数=t-1期定基指数×t期环比指数•同比指数=t期定基指数/t-x期定基指数,x为周期2019/8/1241号店价格指数编制方法及实例数据筛选方法:•指标筛选——产品编码、分类编码、商品名、计量单位、规格信息销售时间、销售价格、销售量•奇异剔除——赠品价格、极低极高价格等2019/8/1251号店价格指数编制方法及实例数据处理方法:主要是代表品缺失或变动时的价格延续性处理,一般需要寻找新代表品继续进行价格跟踪,但新老代表品间的价格需要进行过渡处理。•现行CPI统计中常用方法:替代法、备用虚拟法•大数据物价统计方法:后备代表品更替法•其他方法:主要特征折算法、成本因素分解法、Hedonic回归法等实例:现行CPI备用虚拟法2019/8/1261号店价格指数编制方法及实例数据处理商品第一期价格第二期价格第二期环比指数第三期价格第三期环比指数第四期价格第四期环比指数A8085106.38296.584102.4B9095105.697102.19395.9C100105105.0缺失100(虚拟)缺失102.9(虚拟)D——————70——72——实例:1号店价格指数后备代表品更替法2019/8/1271号店价格指数编制方法及实例数据处理商品第一期价格第二期价格第二期环比指数第三期价格第三期环比指数第四期价格第四期环比指数A8085106.38296.584102.4B9095105.697102.19395.9C100105105.0缺失——缺失——D————747094.672102.9•签署战略合作协议,数据保密协议。•统计局提供编制方法,1号店负责实际测算操作。•测算结果由统计局负责评估。•定期以1号店名义发布指数,统计局协助数据分析,宣传推广。2019/8/128数据比较评估合作模式•利用1号店的销售数据测算8个月有关商品分类的环比价格指数。•分别使用拉氏指数、派氏指数、费雪指数方法测算出三套结果。•其中乳制品、饮料、厨房调料、大家电、奶粉系列等12类与现行CPI口径一致,可进行比较。2019/8/129数据比较评估测算情况拉氏和派氏指数结果比较2019/8/130数据比较评估指数比较分类相关系数涨跌不同(个月)乳制品0.94622饮料0.97791厨房调料0.97222大家电0.96211奶粉系列0.94542床上用品0.82063手机通讯0.97530糖果/巧克力0.82042缤纷彩妆0.94430美容工具0.95130酒0.83300饼干/糕点0.97711波动一致性很高涨跌一致性不高•拉氏指数权数固定为基期,无法体现权数结构变化。•派氏指数使用报告期权数,结构变化较大时会影响指数平稳性。•费雪指数综合使用基期和报告期权数,充分汲取两者优势。2019/8/131数据比较评估指数比较拉氏、派氏、费雪指数与CPI差异度比较2019/8/132数据比较评估指数评估分类与CPI差异度绝对值(%)拉氏指数派氏指数费雪指数乳制品1.1781.3051.165饮料1.1601.7751.453厨房调料1.1961.3431.206大家电3.6693.2853.270奶粉系列1.9482.7902.281床上用品4.5973.9204.266手机通讯3.5433.4083.476糖果/
本文标题:刘慧--大数据在CPI统计中的应用研究36
链接地址:https://www.777doc.com/doc-24774 .html