您好,欢迎访问三七文档
Alibaba天池实践手册I前言本手册从天池选手的角度出发,通过具体的案例场景引导用户使用御膳房平台进行数据开发、数据建模以及预测。本手册将从以下几个步骤来描述如何使用御膳房进行数据分析和建模:课题介绍环境和账号获取数据实现步骤由于是基于特定案例引导,本文展示的仅仅是ODPS和算法功能的冰山一角。关于详细的ODPS和算法功能,可以通过在线帮助手册了解更多。请参考ODPS在线帮助手册。主要参考模块:基本介绍、常用命令、SQL语法,MR语法。关于MR的使用和配置方法请参考御膳房用户手册。II内容前言..............................................................................................................................................................I内容.............................................................................................................................................................II1课题介绍..............................................................................................................................................11.1课题介绍...................................................................................................错误!未定义书签。1.1.1数据说明........................................................................................................................21.1.2输出要求........................................................................................................................31.1.3评估指标........................................................................................................................31.2解题思路...............................................................................................................................32环境、账号..........................................................................................................................................52.1登录御膳房................................................................................................错误!未定义书签。3获取数据..............................................................................................................................................73.1项目首页...............................................................................................................................73.2查看数据...............................................................................................................................94实现步骤............................................................................................................................................104.1数据开发平台的使用(以下也称IDE)..............................................................................114.1.1准备工作......................................................................................................................114.1.2数据分析......................................................................................................................154.1.3特征工程......................................................................................................................214.2PAI平台..............................................................................................................................474.2.1PAI简介.......................................................................................................................474.2.2数据抽样......................................................................................................................494.2.3建模和评估..................................................................................................................544.2.4PAI命令及模型同步....................................................................................................644.2.5线上测试集的训练和预测.............................................................................................65名词解释...................................................................................................................................................68修订历史...................................................................................................................................................69AlibabaGROUP天池实践手册11课题介绍1.1背景随着移动电商业务的快速发展,用户对移动端网络的访问是随时随地的,具有更丰富的场景数据。如何在这些巨大的信息数据中快速挖掘出对我们有用的信息已成为当前急需解决的问题。对于移动电商来说,可以运用这些有用的信息以及个性化技术的手段,对用户进行一系列的个性化推荐,帮助用户从这些网络过量的信息里面筛出他所需要的信息,提升移动端用户的用户体验,提升个性化推荐引导的成交率,从而达到精准营销(Precisionmarketing)的目的。如下是一个简单的个性化推荐的流程:1.2课题介绍本课题以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息。您需要通过大数据和算法构建面向移动电子商务的商品推荐模型,挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。如下是一个真实的业务场景:给出一定量用户在时间段11月18日~12月18日内的移动端行为数据(D),需要预测12月19日用户对商品子集(P)的购买数据。具体的数据说明下面将会详细介绍。AlibabaGROUP天池实践手册21.2.1数据说明提供的数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据(D),表名为tianchi_mobile_recommend_train_user,包含如下字段:字段字段说明提取说明user_id用户标识抽样&字段脱敏item_id商品标识字段脱敏behavior_type用户对商品的行为类型包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4。user_geohash用户位置的空间标识,可以为空由经纬度通过保密的算法生成item_category商品分类标识字段脱敏Time行为时间精确到小时级别D集合的记录显示如下:每一行代表了用户user_id对属于分类item_category的物品item_id在time这个时间于地点user_geohash发生了交互,交互类型是behavior_type。behavior_type包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4。Useriditem_categoryitem_idtimegeohashbehavior给出的一共包含31天的交互数据,最后要预测第32天有哪些user会购买哪些item。第二个部分是商品子集(P),表名为tianchi_mobile_recommend_train_item,包含如下字段:字段字段说明提取说明item_id商品标识抽样&字段脱敏item_geohash商品位置的空间标识,可以为空由经纬度通过保密的算法生成AlibabaGROUP天池实践手册3item_category商品分类标识字段脱敏这部分的数据,是tianchi_mobil
本文标题:天池实践手册
链接地址:https://www.777doc.com/doc-4848399 .html