您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 关于篮球球员比赛效率的有序样品聚类
-1-关于篮球球员比赛效率的有序样品聚类程猛,兰健,黄秋桥,周密辽宁工程技术大学理学院,辽宁阜新(123000)E-mail:oriccheng@hotmail.com摘要:本文采集了一支nba的球队的所有球员一个赛季的各项技术指标(如得分、篮板、抢断、封盖、投篮数、罚球数等等),并利用有序样本聚类法(最优分段法)和nba效率准则把这些球员分为超级明星球员、明星球员、普通球员、低效率球员等四类,分类的结果符合球员实际的表现,分析所得的结果可以为球队老板和经理提供一些参考,同时也是球迷们对球员评价的一个依据。在实现聚类的过程中选取了合理的方法并使用matlab软件进行编程,本文的程序有较高的集成性,普遍适合本类问题。希望本文能对大家有所帮助,对有序样本聚类有更深刻的理解。关键词:有序样本聚类;球员效率准则;matlab中图分类号:O212.41引言聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。本文使用的是有序样本聚类法,又称为最优分段法。该方法是由费歇在1958年提出的.它主要适用于样本由一个变量描述的情况.或者将多变量综合成为一个变量来分析。有序样本聚类法常常被用于系统的评估问题,被用来对样本点进行分类划级。例如,十二个地区的经济发展指数,排列出来以后,需要划分他们的等级。一种方法是按照行政命令。规定三个经济发达地区,四个中等发达的地区,三个一般地区,两个发展较差地区。这种行政上的规定往往是不客观,不合理的。合理的分类应该把发展情况最近似的地区划入同一类。这就是有序样本聚类的工作思路。本文就是利用有序聚类方法对一些nba球员进行评估和分类的。2问题的提出一支篮球队想取得好的成绩,那么球队的经理就必须费劲心思花钱找来好的球员,那些经理们究竟是如何判别球员的好坏的哪?“[(得分+篮板+助攻+抢断+封盖)-(出手次数-命中次数)-(罚球次数-罚球命中次数)-失误次数]/球员上场比赛的场次”,本文以这个nba(美国篮球职业联盟)常用的效率准则(也称之为单位效率准则)和有序样本聚类知识为工具对一些球员进行分类,并得出结论,哪些球员值得经理们进行“投资”。这里采取了广为中国球迷喜爱的休斯顿火箭队队08-09赛季球员的相关数据(如下表1-1)作为样本数据。我们现在开始给火箭队的球员们分分类。注:数据取自TOM鲨威体坛NBA数据库相关理论基础3.1nba效率准则公式及冒泡法排序3.1.1nba效率准则公式NBA对于球员有一个综合判断指数:效率准则(也称之为单位效率准则),这个效率指数的最基本思路是将一名球员球场表现的折算成为一个可以进行比较的数字,保障了不同位置的球员都可以在一个通过换算后的同一起跑线上进行比较。计算这个效率准则的公式为:[(得分+篮板+助攻+抢断+封盖)-(出手次数-命中次数)-(罚球次数-罚球命中次数)-失误次数]/球员上场比赛的场次。这个依据的得出,可以综合判断球员良性表现,并且参照球员的球场不良表现,接着根据球员出场的次数来得出单场平均的效率表现。就这个公式而言,是现在NBA官方数据中,最常见的一个综合数据指数,而事实上同样存在不合理的基准,就是某种程度上把进攻指数凌驾在防守指数之上。假设有两名球员同时计算5场比赛的效率指数:A球员:150分50篮板25助攻5抢断5封盖,出手次数150次命中100次,而罚球60次命中50次,失误10次的话,该球员场均30分10板5助攻1抢断1封盖2失误命中率67%罚球率83%。该球员的效率指数为:33B球员:60分75板15助攻15抢断20封盖,出手次数70次命中45次,罚球20次命中15次,失误同样10次的话,该球员场均12分15篮板3助攻3抢断4封盖2失误命中率64%罚球率75%。该球员的效率指数仅仅为:29事实上,前者是标准的全能进攻型球员,而后者是标准的全能防守型球员,只不过因为相对来说防守型数据抢断与封盖的获得远不如得分这般容易,所以显得这位场均得分12分却在篮板15次抢断3次封盖4次的优秀球员显得远不如进攻性球员。而这个数据尽管存在一定的偏袒进攻性,却是现在官方使用的最常用的效率指数,也是相对来说比较客观的一项比较基准。所以本文以该公式作为对球员评价的重要工具。3.1.2冒泡法冒泡法的目的是按要求从大到小或从小到大排序。他的基本思想是对尚未排序的各元素从头到尾依次依次比较相邻的两个元素是否逆序(与欲排顺序相反),若逆序就交换这两元素,经过第一轮比较排序后便可把最大(或最小)的元素排好,然后再用同样的方法把剩下的元素逐个进行比较,就得到了你所要的顺序。可以看出如果有N个元素,那么一共要进行n-1轮比较,第I轮要进行j=n-i次比较。(如:有5个元素,则要进行5-1轮比较。第3轮则要进行5-3次比较)3.2最优分割法聚类步骤设有序样品x(1),x(2),…,x(n)。他们可以是从小到大排列,也可以是按时间的先后排列。1)定义类的直径设某类G中包含的样品有就))}(m(,...,,{)()()2()1(ijXXXXin维向量为,记为}.,...,1,{jiiG+=该类的均值向量为该类的均值向量为∑=+−=jittGXijX)(11用),(jiD表示这一类的直径,常用的直径有:∑=−′−=jitGtGtXXXXjiD)()(),()()((2-1)当m=1时,也可以定义直径为∑=−=jitGtXXjiD~),()(,其中GX~是这一类数据的中位数。2)定义分类的损失函数用b(n,k)表示将n个有序的样品分为k类的某种分法:},,...,1,{...................................},1,...,1,{},1,...,1,{32222111niiiGiiiGiiiGkkkk−+=−+=−+=其中分点为)1(1...111321+=−==++niiniiiikkk即.定义上述分类法的损失函数为∑=+−=kttiiDknbL11)1,()],([(2-2)当n,k固定时,)],([knbL越小,即表示各类的离差平方和越小,分类越合理,因此要寻找一种分法),(knb,使分类损失函数L达最小。记),(knP是使(2-2)式达到极小的分类法。3))],([knbL的递推公式费希尔算法最核心的部分是利用以下两个递推公式:).,()]1,1([{min)],([)},,()1,1({min)]2,([2njDkjPLknPLnjDjDnPLnjknj+−−=+−=≤≤≤≤(2-3)4)最优解得求法若分类数k是已知的,求分类法b(n,k),使它在损失函数意义下达到最小,其求法如下:首先,找出分点kj,使递推公式(2-3)达到最小,即),()]1,1([)],([njDkjPLknPLkk+−−=于是得第k类}.,...1,{njjGkkk+=然后找1−kj,使它满足)1,()]2,1([)]1,([111−+−−=−−−−kkkkjjDkjPLkjPL,得到第k-1类}.1,...1,{111−+=−−−kkkkjjjG类似的方法依次可得到所有类kGGG,...,21,这就是我们欲求的最优解。4实际问题应用4.1求球员综合值(效率值)并排序P=[552144258577522193109868848;118135922910524103741626219614069;436285137485435414567554860;20894782431727020194856;89415723846878331617214912580;21100210003;1062735611013916141622;91250423419113421972571;1251031650029;163300111359669;6383433926314182401931576869;2147897219162772983828;54515417542154851881561256935;1044720123681179942425819612382;61011371408512229117885963;151476113730150103256644038123477];得到的球员数据样本,依据效率准则公式:[(得分+篮板+助攻+抢断+封盖)-(出手次数-命中次数)-(罚球次数-罚球命中次数)-失误次数]/球员上场比赛的场次分别计算综合值(效率值)并用冒泡法进行排序最终得到向量X。(本部分matlab代码及注解见附录A)X=[0.8888914.31824.57144.61974.77787.47629.19.821411.51711.52215.25715.52217.14623.805]4.2计算直径、最小损失函数并确定分类数4.2.1计算直径计算直径)},({jiD,结果见表3-1,因每个样品只有一个指标,由2-1式的定义,故有∑=−=jitGtXXjiD2)()(),(.表2直径D(i,j)ij12345678910111213141520.00617280000000000000037.59425.50520000000000000412.2917.94320.032067000000000000515.2569.25630.0524630.001165900000000000617.65910.3150.109050.0232980.0124910000000000732.16221.2286.85755.98715.15533.6407000000000855.36739.67819.84217.1714.2
本文标题:关于篮球球员比赛效率的有序样品聚类
链接地址:https://www.777doc.com/doc-742983 .html