您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > Clementine示例01-因子分析
1、因子分析(factor.str)研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量(latentvariable,latentfactor)。比如,如果要测量学生的学习积极性(motivation),课堂中的积极参与,作业完成情况,以及课外阅读时间可以用来反应积极性。而学习成绩可以用期中,期末成绩来反应。在这里,学习积极性与学习成绩是无法直接用一个测度(比如一个问题)测准,它们必须用一组测度方法来测量,然后把测量结果结合起来,才能更准确地来把握。换句话说,这些变量无法直接测量。可以直接测量的可能只是它所反映的一个表征(manifest),或者是它的一部分。在这里,表征与部分是两个不同的概念。表征是由这个隐性变量直接决定的。隐性变量是因,而表征是果,比如学习积极性是课堂参与程度(表征测度)的一个主要决定因素。那么如何从显性的变量中得到因子呢?因子分析的方法有两类。一类是探索性因子分析,另一类是验证性因子分析。探索性因子分析不事先假定因子与测度项之间的关系,而让数据“自己说话”。主成分分析是其中的典型方法。验证性因子分析假定因子与测度项的关系是部分知道的,即哪个测度项对应于哪个因子,虽然我们尚且不知道具体的系数。示例factor.str是对孩童的玩具使用情况的描述,它一共有76个字段。过多的字段不仅增添了分析的复杂性,而且字段之间还可能存在一定的相关性,于是我们无需使用全部字段来描述样本信息。下面我们将介绍用Clementine进行因子分析的步骤:Step一:读入数据数据源(Source)栏中的结点提供了读入数据的功能,由于玩具的信息存储为toy_train.sav,所以我们需要使用SPSS文件(SPSSFile)结点来读入数据。双击SPSS文件(SPSSFile)结点使之添加到数据流程区内,双击添加到数据流程区里的SPSS文件(SPSSFile)结点,由此来设置该结点的属性。在属性设置时,单击导入文件(Importfile)栏右侧的按钮,选择要加载到数据流中进行分析的文件,这里选择toy_train.sav。单击注解(Annotations)页,在名称(name)栏中选择定制(custom)选项并在其右侧的文本框中输入自定义的结点名称。这里我们按照原示例输入toy_train。Step二:设置字段属性进行因子分析时我们需要了解字段间的相关性,但并不是所有字段都需要进行相关性分析,比如“序号”字段,所以需要我们将要进行因子分析的字段挑选出来。字段选项(FieldOps)栏中的类型(Type)结点具有设置各字段数据类型、选择字段在机器学习中的的输入/输出属性等功能,我们利用该结点选择要进行因子分析的字段。首先,将类型(Type)结点加入到数据流中,双击该结点对其进行属性设置:由上图可看出数据文件中所有的字段名显示在了字段(Field)栏中,类型(Type)表示了每个字段的数据类型。我们不需要为每个字段设定数据类型,只需从Values栏中的下拉菜单中选择Read项,然后选择读取值(ReadValue)键,软件将自动读入数据和数据类型;缺失(Missing)栏是在数据有缺失时选择是否用空(Blank)填充该字段;检查(Check)栏选择是否判断该字段数据的合理性;而方向(Direction)栏在机器学习模型的建立中具有相当重要的作用,通过对它的设置我们可将字段设为输入/输出/输入且输出/非输入亦非输出四种类型。在这里我们将前19个字段的方向(Direction)设置为无(none),这表明在因子分析我们不将这前19个字段列入考虑,从第20个字段起我们将以后字段的方向(direction)设置为输入(In),对这些字段进行因子分析。Step三:对数据行因子分析因子分析模型在建模(Modeling)栏中用主成分/因子分析(PCA/Factor)表示。在分析过程中模型需要有大于或等于两个的字段输入,上一步的Type结点中我们已经设置好了将作为模型输入的字段,这里我们将主成分/因子分析(PCA/Factor)结点连接在类型(Type)结点之后不修改它的属性,默认采用主成分分析方法。在建立好这条数据流后我们便可以将它执行。右键单击主成分/因子分析(PCA/Factor)结点,在弹出的菜单栏中选择执行(Execute)命令。执行结束后,模型结果放在管理器的模型(Models)栏中,其标记为名称为主成分/因子分析(PCA/Factor)的黄色结点。右键单击该结果结点,从弹出的菜单中选择浏览(Browse)选项查看输出结果。由结果可知参与因子分析的字段被归结为了五个因子变量,其各个样本在这五个因子变量里的得分也在结果中显示。Step四:显示经过因子分析后的数据表模型的结果结点也可以加入到数据流中对数据进行操作。我们在数据流程区内选中类型(Type)结点,然后双击管理器模型(Models)栏中的主成分/因子分析PCA/Factor结点,该结点便加入到数据流中。为了显示经过因子分析后的数据我们可以采用表格(Table)结点,该结点将数据由数据表的形式输出。4.1为因子变量命名在将PCA/Factor(结果)结点连接到表格(Table)结点之前,用户可以设置不需要显示的字段,也可以更改因子变量名,为了达到这个目的我们可以添加字段选项(FieldOps)栏中的过滤(filter)结点。在对过滤(filter)结点进行属性设置时,过滤(filter)项显示了字段的过滤与否,如果需要将某个字段过滤,只需用鼠标单击Filter栏中的箭头,当箭头出现红“×”时该字段便被过滤。第一个字段(Field)栏结点表明数据在读入过滤(filter)结点时的字段名,第二个字段(Field)栏表示数据经过过滤(filter)结点后的字段名。由于因子分析生成的因子变量都由系统自动命名,用户可以通过修改这些因子变量的第二个字段(Field)的值来重新设定其字段名。4.2数据输出显示,在对数据进行输出时我们选择了输出(Output)栏中的表格(Table)结点和图形(Graph)栏中的柱状图(Histogram)结点。这两个结点一个通过数据表的形式输出,一个通过柱装图的形式输出。对柱装图我们设置其显示storeplay字段的数据(store_play为第五个因子变量的新名)。通过“执行”按钮分别执行两条数据流,将经过因子分析后的数据显示。P.S.:在这个因子分析的案例中我们用到了SPSS文件(SPSSFile)、类型(Type)、过滤(Filter)、表格(Table)、柱状图(Histogram)、PCA/Factor结点。
本文标题:Clementine示例01-因子分析
链接地址:https://www.777doc.com/doc-2906042 .html