
3.5 各地区生活消费支出分类
3.5.1 案例描述
为了研究全国各地区家庭收支的分布规律,共抽取了28个省、市、自治区的生活消费支出的6个相关指标的数据资料,如表3-26所示。
表3-26 数据资料表

试用表中资料作谱系聚类,画出谱系图,确定消费支出类型。
3.5.2 操作步骤和结果分析
(1) 打开SPSS主界面,单击窗口下方的Variable View按钮,变量设置如图3-32所示。

图3-32 变量设置
(2) 单击窗口下方的Data View按钮,输入数据如图3-33所示。输入完成后,单击菜单栏中的File菜单,选择Save As命令,保存为xiaofei.sav。

图3-33 数据录入
(3) 在菜单栏中依次选择Analyze→Classify→Hierarchical Cluster命令,弹出Hierarchical Cluster Analysis对话框,如图3-34所示。

图3-34 Hierarchical Cluster Analysis对话框
(4) 从左侧的变量列表框中选中“地区名称[X1]”选项,单击按钮使之进入Label Cases框中;选中“食品支出[X2]”、“衣着支出[X3]”、“燃料支出[X4]”、“住房支出[X5]”、“生活用品[X6]”和“文化生活[X7]”选项,单击
按钮使之进入Variable(s)框中;在Cluster选项组中选择Cases单选按钮;在Display选项组中选中Statistic和Plots复选框,最终设置如图3-35所示。

图3-35 Hierarchical Cluster Analysis对话框设置
(5) 单击 Statistics 按钮,弹出 Hierarchical Cluster Analysis: Statistics 对话框,选中Agglomeration schedule和Proximity matrix复选框;在Cluster Membership选项组中选中Range of solutions单选按钮,在Minimum number of文本框中输入“3”,在Maximum number of文本框中输入“6”,如图3-36所示。单击Continue按钮返回到Hierarchical Cluster Analysis对话框。

图3-36 Hierarchical Cluster Analysis:Statistics对话框设置
(6) 单击Plots按钮,弹出Hierarchical Cluster Analysis: Plots对话框,选中Dendrogram复选框,在Icicle选项组中选中All clusters单选按钮,在Orientation选项组中选中Vertical单选按钮,如图3-37所示。单击Continue按钮返回到Hierarchical Cluster Analysis对话框。

图3-37 Hierarchical Cluster Analysis:Plots对话框设置
(7) 单击Method按钮,弹出Hierarchical Cluster Analysis: Method对话框,在Cluster下拉列表中选择 Between-groups linkage 选项;在 Interval 下拉列表框中选择 Squared Euclidean distance选项;在Transform Value选项组中选择Z scores和By variable选项,如图3-38所示。单击Continue按钮返回到Hierarchical Cluster Analysis对话框。

图3-38 Hierarchical Cluster Analysis:Method对话框设置
(8) 单击 Save 按钮,弹出 Hierarchical Cluster Analysis: Statistics 对话框,在 Cluster Membership选项组中选中Range of solutions单选按钮,在Minimum number of文本框中输入“3”, Maximum number of文本框中输入“6”,如图3-39所示。单击Continue按钮返回到Hierarchical Cluster Analysis对话框。

图3-39 Hierarchical Cluster Analysis:Save对话框设置
(9) 完成以上步骤后,单击图3-35中的OK按钮完成分析,分析结果输出到SPSS后台,如图3-40所示。

图3-40 结果输出窗口
(10) 输出数据概览表,如表3-27所示,表明进行聚类分析的有效样本为28个,无缺失值。
表3-27 数据概览表

(11) 输出凝聚过程表,如表3-28所示,Stage表示聚类阶段;Cluster Combined表示聚类合并;Coefficients表示聚类测度值,即合并两类时的平均距离;Stage Cluster First Appears表示第一次出现复聚类的阶段;Next Stage表示下一步是哪个样本或类与该类合并成一类。
表3-28 凝聚过程表

(12) 输出聚类解,如表3-29所示,显示用欧式距离平方、组间类平均法生成的分别为3类、4类、5类、6类时的聚类解。
表3-29 聚类解表

(13) 输出聚类树状图,如图3-41所示,28个样品明显地分为4类:第一类(4、27、5、23、24、3、25、26、16),第二类(8、17、28、21、22、12、13、18、14、20),第三类(2、15、10、11、6、7),第四类(1、9、19)。

图3-41 聚类树状图
(14) 根据以上分析,可以把各地区分类如表3-30所示。
表3-30 最终分类表
