()探索性因子分析与我国应用语言学研究(1.华中科技大学外国语学院,湖北武汉4300792.华中农业大学外语系,湖北武汉430070)要:本研究对探索性因子分析方法在我国应用语言学领域的应用进行评述,发现,在因子抽取模型选取、确定因子数目方法和研究报告的报告项目上存在需要改进的地方。本文建议,在进行探索性因子分析时,1)应保证研究样本足够大,2)抽取因子时使用共同因素模型方法,3)使用斜交旋转,4)使用多种方法来确定因子数目。关键词:探索性因子分析;应用语言学;综述引言因子分析是简化多元数据以分析潜在维度或潜在因子的统计方法(DillionGoldstein,1984;Hair,AndersonTatham,1987;Kline,1994)。潜在维度或潜在因子指的是单维度构念(Construct)或维度,即由观测变量构成的具有某种特性的数据集合(Watson,1998)。因子分析分为探索性因子分析和验证性因子分析。若研究者对潜在维度的数目和结构不甚明了,使用因子分析的目的在于探索观测变量的维度,就是探索性因子分析。若研究者通过前人研究/文献或先验知识对因子数目或结构已做出了假设,只是对假设进行验证,就是验证性因子分2003)。
探索性因子分析的结果可以通过验证性因子分析来验证其数据拟和情况。DunnBurnett(1995)认为验证性因子分析优于探索性因子分析之处在于,验证性因子分析可以验证假设因子模型和模型与数据解释方差的拟合度,但是,探索性因子分析在对数据的探索及提供可供验证推定模型方面的价值也不可小觑(Watson,1998)。ConwayHuffcutt(2003)将探索性因子分析的目的分为1)仅仅为了简化数据和2)析潜在构念。研究者进行因子分析的目的有时只是为了在尽可能保持原始方差量的前提下将大量变量简化为更好控制的少量因子,并不对其潜在构念进行分析。而进行因子分析更多地是为了对潜在构念进行分析,比如对因子数目/结构所作的假设进行验证,或者帮助研究者编制或修正量表,或者验证已有量表的单一维性。当然,对假设模型进行验证的更好方法是进行验证性因子分析。(ConwayHuffcutt,2003)近年来,我国应用语言学领域越来越多地采用因子分析的方法进行研究,这些研究大致可分为两类:1)仅采用探索性因子分析,而没有通过验证性因子分析进行验证,和探索性因子分析或前人研究形成概念模型的基础上通过验证性因子分析验证其结果并最终形成结构方程模型。
其中,前者占了大多数,后者仅有几例。后者研究的重心在于报告结构方程模型结果,对于在验证性因子分析之前所作的探索性因子分析没有详细报告或另外撰文进行详细报告(吴红云2004b),或只是对概念模型进行验证从而得出最终的结构方程模型(王立非2002),或是根据聚类分析等其它统计分析的结果进行验证,从而得出最终的结构方程模型(董燕萍,1998)。我国应用语言学领域近十年才出现采用因子分析方法进行研究的报告(陈鸿标,1998)。因子分析在我国应用语言学领域尚处在起步阶段,由于此方面的中文文献特别是专门针对应用语言学领域的中文文献较少,2)我国外语研究者掌握科研方法、特别是定量科研方法42),在使用因子分析方法的过程中存在一些问题。因此,有必要对其中的一些重要概念进行梳理,并对其中存在的误区进行澄清。本文对探索性因子分析进行探讨的理论依据主要来自于Ford,MacCallumTait(1986)、Fabrigar,Wegener,MacCallumStrahan(1999)、ConwayHuffcutt(2003)、Watson(1998)和Park,DaileyLemus(2002)等的研究,并只进行相关理论的简述,相关细节读者可以参考上述论著。
同时,本文将以十年来我国应用语言学领域采用探索性因子分析并报告了探索性因子分析结果的研究报告为研究对象(详见附录),对探索性因子分析在我国应用语言学领域的应用进行评几个重要问题2.1样本大小因子分析中样本大小问题一直存在争议,说法不一,大致可以分为两类。第一类提出具体的样本大小数或变量数与被试数的比率关系。Kline(1994)认为变量数与被试数之比应为1:5或1:10。卢纹岱(2002)认为变量数与被试数之比应为1:5。秦晓晴(2003)针对应用语言学领域的研究,提出了两条最低标准,其一、被试数至少为100,其二、变量数与被试数之比应为1:2。MacCallum,Widaman,ZhangHong(1999)则认为根据不同的研究,样本应该相当大,比如达到400或更大。第二类提出了变量数与因子数的比率关系,如:Fabrigaretal.(1999)认为变量数与因子数之比至少应为4:1,Fordetal.(1986)虽没有明确提出变量数与因子数之比,但在分析时采用了变量数与因子数为5:1的标准。2.2因子抽取模型Gorsuch(1983)认为因子抽取模型大致可分为成份模型(Componentsmodel)和共同因素模型(Commonfactormodel)两种。
前者常用的有主成分分析法(Principlecomponentsanalysis,PCA),后者常用的有极大似然法(Maximumlikelihood)和主轴因素分析(Principalaxisfactoring)两种方法。我们应根据不同的研究目的采取不同的因子抽取模型。前者仅仅为了在尽可能保持原始数据方差的基础上简化数据,而后者主要是为了从大量观测变量中分析潜在变量。也就是说,如果仅仅是为了简化数据,则选择成份模型,如果是为了分析潜在变量,则选择共同因素模型。虽然两者得出的结果大多相同,但理论和实证研究的结果证明,在探索性因子分析抽取因子时使用共同因素模型更合适(ConwayHuffcutt,2003)。Kline(1994)指出,严格意义上说,主成分分析法并不是因子分析的方法,而是初步分析一组数据中所有变量相关关系的方法。主成分分析法被广泛使用主要是因为它在确定因子和分析结果时方法简单且其结果与其它方法(如:主轴因素分析)差别不大。Gorsuch(1990)认为,既然大多数情况下两者的结果基本相同,而共同因素模型有时得出的结果比成份模型更有说服力,那么我们没有理由在探索性因子分析中采用成份模型。
2.3旋转方法在进行因子分析时,将因子在n维空间(n为因子数)进行旋转,以简化结构,更好地解释因子负荷。常用的旋转方法主要有正交旋转(Orthogonal)和斜交旋转(Oblique)两种。两者的区别在于,正交旋转时,因子间彼此独立、不相关,而斜交旋转允许因子相关(Park,DaileyLemus,2002)。Fabrigaretal.(1999)认为在现实研究中,我们不可能期望所有的因子都不相关,因此采用正交旋转将使得在报告因子间相关关系时可能产生误导。Fabrigar et al. (1999) 为,我们完全可以采用斜交旋转,因为即使因子间真的彼此独立、不相关,斜交旋转报告的因子间相关关系为接近零,即报告因子间零相关。同时,Ford et al.(1986)、Gorsuch (1997) Huffcutt(2003) 皆认为我们应采用斜交旋转方法,因为斜交旋转更接近事实,能更 好地简化结构。2.4 确定因子数目 确定因子数目的方法有多种,最常用的是特征值(Eigenvalue)大于1(Kaiser, 1956)和碎石 图检验。这两种方法因为简单易行而被广泛使用,但是均存在不足。利用特征值大于1 定因子数目,由于其确定的因子数过多而不够准确。
而碎石图检验虽然直观、简便,却过于主观,也难以明确界定因子数目(Conway Huffcutt,2003; Fabrigar et al., 1999; Gorsuch, 1997)。因此,如果仅仅通过这两种方法来确定因子数,研究结果将不够准确、科学。 Fabrigar et al.(1999) 建议如果在因子抽取模型时使用了极大似然法,我们可以根据其拟 和指数来确定因子数目,这比起特征值大于1 和碎石图检验更加准确。Zwick Velicer(1986) 认为平行分析法(Parallel analysis) 确定因子数目非常准确,但由于其方法繁琐,不易掌握, 从而没有得到应有的重视(Hayton, Allen Scarpello,2004)。因此,Hayton, Allen Scarpello(2004)设计了如何在SPSS中简便易行地实现平行分析法的方法,并以美国研究生为被试,发 现该方法学生可以很快掌握,平均在 15-30 分钟内即可完成。具体操作方法本文作者将另外 撰文介绍。 很多学者(Conway Huffcutt,2003; Fabrigar et al., 1999; Ford, MacCallum Tait,1986) 认为,我们在确定因子数目时可以采用多种方法,综合比较,以更准确地确定因子数目。
综上所述,我们将探索性因子分析中几个重要问题及其常用方法列表如下: 探索性因子分析重要问题列表重要问题 最低标准被试数至少为100 之比1:2样本大小 其它标准* 被试数为400 之比1:5或1:10 变量数与因子 数之比4:1 5:1成份模型 主成分分析法 因子抽取模型 共同因素模型* 极大似然法 主轴因素分析 正交旋转 方差最大化旋转法 (Varimax) 全体旋转法 (Equimax) 四分旋转法 (Quartimax) 旋转方法 斜交旋转* 最优斜交转轴法 (Promax) 最小斜交转轴法 (Oblimin) 四方最小法法 (Quartimin) 传统方法 特征值大于1 碎石图检验 确定因子数目 推荐方法* 极大似然法中的拟 和指数 平行分析法 我国研究述评我们检索了十年来发表在国内应用语言学领域主要期刊上采用了因子分析方法的研究 报告,发现有九项研究报告了其探索性因子分析的研究结果,结合上述几个重要问题,对这 九项研究进行评述(详细情况见附录)。其中杨小虎 (2004)对其探索性因子分析和验证性因子分析均进行了详细报告,本文仅对其探索性因子分析部分进行评述。 3.1 样本大小 1998),有一项(张立飞 (2005)从中国学习者语料库中抽取样本,样本非常大,应该达到了因子分析的要求,只是由于36 个变量出现的 频数不一,故将其频数进行了标准化处理,因此无法报告样本具体数量。其它项目样本均足
发表评论