点击蓝字
基于Rasch模型的《中国英语能力等级量表》笔译自评量表效度研究
吕晓轩,任伟
关键词:笔译能力;自评量表;效度验证;Rasch模型;
文献来源:吕晓轩,任伟.基于Rasch模型的《中国英语能力等级量表》笔译自评量表效度研究[J].外语教学,2022(1):57-61+94
期刊动态 | 《外语教学》2022年第1期目录
作者简介:吕晓轩,北京林业大学外语学院副教授,博士,研究方向:语言测试与评价、语用测试。;任伟,北京航空航天大学外国语学院教授,博士,博士生导师,研究方向:二语语用、语用学、二语习得。;
基金:国家教育考试科研规划项目“社会认知框架下CSE笔译自评表效度及应用研究”(项目编号:GJK2019044)的阶段性研究成果;
《中国英语能力等级量表》(以下简称《量表》)自2018年颁布至今已有三年多。作为首个面向我国英语学习者的英语能力测评标准,其在教学、课程、评价中得到了广泛应用。其中,笔译能力量表作为《量表》的重要组成部分,是世界首个全面系统开发的翻译能力系列量表,其研发旨在为国家培养对外语言服务人才作出贡献(冯莉等2020)。笔译能力量表包括一系列子量表,笔译能力自评量表就是其中之一。经过效度验证的自评量表可用于学生自我评价之中,所获得的评价结果既是对笔译能力测试的一种补充,同时也可作为笔译水平考试效度研究的能力参照(范劲松2017)。为此,对笔译能力自评量表进行效度验证,有利于依托该量表研发测评工具,为该量表在笔译测评中的应用提供保障。迄今,《量表》效度研究已经取得了系列成果。在研发初期,量表研究人员构建了基于语言能力整体观的效度验证框架,提供了效度研究路径(朱正才2016)。《量表》颁布后,学者们开始聚焦《量表》的听力、口语、阅读、写作、口译等子量表,通过构建效度验证路径(金艳、揭薇2020;王华2020)、探索验证模型(闵尚超等2018)分别对子能力量表展开效度验证。然而,对于笔译能力子量表的效度研究相对较少。现有研究仅限于量表使用者的动机、态度、方法和操作等方面的探讨及对笔译能力量表应用的可行性分析(冯莉、严明2018),关于其效度的实证研究较少。为此,本研究将以笔译能力自评量表为例,运用Rasch模型对其展开效度验证,旨在为笔译能力量表应用和推广提供相关的证据支持,以期为笔译能力系列量表的后续效度研究以及量表修订提供参考。
2.文献综述
2.1 自我评价与自评量表
自20世纪70年代以来,语言学习领域逐渐兴起对自我评价的研究,以自评机制和工具为主要研究对象,探索其对学生语言学习产生的影响,并逐渐成为语言测试与评价研究的话题之一(Blanche&Merino1989;Mc Namara&Deane1995;Gardner2000)。随着对自评信度和效度在测评方面的异议逐渐增加,针对自评效果的研究也逐渐聚焦自评与语言能力测试之间的关系,以期验证自评工具的有效性(Ross2006)。Oskarsson(1980)使用不同测试工具评价大学生的语言能力,发现自我评价结果与语言测试分数存在正相关。Robinsonet al.(2006)运用标准参照描述的评分量表让学生在课程学习中开展自评和互评,其定量和定性结果均表明自评与互评的方法能够让学习者充分认识到在翻译过程中应该重视哪些方面,从而提高其笔译能力。Dolosic(2018)对学习者的二语阅读能力进行标准参照的自我评价,结果表明学习者自评与其阅读表现之间的关系在统计学上具有显著意义。此外,Ross(1998)和Li&Zhang(2021)先后对二语语言能力自评展开元分析研究,均发现当自评量表的描述语更具体、更具功能性时,自评结果的准确性就更高。
由此可见,二语学习者使用自评工具既可以对整体语言能力也可对分项技能(听、说、读、写、译)进行自我诊断,评价结果的可信度取决于自评工具的效度,自评的反馈信息能够帮助学习者发现语言学习存在的问题并及时改正,从而提高语言能力(Jamrus&Razali2019)。自评量表则是语言学习者实现有效自评的重要工具之一,也是提升学习者语言能力自我认知的主要途径(潘鸣威等2019)。现有研究显示自评量表应用于诊断测评,有助于学习者诊断个人笔译能力的水平和等级,促使学习者反思学习中存在的问题,从而规划学习方向,明确笔译学习目标,提高其笔译能力(范劲松2017;冯莉等2020)。
2.2《量表》效度验证研究
语言能力量表的效度是指其能“测量到目标语言能力的程度”(朱正才2016:3)。由于语言能力量表研发过程本身就是一种效度验证,为此在《量表》研发之初,效度验证框架已经构建,按照时间进程划分量表研发阶段,并明确各阶段的效度类型及证据收集方法。其中,构念效度和公平效度是能力构念阶段和量表编制阶段的主要效度类型,其效度证据收集方法包括项目反应理论模型分析(如Rasch模型分析)、FACETS分析等研究方法(朱正才2016)。口语能力量表研发人员在处于编制时期就提出定性和定量研究相结合的效度论证方案;随着量表的颁布,结合量表的应用,对量表效度验证范围逐渐扩大,量表效度验证框架和方法也呈现多样性。刘建达(2021)采用Bachman&Palmer(2010)的测试使用论证框架,通过收集评价效度论证方面的证据来验证除口笔译外的其他语言能力的构念效度、公平效度和程序效度,基于定性和定量分析数据证明量表具有良好的效度,同时也提出未来研究应注重结果效度验证,为量表应用提供坚实基础。金艳、揭薇(2020)充分借鉴由参与者、活动过程和相关成果三要素构成的考试后效研究模型,立足于教育和社会两大视角,依托Toulmin(2003)论证模型,构建量表事后效度论证框架,为整体语言能力量表及其他语言子能力量表(如笔译能力量表)提出了建设性的后效研究路径。
学界从两个方面对自评量表展开效度研究。一方面,学者们聚焦语言综合能力,采用分数解释或使用论证框架对大学生群体的自我评价数据展开分析,验证包含听、说、读、写技能自评量表的效度,通过Rasch模型分析摘要统计量中的分隔指数和分隔信度,验证自评量表能够区分不同水平学习的假设(周艳琼2021)。另一方面,学者们对听力、写作、口译等技能的自评量表分别展开效度验证(闵尚超等2018;潘鸣威等2019;穆雷、梅欢2020)。如,闵尚超等(2018)采用多级计分项目反应理论模型分析学生听力能力自我评价数据,发现相比广义分部评分模型与分部评分模型,等级反应模型能够估计项目的难度参数和描述语的区分度,模型拟合度较高,能够有效甄别质量欠佳的描述语。
上述研究中大多采用项目反应理论模型对《量表》开展效度验证,其中Rasch模型的应用较为常见,尤其适用于自评量表的研究,能够甄别描述语质量、判断描述语难度、检验描述语的区分度(余民宁2020)。为此,本研究将采用符合自评量表特征的Rasch等级量表模型开展笔译能力自评量表的效度研究。
2.3 Rasch等级量表模型
Rasch模型是一个数学概率模型,将受试的能力和项目难度校准在同一个区间尺度上(Bond&Fox2015)。该模型的基本原理是:当一个受试的能力高于另一个受试,那么该受试答对题目的概率更大;同样,当第一个题目难于第二个题目,那么任何受试答对第二个题目的概率更大(Rasch1960)。随着研究的不断发展,Rasch模型发展到了可用于多级计分数据的模型系列。在进行问卷或者量表分析时,Andrich(1978)提出的等级量表模型(RatingScaleModel,RSM)经常被采用,RSM是专门为李克特量表使用者设计的分析模型(余民宁2020)。
综上,《量表》的效度验证需持续开展,从量表研发伊始到量表投入应用,效度验证应持续贯穿整个过程(方绪军、杨惠中2017)。针对量表描述语质量、构念效度、使用效度等方面,采用不同的研究方法收集各个阶段的效度证据,展开分析和验证,旨在持续提高量表效度,实现量表研发初衷,充分发挥量表的测量功能(刘建达2021)。但是,目前关于笔译能力自评量表的效度研究成果相对匮乏。结合现有研究成果,本研究拟采用Rasch的等级量表模型考察笔译能力自评量表效度,收集量表信度、区分度、构念效度、难度等证据,旨在验证量表的描述语质量,判断描述语能否有效区分不同笔译能力的学习者,为量表的应用提供数据支撑。
3.研究设计
3.1 研究问题
本研究拟解决以下三个问题:
1)笔译能力自评量表整体信度如何?
2)笔译能力自评量表的构念效度如何?
3)笔译能力自评量表描述语难度如何,能否区分不同笔译能力的学习者?
3.2 参与者
本研究采用方便随机抽样,调查对象为黑龙江某省属一本高校的144名翻译专业本科生和研究生、具有3年以上翻译从业人员9人参加问卷调查,共收回有效数据153份(女性126人,男性27人)。其中本科生涉及3个年级(一年级32人,二年级34人,三、四年级共计31人);一年级硕士生47人。
3.3 研究方法
本研究采用自评问卷工具,该问卷由两部分构成:第一部分包括姓名、性别、专业、年级/从业年限等背景信息;第二部分由笔译自评量表5个级别的35条描述语改编成为题项,采用李克特5级量表(0-非常不同意;1-比较不同意;2-既不同意也不反对;3-比较同意;4-非常同意)。
本研究通过网上平台发放问卷收集数据。为保证作答质量,作答时间设置为至少15分钟,同时委托任课教师在课堂上发放问卷,并指导学生作答。问卷说明包括“笔译能力量表”和本研究的介绍,以及对问卷作答5级量表“0~4”含义的解释。本研究利用Winsteps4.7.0.0软件,采用等级量表模型对量表数据从项目拟合度、单维性、信度等方面进行分析,以期全面了解量表的描述语质量和区分度,进而判断自评量表的效度,根据分析结果改进量表质量。
4.结果与讨论
4.1 笔译量表信度
如表1所示,本研究中描述语与被试的信度估计值均高于0.8,分隔系数分别为7.04和5.63,这表明量表中的描述语信度良好,且被试大概可分为五个能力等级,这也验证了自评量表从五级到九级的五个级别分类是合理的(冯莉等2020)。
4.2 描述语拟合度
描述语拟合情况分析可以评价题目是否符合Rasch模型。据此可以区分出表现异常的题目。拟合情况分析也是对量表构念效度的验证(Bond et al.2021)。通过对描述语的难度估计值(MEASURE)、内部拟合指数(InfitMNSQ)、外部拟合指数(OutfitMNSQ)和点相关(PTMEA)系数的分析,发现项目难度值范围在-2.28~1.91,难度均值为0.00,难度标准差均值0.13,该结果表明各条描述语难度适中。
项目内部拟合指数范围在0.65~2.61之间,外部拟合指数范围是0.64~6.2之间。RSM模型的内部和外部拟合指数应在0.6~1.4之间(Linacre&Wright1994)。尽管整体拟合结果超出该拟合范围,但通过分析发现除“我能建立术语库”和“我能熟练使用各类翻译软件和工具”这两条描述语外,其他描述语都符合标准,为此量表整体的拟合度良好。通过对上述两条描述语进一步分析,发现这两条描述语考察受试是否具备使用笔译辅助工具的能力(如翻译软件的应用)。该项能力属于笔译能力的重要构成要素———笔译策略能力的范畴,笔译辅助工具的使用是笔译策略能力评价的一个重要维度(冯莉等2020)。由于这两条描述语分别对应自评量表的较高级别,即8级和9级,所以出现拟合异常现象。尤其是低年级受试的反应异常,主要原因在于他们尚未接受相关翻译软件和工具的培训。为此,尽管这两条描述语超出拟合范围,但是通过进一步分析,发现其仍然属于笔译能力的重要组成部分。
此外,点相关系数在0.70(除“我能熟练使用各类翻译软件和工具”)左右,实际值与期望值相差不大,说明各描述语与量表之间的相关度适中,不存在题目内容重复以及题目与量表所测特质无关的情况,表明描述语潜在的测量构念呈现相同的变化趋势。综上,本量表基本拟合Rasch模型预期,具有良好的构念效度,这与中国英语能力等级量表整体Rasch模型效度验证结果是一致的(刘建达、吴莎2019)。
4.3 量表单维性检验
量表拟合度良好是量表具有单维性的证据之一(Bondet al.2021)。此外,通过Rasch模型残差的主成分分析法(PCA)可以进一步检验量表单维性。Linacre(2021)指出如果Rasch测量的维度对数据差异的解释≥50%,那么可以认定为量表是单维的。也就是说,当Rasch模型分数可以解释到的变异数越高,项目测量同一维度的可能性越高;当数据残差中存在有意义的其他维度,则说明量表不具有单一性,对量表的构念效度产生影响。Bondet al.(2021)进一步指出如果残差中首因子仅能解释少量数据差异,同样说明该量表具有单维性特征。
本研究Rasch维度能够解释数据62.5%的残差,并且残差中的第一个因子仅解释了数据差异的5%。此外,在残差分析中的前3个因子分别对应以下3条描述语:“我能翻译外交文书和各类招投标文件,译文准确、符合行业规范”“我能翻译各类文学作品,译文风格接近原文”和“我能翻译各类学术论文和著作,译文内容准确,格式规范”,但通过分析发现这三条描述语并不能构成一个有意义的因子解释维度。综上,由于量表具有良好的拟合度,Rasch测量维度解释了62.5%的总方差,并且第一因子解释数据差异比例较小,所以证明本量表具有单维性,能够测量受试的笔译能力,这也是量表构念效度的重要证据之一:“我能熟练使用各类翻译软件和工具”
4.4 描述语难度和区分度
由图1可知,受试能力的均值和项目难度均值之间差距较大(±4个logit单位),表明相对于受试来说,量表难度对应基本精准,中间能力的被试较多,题目难度集中在中等水平,受试能力分布也较均匀,受试能力与题目难度基本匹配成功。也就是说,笔译能力自评量表已经很好地完成了对该样本笔译能力水平的定位,但也还存在一些不足,如受试分布的高端比题项阈值的最高水平要高一些,同时受试分布的低端也比题项的最低水平要低一些。这表明一组受试的笔译能力比该量表所能测量的水平要高,而另一组受试的笔译能力比该组题项所能测量的水平要低(Bondet al.2021)。也就是受试的笔译能力不能够被充分测量。出现该情况的主要原因在于,处于高端的受试来源为笔译从业者,这些受试从业年限较长、笔译能力相对较高,而低年级(尤其是本科一年级)受试尚未接受笔译能力的系统培训。因此,未来使用者在应用该量表进行评价时,如需对上端和下端受试进行更精确的人员估计,可以考虑在量表的上端和下端增加一些题项。
5. 结论
本研究对《中国英语能力等级量表》及其子量表的效度验证现状展开回顾,将笔译能力自评量表的33条描述语组成问卷开展了自评调查,收集学生及笔译从业人员自评的数据,采用等级量表模式,即RSM模型对描述语质量展开效度验证。研究结果表明:1) RSM模型能够估计描述语的难度和区分度,有利于甄别出质量欠佳的描述语;2)笔译能力描述语整体信度较高,并且具有良好构念效度;3)笔译能力自评量表能够较好地区分不同级别的受试。这些结论为笔译能力自评量表未来在笔译教学和评价之中的应用提供了必要的数据支持,有效保证了评价工具的信度和效度。
本文编辑:刘翠菊 吉林大学
本文审核:王峰 吉林大学
回顾往期内容
学术讲座 | 青年学者如何突破论文发表困局?
学术讲座 | 语言类学术期刊论文写作与发表
学术讲座 | 核心期刊资深编辑:导致论文不能录用的13个语言问题,作者需要知道
学术讲座 | 综述≠综抄,语言学高水平文献综述写作方法
科研助力 | CSSCI期刊编辑部主任:我们需要这样的稿子
学术讲座 | 文学类SSCI A&HCI论文发表进阶系列课
学术讲座 | 核心期刊编辑眼中的“问题意识”
网课推荐 | SSCI论文英语学术写作与发表策略
科研助力 | “顶刊收割机”关于选题与发表的内心独白……
学术研修 | 学术论文发表12讲
语言学通讯
投稿:dianzishu@126.com
商务合作:13501892122