全国翻译专业资格（水平）考试英语口译试题命制一致性研究报告

翻译服务
翻译实力管理团队质量控制翻译流程保密制度翻译领域

翻译语种
英语日语韩语德语法语俄语意大利语西班牙语葡萄牙语其它小语种

服务机构
深圳总部北京翻译上海翻译香港翻译广州翻译武汉翻译西安翻译厦门翻译海南翻译

	热线:400-6688-204 电话:0755-26413476
	MSN: boyutranslation @ hotmail.com
	邮箱: business @boyutranslation.com
	QQ: 841952105

其他新闻 - 新闻中心 - 全国翻译专业资格（水平）考试英语口译试题命制一致性研究报告

全国翻译专业资格（水平）考试英语口译试题命制一致性研究报告

新闻中心　加入时间：2013/3/14 16:56:41　来源：　访问量：2280

全国翻译专业资格（水平）考试英语口译试题命制一致性研究报告

来源：中国翻译协会

科技发展和经济全球化使对外交流与合作日益频繁。在传播先进的文化和科技方面，翻译起着越来越重要的桥梁和纽带作用。随着我国改革开放的进一步深入，加入世界贸易组织和综合国力的提高，我国在国际事务中的作用越来越重要。我国的翻译人员不仅要把国外先进文明成果介绍到国内，而且还要把我国优秀的文化、科技成果推向世界。因此，急需越来越多的优秀翻译人才。但是，翻译人才却青黄不接。正是在此背景下，2003年12月6日，国家人事部推出了全国翻译专业资格（水平）考试（China Accreditation Test for Translators and Interpreters — CATTI），不拘一格地选拔高素质的口笔译人才。

目前，英语二、三级口笔译考试已经举行了8次，考生总数已达数万人，并于2005年5月起在全国范围推开，各地区、各部门不再进行翻译系列英语翻译、助理翻译任职资格的评审工作，在国内外产生了很大影响，报考人数持续增加，同时，在英语二、三级口笔译测试的信度与效度方面也积累了一些经验，获得了宝贵的第一手资料。

口译命题是该考试的核心工作，口译命题质量不仅直接影响考试的信度和效度，而且直接影响国家信誉、考生利益和证书权威性。2005年12月，为了保证英语二、三级口译试题命制的科学性、一致性、公平性，进一步提高口译测试信度和效度和该考试的权威性，外文局翻译专业资格考评中心成立了口译研究小组，对英语二、三级口译试题命制一致性进行研究，在原有的试题命制要求的基础上，制定出详细的、具有可操作性的口译试题命制细则，指导英语二、三级口译考试。在研究中，口译研究小组借鉴了国内外现有的研究成果，充分运用各种测试手段，对命题的标准、流程、要求与操作等各个主要环节进行了测试和分析。其中，研究的主要目的是对考试的效度与信度进行总体评价，提供各类题型的难度控制、题量控制及考点分布等研究结果，并且提出完善质量控制的可操作意见与建议。

一、理论借鉴

考试形式、试卷编制与评分标准的最优化是确保实现考试目的根本保证。在对试题的适用性与试卷质量进行评价时，语言测试学家基本认为首先应该检验其效度与信度。

1、效度通常指一份试卷所能测出预定要测量的事物的程度，是“成功地实现测试目的程度”。它主要包括：

1）内容效度（content validity）

内容效度指的是一份试卷所测试的内容实际反映的旨在测量的内容的程度。内容效度取决于试卷内容的相关性和试题抽样的代表性。

2）构卷效度（construct validity）

构卷效度指的是试卷所能反映作为其基础的相关理论假设的程度。试卷项目体现这些理论的主要方面的程度越高，该卷的构想程度就越高。

3）同期效度（concurrent validity）

同期效度指的是一份试卷的测试结果与旨在考核相同内容的另一份试卷的测试结果或其它衡量标准的相关程度。所谓相关，指的是对两组数据之间的关系的强度的测定或计算，常通过相关系数（coefficient of correlation）来表示。相关系数的数值在-1与+1之间，“0”表示一点不相关，-1表示完全的负相关，+1表示完全的正相关。

4）预测效度（predictive validity）

预测效度指的是考试结果对考生未来能力或行为预测的有效程度。

5）卷面效度（face validity）

卷面效度指的是根据考生及其他有关人员的主观判断，一份试卷能够测试出旨在测试的知识或能力的程度。

2、信度，亦称可靠性，指的是试卷结果的可靠程度或具有一致性的程度。信度通常以两次测试或两次评分结果的相关系数表示。一份有效的试卷应当是高度可靠的。也就是说，若是在相同条件下重复使用，考试结果应当是稳定一致的。这就是所谓的复测信度（test/retest reliability）。信度的检验主要包括：

1）再测信度（test-retest reliability）

是估量信度最简单的方法，用同一个试卷在两个不同的时间内测试同一批考生，然后求出两次考试的相关系数。

2）平行试卷信度（parallel forms reliability）

是上种方法的改进，采用两份或者几份在测试内容，题型，题量，难度等方面等值的平行试卷测试同一组考生，再求出平行试卷测试结果之间的相关系数。

3）内部一致性信度（internal consistency reliability）

也称“对半法”信度（split-half），是试卷信度评价最常用的方法之一，它的优点是无需用两套试卷去考两次。具体的方法是将整份题目按照单，双数分成两半，然后利用公式加以检验。

二、题型设计的合理性

英语二、三级口译考试内容分为综合能力和实务两大部分，其考试目的是检验应试者的口译实践能力是否达到准专业译员水平或专业译员水平。

交际测试法（the communicative testing approach）最主要的特点是，交际性测试的内容是由学习者的交际需求决定的。考试设计者应首先对受试者进行需求分析，认定受试者在将来的目标场景中应该用英语做的事，得出目标行为，制定考试大纲和内容说明等作为考试的依据。交际语言测试模式的特点是：分解交际功能，综合性试题，直接测试能力，准则参照，效度高，主观评分，评分信度低，重视语用得体性，阅卷速度较慢，命题简便，需抽样分析，不便于大规模考试，以及测试真实的综合技能。

巴奇曼（Bachman）的交际法语言测试理论认为, 语言测试应是多重组合的，测试者同时对应试者在交际前提下的语言知识和语言技能进行测试，根据这一理论，厦大的陈菁博士把口译测试内容划分为知识能力（指应试者对源语和目的语语言知识和文化背景知识的掌握, 其中语言知识既包括两种工作语言的语法、语音和词汇，也包括语篇知识、言语知识和社会语言学知识）、口译能力（指应试者运用所有知识进行口译交际的能力，其中包括瞬时记忆、口译笔记、概述、释译、应对策略等）和心理能力（指应试者的临场发挥能力, 也即心理素质）三部分。

口译是一种复杂的交际行为，口译测试是对应试者交际能力的测试，因此，口译测试应尽可能体现口译实际工作的特点和要求, 在真实或接近真实的环境中采用真实的源语材料（带不同口音的真实材料）来进行，以观察应试者在真实的交际环境中运用口译技巧达到交际目的的能力，并以此来判断应试者的口译水平，应试者原则上应给予一定的译前准备时间。

口译测试是直接测试, 其效度较高；口译测试又是主观型测试，信度较差，从而影响到其效度。没有信度的语言测试, 当然也就没有效度。Bachman（1990）认为信度与效度是语言测试中的两个互补因素，应相对平衡，提高信度成为实施口译测试和保障测试质量的一大问题，提高口译测试信度, 就是要提高其评分的可靠性和稳定性，这与评分方法、评分标准、评分人员有着直接的关系。

口译测试通常有两种评分方法：一种是分析法，一种是综合法。分析法是把口译分解成若干要素，如语法、内容、语音语调、流利程度、准确度、词汇等等，评分人员根据一定的标准对不同的要素分别评分，然后相加，即总分。综合法是评分人员根据一定的标准，凭总体印象给考生打分。综合法能从整体上把握考生口语表现，效度比较高；分析法注重口语的各个要素，更为客观一些，信度较高。因此，大规模的标准化口译测试应采用分析法和综合法相结合的方法来评分。

通过对外语测试理论的研究，我们认为全国翻译专业资格（水平）考试中所设置的“口译综合能力”和“口译实务”两大模块中的“口译综合能力”部分的题型是典型的语言能力测试题型，以测试出考生的综合语言水平；而“口译实务”部分的实务篇章口译题型主要测试应试者的口译策略与口译技巧能力，属于口译能力测试。由此看出上述测试题型符合口译测试理论。

本次研究以《全国翻译专业资格（水平）考试的大纲》（以下简称《大纲》）为基本依据。本大纲是该考试的指导性文件，是口译试题命制的依据。根据口译人员在实际口译工作中所需要的知识和能力，明确了考试的范围、内容、重点，对考核点分层次提出了要求。在研究中就口译实考试题的题量控制、难度控制、考点类型、文章类型、话题类型、考点分布等进行了分析。

三、试题一致性分析

（一）英语二、三级口译综合能力

本研究对2003年12月至2005年11月近5次二、三级口译综合能力考试试题进行了分析，主要包括以下四个方面：题量控制、难度控制、考点分布和试题选材四个方面，同时对比了二、三级口译综合能力考试的区分度。

1、题量控制

三级口译综合能力考试Part I判断选择题的第一部分听短文判断正误题五次考试听力量基本保持了稳定，每篇文章字数大约为230个单词。第二部分短句选项的总听力量总体呈上升趋势，也基本上保持了大致稳定。Part II听力篇章理解部分三篇文章的听力量范围在220个单词到288个单词之间，大多数篇章的听力量为250个单词左右，基本保持稳定。Part III听力填空部分听力量的范围在200-260个单词之间。Part IV听力综述部分的听力量范围在480-540个单词之间，基本符合考试要求的每篇500个单词左右的听力量。

二级口译综合能力考试Part I判断，即听短文判断正误题的听力量基本保持稳定，10个小题总听力量保持在430-570个单词之间，听力总量在历次考试中有差别。Part II短句选项部分的听力量保持大致稳定，10段简短文字总听力量保持在700个单词左右。Part III听力篇章理解部分听力量变化较大：2003年12月和2004年5月的题量基本相同，总听力量保持在650—700个单词之间；2004年11月和2005年5月的考题中，总听力量增加到1055个单词左右。Part IV听力综述部分的听力量范围在460-638个单词之间，与题目要求的听一篇约600个单词左右的文章差别较大，听力量变化大。

2、难度控制

二、三级口译综合能力试题难度控制主要分析了超纲词汇、文化背景知识词汇，三级考试中还包括分析与考点有关的重要短语词汇。

三级口译综合能力考试中每篇独立的听力文章超纲词汇不超过5个单词，从总体上不影响听力的效果，但应避免在考点设计上出现超纲词。文化背景知识词汇在一次考试中所占的比例适中且集中，主要分布在听力填空部分。重要短语词汇在三级考试中所占比例较少。

二级口译综合能力试题每篇独立的听力文章超纲词汇不超过5个单词，从总体上不影响听力的效果，文化背景知识词汇分布较广，所占比例适中。建议在考试大纲中列出常用的派生词和短语词汇。

3、考点分布

1）三级口译综合能力

Part I Section A短文正误判断考点类型包括：细节信息，理解推断，词义理解，比较结构，虚拟语气，原因结果等6项。短文听力正误判断题中，理解推断是最主要的考点类型，此外还考察了词义理解、句子理解、语法等方面的知识，较全面地考察了语言运用能力，考点分布较为合理。Section B短句理解选项考点类型包括：理解推断，词义理解，虚拟语气，比较结构，数字信息，口语理解等6项。短句理解选择题主要侧重对词义词汇的理解和句子意义的理解推断，并兼顾了对重要语法结构，句型结构的考察，同时还考察了一些口语化表达，体现了口译考试的特点。考点分布较为合理。

Part II 语篇理解部分，考点类型包括：主旨大意，细节信息，推理判断，词汇短语，态度观点5项。篇章理解主要考察了对听力材料中大量事实细节的理解能力和对文章的理解判断，主要侧重考察对文章细节的掌握和推理能力，考点分布较为合理。

Part III填空部分，考点类型包括：名词，专有名词，动词，形容词，副词，介词，数词，句子成分等8项。三级口译综合能力填空题主要考察对时政新闻事实的理解和表达。考点设计考虑到了英语基础知识的各个方面，其中重点是对名词短语和动词短语的考察，还包括对专有名词的考察，体现了口译考试的特色。考点分布合理，重点突出。

2）二级口译综合能力

Part I判断考点类型包括：细节信息，理解推断，词义理解，比较结构，虚拟语气，原因结果等6项。考点分布较为均匀合理, 主要体现从总体上来考察对语篇的听力理解能力。

Part II短句选项考点类型包括：细节信息，理解推断，词义理解，虚拟语气，比较结构，原因结果，数字信息等7项。短句选项主要侧重对整体句子的理解推断及对细节信息的理解，还兼顾了对词汇和重要句型结构的考察，考点分布在五次考试中趋向更均匀合理。

Part III篇章理解考点类型包括：主旨大意，细节信息，推理判断，词汇短语，态度观点5项。篇章理解主要考察了对听力材料中大量事实细节的理解能力，和对文章内容的理解判断，考点分布较为合理。没有设计词汇考点。建议在篇章理解选项部分加入词汇短语意义的考察。

4、试题选材

三级口译综合能力考试中Part I Section A 篇章理解判断、Part IV听力综述部分的选材主要是社会生活方面。Part III填空部分主要是时政类文章。Part II篇章理解部分，2003年和2004年的考题侧重社会生活话题。2005年5月的考试中题材变化较大，涉及到了文化、艺术、医学和经济文章。建议三级口译综合能力考试篇章理解部分的文章选材应多样化，三篇文章应涵盖不同的题材，可以更全面考察考生的综合知识能力。

二级口译综合能力考试Part I 判断、Part II短句理解选项和Part IV听力综述部分，考题选材广泛，主要集中在社会生活、经济、科普、时政、政治历史和医学，与专业口译实践有密切联系, 五次考试题材分布较为合理。Part III篇章理解部分文章题材主要集中在经济、科普、社会生活、时政，与专业口译的实践有密切联系，分布较为合理。

5、口译综合能力试题区分度

三级口译综合能力考试在试题构成上包括判断、短句理解、篇章理解、填空和听力综述五个部分。二级口译综合能力考试在试题构成上包括判断、短句选项、篇章理解和听力综述四部分。二级的总听力量要超过三级。

三级在考点设计上侧重对英语基础知识的考察，其中包括对重要词汇短语的考察，填空部分对英语综合知识能力的考察。二级在考点设计上主要侧重对整体语篇的理解和推理。

在试题选材方面，三级考试题材主要选取了社会生活方面的文章，填空部分是时政类文章。二级考试选材更广泛，包括社会生活、政治、历史、时政、经济、医学、科普等多方面，充分体现了口译实践的选材特点。

二、三级口译综合能力试题设计从总体上符合了考试大纲的要求：三级考试的基本要求是具备一般场合所需的英语听力、理解和表达能力；二级的考试基本要求是具备专业工作所需的英语听力、理解和表达能力。

（二）英语二、三级口译实务

在研究中，对全国翻译专业资格（水平）考试中的二、三级口译实务考题的题量控制、考点分布、试题选材和命题参考指标四个方面进行了试题命制一致性研究。

1、题量控制

1）三级口译实务

在题量控制方面，英语三级口译实务考试基本执行《大纲》的要求。例如：所有5次英汉互译（对话）的题量都控制在《大纲》的范围。但英汉交替传译题量却有时超过《大纲》题量的要求，有时又低于这一要求，历年之间的差距达到近130个单词；在汉英交替传译方面，历年之间的差距达到约40个单词。显然，题量控制需要进一步规范。

在对超纲词进行分析时，我们发现：

在每年的英语三级口译实务考试中基本上都会出现一些超纲词。例如：在英汉互译（对话）中超纲词最多可达4个单词（2005年5月），而最少时为0个单词（2004年11月）；英汉交替传译中，超纲词最多可达8个单词（2005年5月），而最少时为1个单词（2004年5月）。相对而言，在汉英交替传译中超纲词的控制基本做到了总量控制的一致性。

2）二级口译实务

根据分析结果，可以发现在题量的控制方面英语二级口译实务试卷在命题时注意了当年题量的控制，基本符合大纲提出的要求。例如：在汉译英（两篇）中题量保持在779-966字之间；在英译汉（两篇）中题量为751—1011个单词之间。

由于《大纲》没有对超纲词的使用进行较为明确的量化规定，因此在研究中仅对超纲词的使用与分布情况进行了分析，为了进一步细化研究结论，对以专有名词形式出现的超纲词也进行了分析：

根据分析结果，可以发现在每年的英语二级口译实务考试中基本上都会出现一些超纲词。从超纲词的题量上看，每年考试的分布是不均衡的。例如：超纲词最多可达9个单词（2004年5月），而最少时仅为1个单词（2004年11月）。此外，专有名词的使用也存在同样的问题。例如：在汉译英（两篇）中超纲词最多时可达22个（2004年5月），而最少时为3个（2004年11月）；在英译汉（两篇）中超纲词最多时可达16个单词，而最少时为5个单词。当然，这些专有名词中包括如China等常规单词，但是从总体上看超纲词使用量需要规范。

2、考点分布

口译工作者应该抓住说话者的中心思想并准确、流畅地用听话者能理解的语言表达出来。英汉互译中常用的方法和技巧对口译工作者基本素质的要求为命题时确定考点提供了直接依据。它们主要包括：

1）重要的和实质性的内容（人名、职务、机构名称、时间、地点、数字等）翻译

2）主要的译词技巧（词类转译法，增词法，重复法，省略法，正反表达法等）

3）主要的译句技巧（分句，合句，被动语态，名词从句，定语从句，状语从句，长句等）

4）习语、成语和俚语的翻译

据此，对英语二级口译实务试卷（2003年—2005年）的基本素质考点进行了分析，结果发现，其考点的设定大致覆盖了对口译者各项专业能力的考核总体要求。然而考点设定的量在各次考试中差异较大。例如：人名、职务、机构名称、时间、地点和数字等是基本考点，但是英译汉（两篇）最多为41个此类考点（2005年5月），最少为15个（2004年5月）；在汉译英（两篇）方面，最多为44个（2004年5月），最少为19个（2005年5月）。此外，应增加成语、习语和俚语翻译等考点的设定。

3、试题选材

口译者需要有一定的笔译基础。作为翻译，口译和笔译有相似之处。但口译有自身的特点，即译员必须及时地进行一次性翻译。这就要求口译工作者具有扎实的语言基本功和较高的汉语和英语表达能力，根据需要使用适当的文体或语体。

根据分析，可以发现在过去两年的考试中，考试的选材覆盖面具有一定局限性。事实上，政治、经济、工业、农业、外交、教育和体育等领域也是口译实践中经常会遇到的话题。口译工作者具有较广的知识面和抓重点，记笔记的能力，应该注意不同场合、不同文体之间的差异。

4、命题参考指标

根据测试学的要求，一份试卷只有充分代表或最大限度地覆盖了预定测试的内容，试卷才能具有理想的效度。因此，有必要对有效试卷的设计与命制提出命题参考指标。就英语二、三级口译实务考试而言，参考指标主要分以下4个方面：

1）题量：篇章的词汇量应以《大纲》要求为准，同时在各年考试之间避免出现词汇量的较大出入。此外，要有意识地考虑超纲词的使用与评分标准。对专有名词的使用和考察也应当有一定的要求，以尽量确保各年考试在此方面考核难度的一致性和平衡性。

2）题材：篇章题材应尽可能多地采用内容较新和贴近时代发展要求和实际状况的材料，应尽量根据形式的发展，选择范围不同的主题。可选用有关政治、经济、工业、农业、外交、教育、体育、人口、医疗、卫生、人文关怀（妇女儿童和老人等问题）、外贸、环境保护等话题。

3）选材：应尽量选择种类丰富的文体而不要体现较为明显的选择或倾向性特征，可选用一般文件、正式文件、散文、广告、企业介绍、记叙文、新闻报导、报刊特写、报刊社论、法律知识、经济专论、报告文学、演说词、广播稿等。

4）基本素质测试控制：应直接体现对口译工作者的总体要求。因此，在命题时要设计与英汉互译，尤其是口语实务有关的重要方法和技巧密切相关的基本素质考点，可大致按照重要的和实质性的内容（人名、职务、机构名称、时间、地点和数字等）翻译；主要的译词技巧（词类转译法，增词法，重复法，省略法，正反表达法等）；主要的译句技巧（分句，合句，被动语态，名词从句，定语从句，状语从句，长句等）；习语、成语和俚语的翻译等几个较为突出的方面进行命题设计，安排与平衡。

根据上述对英语二、三级口译实务试卷（2003年—2005年）内容和构卷效度进行的研究，我们认为英语二、三级口译实务考试是基本符合《大纲》要求的，编制的试卷也在相当程度上达到了“成功地实现测试目的”的要求，其效度与预订测试条件与目的是基本相关的。然而，在试卷的设计与编制方面仍然需要保证题量控制的统一性和均衡性，超纲词的使用量、分布程度的明确规范，题材领域的广泛性，使英语二、三级口译实务考试呈现出专业特征。此外，对于考察口译者是否能够在遇到成语，习语，诗句、俚语和俏皮话、拟声词和外来词语等情况时，应尽量准确翻译，或者能够尽可能灵活和准确地进行释义等方面，应给予应有的重视。

四、结语

通过本次研究，深刻地感受到翻译市场对口笔译人员的要求越来越高，翻译从业人数也越来越多，可是迄今为止，似乎无从判断翻译人员的执业能力和资质，翻译市场上的一些从业行为也的确亟需尽快、有效地加以规范。从这个意义上讲，全国翻译专业资格（水平）考试必将有利于加强翻译市场的管理，有利于规范经营和促进翻译市场有序竞争。

众所周知，试题质量是翻译考试的重中之重。外文局翻译专业资格考评中心采取了有效的措施，力求打造翻译职业资格认定考试的品牌，制定出科学的、可操作的命题细则、阅卷评分标准和原则，确保了全部考试环节的顺利进行，确保了考试的高标准、高质量，确立自己在业界的权威性，实现可持续发展。

试题是用来检查参加考试的考生水平的，但同时也在考查、检验着命题人员。命题人员应掌握测试科学和理论，掌握政策，重视技术细节，一丝不苟地完成任务。试题要贯彻考试大纲，体现着考试命题的指导思想、命题人员的行为准则和业务能力。国家人事部组织的全国翻译专业资格（水平）考试是具有指导意义的翻译认证考试，它在国内外不断扩大影响力。应该说考试的信度与效度的研究将进一步推动我国翻译考试的发展，让考试结果在社会上赢得更加广泛的认可。

（文/卢敏中国外文局；刘琛北京外国语大学；巩向飞首都师范大学）