教育统计与测量方法
教育统计与测量方法 四川省凉山州教育科学研究所 谌业锋
统计和测量都是运用数学方法的研究手段,二者紧密相关,相辅相成。测量是统计的前提,有了测量提供的数据,统计才得以进行;而统计又是测量的基础,从事测量的人员若没有统计的基础知识,也就无法整理、分析测量的结果。因此,将统计与测量合在一起阐述。 目前,教育科研的精确化、科学化、规范化的要求愈来愈高,加上电子计算机技术的日益普及,为定性与定量相结合的分析研究提供了可能。这样,测量与统计便更成为教育科研中不可缺少的手段与环节。因此,必须熟练地掌握统计与测量的运用技术。 一.教育统计在教育科研中的运用 (一)教育统计的基本内容 教育统计,就是应用数理统计学的一般原理和方法,对教育科研和教育实践中所获得的数据,进行整理、计算、分析与解释。其主要内容包括以下两个方面: 1.描述统计 描述统计,就是将数据资料加以整理、简缩,使之有序化,制作成次数分布表或分布图;或根据数据的分布特征,如集中趋势、离中趋势、相关强度等,计算出平均数、标准差、相关系数等概括性的统计量数,以便人们从杂乱的原始数据中获得有意义的信息,进行比较,作出结论。 2.推断统计 推断统计,是从样本统计量来推断它来自总体的特性,并标明可能发生的误差的统计方法。在现实的教育研究中,限于人力物力,总是从总体中抽取出有代表性的样本,然后从样本统计量对总体的特征进行推断,即进行相应的“显著性检验”等统计分析工作。在推断统计的基础上,研究者将对所研究的问题做出自己的解释、预测或估价。 (二)数据的特征量及其计算 除了编制原始数据的次数分布表或绘制其次数分布图以了解数据分布的概貌之外,作为描述统计的主要方法,仍是用数据的特征量来表现其分布状况。 1.集中量数 描述集中趋势的统计量,叫做“集中量数”,简称“集中量”。常用的集中量数有三种:算术平均数,中(位)数和众数。这里就某实验组和对照组某次考试的原始数据为例作些说明。 (1)算术平均数,简称平均数、均数或均值。其符号为“ ”(读作X杠),它起着衡量一定数据的集中趋势和大致水平的作用,是最常用的集中量,其计算公式是 从算术平均数可以看出,实验组与对照组的平均水平是否一样。 (2)中数(符号为Mdn),是依一定顺序(如由大到小)排列的一组数据居中间位置的一个点的数值,所以又叫中位数。如果数据个数N为奇数时,中位数的位置在(N+1)/2处,若N为偶数,就以居中的两个数据的平均数作中位数。 (3)众数(符号为“M0 ”),指一组数据中出现次数最多的那个数值。在众数甚至没有的情况下,一般可看众数段,即哪个分数段的次数多,就以该段中点值作众数。 以上三个集中量中,平均数是无偏的客观量数,又最便于代数运算法则处理,从样本数值推断总体集中量时,平均数比中数、众数可靠,其缺点是易受两极端数值的影响。 2.差异量数 差异量数是描述次数分布中“离中趋势”这一特征的统计量,简称“差异量”。一组数据,若离中趋势小,则集中量的代表性就大;反之,若离中趋势大,则集中量的代表性就小。但是,仅考虑集中量数是不够的。要了解两组学生成绩分布的全貌,还必须研究两个组的差异量数。最常用的差异量有全距、平均差和标准差。 (1)全距(符号为“R”),指一组数据中由最大量数到最小量数的距离。R小说明离散程度小,比较整齐。 (2)平均差,指一组数据内的每个数与均数差的绝对值的算术平均数,通常用A.D.表示。平均差的计算公式为: (3)标准差,指一组数据中每一个数值与它们的平均数之差的平方的算术平均数的平方根,其符号为“S”(样本标准差)、“σ”(总体标准差)。其计算公式为: S 越大表明离散程度越大,数据不均匀,集中量的代表性小。 3.相对位置数 平均值与标准差用来考察与分析同质的统计资料是有价值的,但对于不同质的考试,如不同学科、或同一学科不同考试意义就不大。这样就要计算相对位置量数。相对位置量数有百分等级与标准分数两种。这里就常用标准分数作些介绍。 标准分数,又称Z分数,它是一种以平均数为参照点,以标准差为单位的,表示一个分数在团体分数中所处位置的量数,其计算方法为:由原始分数与平均分数的离差除以标准差所得的量数,其符号为“Z”,计算公式是: 例:有某生三次数学考试的成绩分别为70、57、45,三次考试的班平均为70、55、42,标准差分别为8、4、5。如何看待该生的三次考试成绩的地位?如果仅从原始分数看,肯定认为第一次最好,其实不然,要计算出各次的标准分数,才能说明问题。 根据公式得出: Z1=(70-70)/8=0 Z2=(57-55)/4=0.5 Z3=(45-42)/5=0.6 这说明,原始分数为70,其位置正在平均线上,而原始分数为57的,其位置在平均线上0.5处,而原始分数为45的,其位置在平均线上0.6处。 4.相关系数 在教育研究中,常涉及到两个事物(变量)的相互关系问题,例如,学习成绩与非智力因素的关系,数学成绩与物理成绩的关系,男女生学习成绩的关系,等等。其关系表现为以下三种变化;第一,正相关:一个变量增加或减少时,另一个变量也相应增加或减少;第二,负相关:一个变量增加或减少时,另一个变量却减少或增加;第三,无相关:说明两个变量是独立的,即由一个变量值,无法预测另一个变量值。统计学中,就用“相关系数”来从数量上描述两个变量之间的相关程度,用符号“r”来表示。 相关系数取值范围限于:-1≤r≤+1 相关系数表示的意义 相关系数(r)0.00 0.00-±0.3 ±0.30-±0.50 ±0.50-±0.80 ±0.80-±1.00 相关程度 无相关 微正负相关 实正负相关 显著正负相关 高度正负相关 例:某语文实验班随机抽10名学生,参加市里的语文数学竞赛,其成绩如下表,求这两门成绩的相关系数。 10名学生语文与数学相关系数计算表 语文X数学Yx=X-Xx2y=Y-Yy2xy 58684.722.0910803.428.46 416712.3151.290.800.649.84 49534.318.4913.20174.2456.76 57553.713.6911.20125.4441.44 62808.775.6913.8190.44120.06 46657.353.291.210448.76 48585.328.098.267.2443.46 59675.732.490.80.644.56 53770.30.0910.8116.643.24 60626.744.894.217.6428.14 ∑533622 440.10 697.69159.4 相关系数的计算公式是由英国统计学家皮尔逊提出的“积差相关”公式: 公式中,r=X与Y两数列之间的相关系数; x=X- 支,即X数列中各量数与其平均数之差; y=Y- ,即Y数列中各量数与其平均数之差; Sx=X数列的标准差; Sy=Y数列的标准差; ∑xy=各对离差积的总和; N=成对量数的次数,即总对数。 计算步骤: 1.先计算出∑X、∑Y、X、∑x2、Y、∑y2、∑xy分别填入表。 2.求X和Y的标准差 3. 求语文数学两门.成绩的相关系数: 4.r=0.29在0与+0.3之间,属于微正相关,说明这10名学生的语文成绩与数学成绩就样本本身而言,是有一定相关的。 如果用的是等级评分法,就不宜用积差相关公式,而要用英国统计学家斯皮尔曼提出的等级相关公式: 式中,rR=斯皮尔曼等级相关系数;D=各对X与Y的差数,N=总对数。 (三)统计检验及其应用 统计检验,就是对样本的特征量能否反映总体特征的问题,或两种不同样本数量标志的参数的差异性问题,作出定量分析与推断。 1.统计检验的原理与方法 (1)统计检验的基本原理 统计检验的理论依据是概率论中的“小概率事件实际上的不可能性”原理。所谓“小概率事件”,即假定某个事件在实验中出现的概率很小,则在一次实验中,该事件实际上是不会出现的,例如,把小于0.05或0.01的概率,视为“小概率”。 (2)统计检验的一般方法 一般来说,统计检验先对总体的分布规律作出某种假说,然后,根据样本提供的信息,对假说作出肯定或否定的决策。具体步骤为: ①提出假设。如“假设两个总体平均数没有差别”,其数学符号为:“H0:μ1=μ2”,这种对总体所作的“无差别”的假设,称为“零假设”或称虚无假设,用符号“H0”表示。与此同时实际上存在第二种假设,“两个总体平均数有差别”,其符号为:“H0:μ1≠μ2”,称为备择假设。显然,“零假设”与“备择假设”是两个对立的假设,肯定此,必否定彼。 ②根据不同条件和样本提供的信息即数据,从零假设出发,代入相应的公式,计算出零假设的概率。 ③作出统计决断,根据“小概率事件实际上不可能性”原理,研究Ho成立的概率。如果H0的概率P<0.05,表示零假设不是一个小概率事件,则H0成立,便否定被择假设H1从而定“μ1=μ2”。如果H0的概率p≤0.05,表明是个小概率事件H0不成立,就肯定备择假设H1的成立,从而确定“μ1≠μ2”。 (2)统计检验的具体操作 ①Z检验 Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。 例 1987年上海市初中三年级语文教学调查中,对男女生语文测试成绩作如下统计,试检验男女生语文成绩是否存在显著差异, 性别人数总分阅读写作 平均分 标准差 平均分 标准差 平均分 标准差 男167 113.7420.9571.6415.1142.129.73 女159118.5219.0974.8714.0144.438.83 差值|Z|2.152.002.27 抽取的两个样本均大于30,属两个独立大样本平均数差异的显著性检验,用Z检验。 检验步骤: ①提出零假设z:H0: μ1=μ2即假定男女写作、阅读及读写总 分均无显著差异,现在的差异是抽样误差所致。 ②计算统计量,代人Z值公式 ③计算出的Z值与下表进行对照,作出判断: ZP差异显著性 <1.96>0.05差异不显著 ≥1.96≤0.05差异显著 ≥2.58≤0.01差异极显著 因为|Z写|=2.27,显然, |Z写|>1.96,表明概率P≤0.05,男女生写作成绩差异显著。 因为|Z读|=2.00,显然,|Z读|>1.96,表明概率P≤0.05,男女生阅读成绩差异显著。 因为|Z总|=2.15,显然, |Z总|>1.96,表明概率P≤0.05,男女生 语文成绩差异显著。 ④结论:当P≤0.05时,拒斥H0,肯定H1,1987年调查说明上海市初三语文成绩男女生存在显著差异,女生高于男生。 ②t检验 t检验是用于小样本(样本容量小于30)时的平均值差异程度检验方法。它是用t分布理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。 例 某校初一年级抽出一组20人,对数学自学辅导教材进行试验,期末全年级测试平均成绩为70分,而这20人的平均分为 =77.7,标准差为15,试检验实验效果。 本例随机抽样样本容量为20人,属小样本,因此适用t检验。所谓检验实验效果,就是以样本(20人)的平均数文与某已知总体平均数μ。之间的差异程度,来检验样本所取自(所代表)的总体的平均数μ与μ0,是否有差异。 检验步骤: ①提出零假设: H0:μ=μ0,即假定样本所代表的总体平均数与已知平均数无显著差异,如有差异仅是抽样误差所致。本题μ0=70分 ②计算检验统计量t值。用如下公式 式中, =样本平均数77.7;μ0=已知总体平均数70; s=样本标准差15;n=样本容量20,代人公式得 ③作出判断。与正态分布曲线不同,t 分布的曲线形式随自由度大小而不同。“自由度”记作“df”。作总体平均数的假设检验时,统计量t的自由度df=n-1。据此,本题的df=20-1=19。查t值表,得出理论t值为: t(19)0.05=2.093 再与计算所得t值比较可得:t>t(19)0.05 依据《t值与差异显著性关系》表,推断H0发生的概率,作出结论。 t值与差异显著性关系 tP差异显著性 <t(df)0.05>0.05差异不显著 ≥t(df)0.05≤0.05差异显著 ≥t(df)0.01≥0.01差异十分显著 因为t=2.31>t(df)0.05,从上表可知,概率P≤0.05时,μ和μ0之间的差异显著。因此可结论为:拒斥H0:μ=μ0,而肯定H1:μ≠μ0,又因 >μ0,故结论表明新教材实验有成效。 如果是依两组样本平均值 1和 2的差异程度,检验它的代表的两总体平均数,μ1和μ2是否有差异,其检验统计量t的计算公式为: 如果是按同一组样本不同情况的测试所得的平均值 1和 2 来检验μ1和μ2的差异程度,其计算公式为: 式中,D为两次测试中每对分数之差即D=X2-X1。 ③χ2检验 Z检验与t检验,通常用于计量资料的分析,而在教育研究中还常有计数资料,如按品质分类,然后按类评等计数,如优良中差,甲乙丙丁,或同意、反对、弃权等。这种计算资料检验就要利用χ2检验的方法。χ是希腊字母,读chi ,通常把χ2读作“卡方”。χ2检验是通过对所得的计数资料与依据某种假设而确定的理论次数二者之间的差异来进行检验的。χ2值是检验实测次数与理论次数之间差异程度的指标。两者相差越大,χ2值就越大;两者越接近,则χ2值就越小:如果两者完全相同,那么χ2值就等于零,χ2值永远是非负值。 例 某校在本校高一重点班与非重点班分别抽取100名学生,对他们的英语口语能力作出检测、评价,结果如下表,试检验两班差异程度是否显著。 (R) 行(L)列 评价结果合计 优良中差 重点20(13.6)40(40.9)30(31.8)10(13.6)Na=100 非重点10(16.4)50(49.1)40(38.2)20(16.4)Nb=120 合计N1=30N2=90N3=70N4=30N=220 检验步骤: ①提出零假设:H0:该两班英语口语能力无差异 ②确定自由度,根据列联表自由度公式:df=(R-1)×(L-1),求出自由度为:df=(2-1) ×(4-1) ③计算R行与L行的理论次数,计算公式为: 将计算出来的理论次数填入上表相应的实际次数旁边的括号内。 ④根据公式,χ2值。 缩节《χ2值表》 Df0.050.010.005 13.8146.6357.88 25.9959.21010.60 37.81511.34512.84 49.48812.29914.86 511.07015.06716.76 ⑤作出判断,先查出《χ2值表》理论χ2值,再从上表可知当df=3时,χ20.05=7.815,一般写成: χ2(3)0.05=7.815。将实测χ2值7.415与理论χ2值7.815比较,可以得出: χ2<χ2(3)0.05 再根据下表作出结论。 χ2值与P值及差异显著性的关系 χ2P差异显著性 χ2>χ2(df)0.01P<0.01差异非常显著 χ2≥χ2(df)0.05P≤0.05差异显著 χ2<χ2(df)0.05P≥0.05差异不显著 由上表可知,当χ2<χ2(3)0.05 ,P>0.05,差异不显著。因而作出“接受零假设H0”的结论。这表明,高一重点班与非重点班英语口语水平无显著差异. 二.测量在教育科研中的运用 (一)测量的涵义、类别与功能 1.测量的涵义 何谓测量?就其广义来讲,测量是按照法则给事物指派数字这一定义概括了物质测量与精神测量的基本性质,揭示了测量所包含的三个要素: 其一,测量的对象,即事物及其性质,具体指学生的学习能力、学业成绩、兴趣爱好、思想品德及教学措施方面等诸多问题。每一次教育测量,必须根据测量目的,对测量对象事先有明确规定。 其二,测量的结果,即数字或符号,指要使测量以何种形式对测量对象加以数量化,指派数字是用连续量数还是等级量数,用数字还是用符号;使用符号,必须给符号以一定的单位与参照点,使其具有量的意义,从而使被测量事物的性质起到描述作用与比较作用。 其三,测量的法则,这就是对事物如何指派数字与符号,它包括根据测量对象的特征制定测量内容、步骤、程度及评分标准,测验成绩数量化的方法等。 2.测量的类别 教育测量,根据不同的标准,可以有多种不同的分类;以测量的对象为标准,可以分学业成绩测量、智力测量、人格测验;以测量的功能为标准,可以分为预测性测验、形成性测验、诊断性测验、总结性测验;以测量的方式为标准,可以分专题性测验、综合性测验、交际性测验;以答题手段为标准,可以分口头测验、书面测验、操作测验;以测量的参照系为标准,可以分常模参照测验和目标参照测验等。总之,测量的方法不一,种类颇多。各种测验之间并无高低、优劣之分,关键在于运用者根据测量的目的选择适宜的测验方式。 3.测量的功能 测量作为检查教学效果的手段,测定学生学业成绩的工具以及进行教育科研的方法,具有如下功能: (1)反馈功能。教育是一个连续性的长期过程,对于教与学双方都需要通过获得反馈,及时了解情况,及时作出补救。学生可以根据反馈情况,进一步自律;教师根据反馈情况,作出诊断与调整。所以及时进行单元测验,充分运用“反馈----矫正”机制,对于教学目标的达成具有重要意义。 (2)激励功能。通过测验对前段教学效果作出测定,对教师的教育实践与研究,对学生的学习都具有极大的激励作用,以增加师生的精神动力,使成绩优异者获得成功的喜悦,从而更加奋发上进,向更高目标攀登;使成绩不良者,克服盲目骄傲的情绪,更加清醒地认识自己,从而发奋教学,争取下一阶段的成功, (3)导向功能。一次良好的测验,尤其是国家级的测验,客观上起着指挥棒作用,它引导教者与学者进一步明确教学目标、重点与难点,克服教学实践与教育研究中的偏差与弊端,使教育实践与研究沿着正确的航向前进。 (4)评价功能。测验是对师生教和学的情况作出的客观测定,是评价教学水平与学生成绩的主要依据;测验支持者总是根据某种特定的目的,依据自己的价值观念,对被试作出价值评定,从而作出处置。所以测验成绩常是分班编班、招生招工的依据,也是评价教育水平高低,教育研究成败的依据。 (二)良好的测验必须具备的两个基本条件 1.效度 效度是指测量的准确性和有效性的指标,也就是测量的结果与所要达到的目标二者之间的符合程度。根据测验的目的,弗伦奇(Frech)和米歇尔(Michbie)把效度分为内容效度、结构效度和效标效度。 所谓内容效度,是指题目内容的代表性,即测题在多大程度上概括了所要测量的整个内容。测题的内容与学科内容一致性程度越高,内容效度也越高。 所谓结构效度,是指测量结果能够说明理论的某种结构或特征的程度,如智力,其结构包括判断、理解和推理能力。如果测验智力的题目包括了以上三个因素,就可以认为测验具有结构效度。 所谓效标效度,又称效标关联效度,是指测验结果与预结果的相关效度。效标,就是借以参照的效度标准,一般应以大纲与教材为效标。 要提高效度,必须注意以下几点: 第一,要控制系统误差,即控制测验过程的误差,包括:测量标准的失真,题目的复杂现象,题目与指导语有暗示性,答案具有明显的规律性。 第二,精心编制测题,分析教学目标,编制双向细目表,测题表述简明易懂,测题有必要的覆盖面。 第三,妥善组织测验等。 内容效度与结构效度一般没有适当的计算方法。效标关联效度一般用积差相关系数表示,如,求出入学测验分数与期末测验分数的相关系数。效度指标一般认为在0.6以上是有效测验。 2.信度 信度,是指测验结果的可靠性程度,亦即指实际测验分数与该生真实水平相关的程度。 (1)提高测验信度必须注意以下几点:第一,测题要有一定数量。题目较少,测题抽样越受偶然性影响信度也越低。第二,测题难度要适中。难度太大或太小得分普遍高或普遍低,就会降低信度。第三,测题内容要单纯集中,不宜过于庞杂。第四,测验时间要充分。第五,评分要客观。 (2)信度系数的计算主要有以下几种方法: (1)稳定性系数。即用同一测题对相同学生在不同时间内(时距要适当)两次测验的实得分数的相关系数。这就是用“重测法”获得的信度系数。 (2)等值性系数。即用两个等值(题型、题量、难度、区分度等方面都大致相同)而具体内容不同的测题,在尽可能短的时间内,对相同应试者,施行两次测验所得的分数,求出相关系数。这是用“复份法”获得的信度系数。 (3)内部一致性系数。这是求同一次测验的奇数测题与偶数测题这两部分得分的相关系数,用两种方法计算。 ①“分半法”是用皮尔逊积差相关公式计算出相关系数,然后再用斯尔曼----布朗公式予以校正。其公式为 式中,ru为校正后的信度系数,rX1X2由皮尔逊积差相关系数公式计算出的分半信度系数。 ②库得----理查森法,即根据各人总分的平均数和标准差求信度,此法用于求客观性试题信度最合适。其公式有两个: 式中,rKR20为整个测验的信度系数,K为测验题数;p为各题正确反应人数占总人数的百分数;q为各题错误反应人数占总人数的百分数;S2为各应试者各题的得分和的方差。 式中 是各人总分的平均数;S2是各人总分的方差:K是题目数。 (三) 测题的编制 1.编题的一般过程 测题编制的一般过程有以下几步:第一,确定测验的目的与类型;第二,制定测验大纲,包括测验目的、对象、要求、试卷结构、测验时间、项目、得分比例、题量、答案要求等;第三,编制双向细目表;第四,编制测题;第五,组织试测及修改试题。 2.编题的基本要求 编制测题一般要求注意遵守以下要求:第一,测题取材的代表性;第二,测题难度分布呈梯度性;第三,测题叙述的简明性;第四,测题导语的无暗示性;第五,测题答案的确定性。 3.各类测题及其编制技术 (1)判断题 其模式是提供一个陈述句,让考生判断是非、正误,故亦称是非题或正误题。其功能是考察考生对基础知识是否明了是否掌握扎实,适用于考察基础知识层次的内容,不适用于考察推理和判断能力。判断题受随机猜测影响大,猜测答对的概率达50%,学生得分的偶然性大,所以判断题一般用于低年级。 编制判断题的操作要则: ①测题含义必须单一明确,不能有歧义。 ②答案必须明确,并且是无可争议的。同一题中避免使用两个矛盾的概念。 ③叙述语言简明、不含混,减少读题干扰。 ④避免使用暗示性词语。例如:绝不、总是、从来、所有、唯一等绝对说法,常有暗示错误的作用,而“可能”、“通常”等词语有暗示正确的作用,所以这些词要避免使用。 ⑤应避免使用否定词,尤其不用双重否定词。 ⑥全部答案对与错的比例应大体相等。 ⑦测题次序应随机排列,不应有任何规则, ⑧尽量不直录教材原文,不得已用时,措词要重新组织, (2)选择题 其模式由两部分组成,一部分叫题干,由问句或不完全陈述句构成;另一部分叫选项,又叫备选答案,包括一个或若于个正确的和错误的答案。 选择题功能:第一,除测量知识层次目标外,还可以测量记忆、理解、应用、判断、推理、分析、综合、比较、鉴赏等不同层次的能力目标。第二,由于选项较多,若为4-5项的话,考生猜准的概率就降为25%-20%,测验信度高,评分客观。 选择题局限为:第一,只能反应思维结果,不能反应思维过程。第二,只能考察聚焦思维,不能考察发散思维。第三,无法真正反映考生的语言操作能力。其形式有:最佳式(选其中最佳答案)、正答式(选正确答案)、否定式(选错误答案)、多项式(选其中两个以上答案)、替换式(选与原来意义相一致答案)等。 编制选择题的操作要则: ①题干意义要完整,应是一个主谓性或动宾性短语,而不应该是一个词或名词性短语。 ②题干陈述要明确,句子结构既不能过分复杂,也不能因过简造成残缺、多义、歧义、矛盾。 ③题干与选项应有逻辑上、语法上的联系,要避免提供正确选择的任何线索。 ④选项中正确答案要有严格的科学性,各项要有一定的合理性,干扰的错误不能太明显,要有似真性与诱答性。但不能用有争议的问题列入选项,而答案又是采用一方,排斥另一方。 ⑤选项一般要有4-5项,不得少于3项。 ⑥选项的语言形式应该一致,文字长短也要相近,正确答案具有形式上的伪装性、迷惑性。 ⑦各题正确选项的排列应是随机的,不应具有规律性。 (3)匹配题 其模式是由若干匹配项与选择项两部分组成。它实际上是复合型的选择题,是由若干个题干共同使用相同的若干选项。其功能是适宜于测量考生对知识的记忆、理解与运用的情况。其形式有:连线式(将一组词句、段落依据规定的顺序排列起来)、归类式(按某一标准把有关选项归入匹配项)等。 编制匹配题的操作要则: ①匹配项与选择项不应是一对一的,选择项要多于匹配项,以减少学生猜答的可能性。 ②允许同一选项多次使用,当然也可以有的选项不被选用,以降低猜对的概率。 ③连线匹配题,分开两组的各项目的性质必须一致,以增加迷惑性。 ④选择项一般控制在10项以内,太多会增加学生的心理负担, ⑤正确的答案要随机排列。 ⑥一题的所有匹配项与选择项要安排在同一页上,尤其是连线式的,以减少考生答案的麻烦。 (4)填空题 其模式是提供一个不完整陈述句要求学生把空缺的字词填上。这是要考生根据一定的语境,提供答案的开放性测题。其功能除了用于测量基本知识、技能外,也可以适用于测量较高层次的理解力和判断力。其形式有:单一式(要求填入最贴切词语)、综合式(告知一定条件,要求填上几项内容)、图表式(如填空缺的图表或系统树)等。 编制填空题的操作要则: ①所空缺的应该是关键性词语,不应该是无关紧要,可有可无的内容。 ②答案应该是唯一正确的和简短的词或短语。 ③不应该从教材或教学参考书照抄原句,以免助长学生死记硬背教材的不良风气。 ④空格不宜太多,以免影响题目的完整性与科学性。 ⑤各个空格的长度应基本相等,以免产生某种暗示作用。 ⑥如要考生填数字,应注明答案所用单位。 ⑦空白一般不放在题首,而放在题中或题后。 (5)简答题 其模式是疑问式或不完全陈述式。简答题是由考生提供答案的开放性题型。选择题、判断题、匹配题是“封闭性”的,属于“再认性”测量,题中提供了答案,由考生选择而已,而简答题是“开放性”的,属“回忆性”测量。其难度比“再认性”题型要大。 其功能是测量各种层次的知识目标,与一般中级层次的认识目标,而不适宜于测量综合评价等高级认知目标。评分也不如前几种题型客观。 编制简答题的操作要则: ①一般经直接疑问句编题,不完全陈述句只有当其能使题意简明时才使用。 ②应限定答题范围与形式(如单位、篇幅量等)。 ③答案应是只能有一个,而且简短和具体。 ④尽量测量学科的完整知识与重要概念,当然也可以用于实际能力的测量。 ⑤测题中避免提供正确答案的线索,尽可能减少猜测答案的因素。 (6)论文式测题 其功能是考察学生的书面表述能力和测量考生分析、综合、想象、鉴赏、评价等高级认知目标。其局限是:题量少,覆盖面窄,评分费力,不易客观,考生有猜题估题现象。其主要形式有:汉语翻译、论述题及作文题等。 编制论文式测题的操作要则: ①翻译题要用与课文难度相当的教材以外的原文,要求要明确。 ②尽可能不给学生有选择试题作答的机会,因为测题易等值 ③论述题要限定论述的内容范围,测题要求具体不笼统。 ④要写好理想答案,作为评分依据。 ⑤作文命题要注意以下几点:其一,为避免考生押题,形式要多样化,如缩写、改写、扩写,尤其可以采用供材作文,以提高测验的信度与效度。其二,增加实用性命题,如报道、书信、广告、启事、主持节目讲稿等。其三,不在命题上难学生,只提供材料,不限文体,或就某一实际工作要求,写出不同体裁的短文等。其四,命题说明要具体、明确,不应有歧义,有矛盾。 (7)操作题 操作题是测量考生实际能力的新题型。如社会科学的朗诵、演讲、主持节目,艺术科学的表演(如弹、唱,小品),自然科学的实验、安装、演示、计算机操作等技能技巧的测量。其局限是:题目同质困难,评分不易客观, 编制操作题的操作要则: ①应以测量本学科基本知识基本技能的实际应用能力为内容。 ②测题应是同质同级、难易相仿的,以保证评分的公平性。 ③测题内容覆盖面要宽,数量要多,由考生随机抽取。 ④一个测题只能由一个考生来做,不能一个题目先后由几个考生来做。 ⑤操作的内容、形式、完成时间要有明确交代。 ⑥要准备好操作所必需的材料。 |
- 上一篇:教育科研课题结题须准备的档案资料
- 下一篇:巴中市科研课题立项评审书