智能教学系统的评价与选择

  • 格式:pdf
  • 大小:1.37 MB
  • 文档页数:9

下载文档原格式

  / 9
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

智能教学系统的评价与选择

 贾积有 孟青泉 

(北京大学 教育学院,北京 100871)

摘 要:本文在简要介绍智能教学系统概念的基础上,详细阐述了国际上常用的智能教学系统的评价方法,包括客观性的成绩评价方法和主观性的调查问卷评价方法。然后基于这些评价方法,以三个典型学科(数学、英语和语文)的智能教学系统为例,分析了选择智能教学系统时需要考虑的因素。关键词:智能教学系统;评价;选择;学科

中图分类号:G434 文献标志码:A 文章编号:2096-0069(2019)03-0001-09

一、概念简介

人工智能技术在教育领域具有广泛应用[1],其中的一个重要领域就是智能教学系统。该概念的英文表达为Intelligent Tutoring System,简称ITS,在国内也被翻译作智能导学系统。我们认为,智能教学系统更能全面而准确地反映ITS 的内涵和外延。智能教学系统作为教育领域的专家系统,能够模仿人类教师或者助教,帮助学生学习某门学科、某个领域或者某个知识点的知识[2]。一个成功的智能教学系统应该像一个优秀教师或者助教那样,具有某个学科、领域或者知识点的专业知识,根据学生情况用合适的方式向学生展示或者讲解知识,通过作业、测验和考试等各种手段了解学生对知识的掌握程度,回答学生学习过程中产生的问题,也就是对学生进行个性化教学。所以说一个智能教学系统的智能程度,就是对优秀教师或者助教的模仿程度。

二、智能教学系统的评价方法

(一)客观性的学习效果评价

客观性的学习效果评价方式主要采用智能教学系统所涉及的教学领域的效果评估方法,比如教育科学研究中常用的准实验法。准实验法的研究对象通常有实验班或者实验组(下文称实验班)、对照班或者对照组(下文称对照班)两组学生,前者使用某种智能教学系统进行学习,后者不使用智能教学系统进行学习,除此之外,两者没有其他区别。经过一段时间的教学实验后,以使用智能教学系统与否作为自变量,以使用者的学习成绩改善程度为因变量,考察因变量与自变量的关系,也就是考察使用智能教学系统是否会对使用者的学习成绩改善造成影响,以及影响程度有多大。

学习者的成绩改善程度的衡量,需要综合考虑教

收稿日期:2019-02-05

作者简介:贾积有(1969— ),男,河南获嘉人,北京大学教育学院教育技术系教授,博士生导师,北京大学教育信息化国际研究中心主任,研究方向为教育技术学和人工智能教育应用;孟青泉(1986— ),男,山西浑源人,北京大学教育学院教育技术系讲师,博士后,研究方向为人工智能教育应用

学实验前后的成绩变化。实验之前的成绩即前测反映了学习者的学习基础,实验之后的成绩即后测反映了学习者的学习成果。最理想的实验情况为,实验组和对照组的前测成绩没有统计意义上的显著性差异,而这种差异通常是通过独立样本学生T 检验或者F 检验(即方差分析或变异数分析,ANOVA, Analysis of Variance 的缩写)来检测的[3]。在这种前测无显著性差异的前提下,再对实验班和对照班的后测进行独立样本学生T 检验。根据检验结果的概率p 值,检测结果可能有三种情况:(1)两个班的成绩无显著性差异(p >0.05)时,这表明智能教学系统相对于传统或者其他方法而言,对学生学习成绩没有显著影响;(2)两个班的成绩有显著性差异(p <0.05)、实验班成绩高于对照班时,这表明智能教学系统相对于传统或者其他方法而言,对学生学习成绩有显著正面影响;(3)两个班的成绩有显著性差异(p <0.05)、实验班成绩低于对照班时,这表明智能教学系统相对于传统或者其他方法而言,对学生学习成绩有显著负面影响。

后测中实验班和对照班的成绩差异可以用效果量(Effect Size,简称ES)来进行准确衡量。在国际文献中,效果量一般用一个无量纲的分数来表示,分子为实验班和对照班的平均成绩差,而分母则为一个合并后的标准差S pooled ,这个标准差如何计算,国际文献中存在一些差异。我们介绍常用的两种:Cohen’d [4][5][6]和Hedges’g [7]。

Cohen’d 的计算公式为:

两个公式的细微差异仅仅在于分母上对混合的标准差的计算。不管怎样计算,两个班的平均成绩差异越大,班内的标准差越小,则效果量越大。

按照Cohen’d 来衡量,效果量如果是0.2左右,就是一个小的效果;如果是0.5左右,就是一个中等规模的效果;如果是0.8以上的话,就是一个大的效果。当然一个效果到底是小还是大,与检验背景等很多因素紧密相关,就像Cohen(科恩)所强调的:所谓的小、中、大的概念都是相对而言的,不仅仅彼此之间,而且是针对行为科学领域,甚至是针对某个特定背景和研究手段而言。面对这种相对性,为这些术语提供传统的操作定义,以便在不同的研究领域如行为科学中用于效果分析,存在一定的风险。然而,这种风险是可以接受的,因为我们相信,通过提供一个通用的常规参考框架,可以获得比损失更多的收益。只有在没有更好地估计效果量的基础时,才建议使用该参考框架。[8]

Sawilowsky(萨维罗夫斯基)[9]在Cohen 对效果量的相对大小的评述基础上,进一步建议:效果量如果为0.01,那是非常小的,1.2是非常大的,2.0是巨大的。

不管怎么计算,效果量综合反映了实验班和对照班全体学生的成绩差异,因此在国际研究文献中经常被用来作为衡量某种教学方法效果大小的一个重要指标。因为分母反映的是标准差的大小,效果量的单位通常被称作标准差。

如果前测和后测考试内容相同,则实验组和对照组可以分别进行成对样本学生T 检验,检测每个组从前测到后测的变化幅度在统计意义上是否具有显著性。同前面的独立样本学生T 检验类似,检测结果也

是三种情况:无显著性差异;后测成绩显著高于前测成绩;前测成绩显著高于后测成绩。后测和前测的差

异大小也可以通过效果量的计算精确表示出来,只不过这时候的计算因为后测和前测样本相同而得到了简化,比如Cohen’d 中,因为前测和后测样本数相同,

n 1=n 2=n ,

Hedges’g 的计算公式为:

以上两个公式中的n 1和n 2分别为实验班和对照班的样本量,SD 1和SD 2分别为实验班和对照班的标准差。

d =

S pooled =

Mean 1-Mean 2

S pooled

n 1*SD 12

+n 2*SD 2

2

n 1+n 2-2

Mean 1-Mean 2

S pooled

g =

(n 1-1)*SD 12+(n 2-1)*SD 22

n 1+n 2-2

S pooled =

n 1 (SD 12+SD 22)2 (n -1)

S pooled =