摘要:随着大数据成为网络信息行业的重点词汇,在教育领域应用数据挖掘技术来为教育革命提供动力成为可能。教育数据挖掘的出现以其特有的优势吸引着越来越多研究者的注意,并成为提高教学效果及提供教育决策等强有力的工具。但是国内对教育数据挖掘领域的研究成果不是那么显著。本文通过分析国内外教育数据挖掘相关文献,对其研究、发展、技术策略等方面进行了较系统的阐述,分析其应用在预测学生表现的效果,展望未来的研究方向,为教育数据挖掘的研究者提供参考。
关键词:大数据;教育数据挖掘;学生表现
中图分类号:G40-057
文献标识码:A
21世纪以来,随着信息化进程在教育领域的推进,在教育领域,大数据[1]概念也已经开始实质性地应用于教育政策研究与实践中[2]。特别是数字化校园建设和网络高等教育的大力推进,学习管理系统中存储着大量学生学习数据,学生各种在线学习保留着大量学习轨迹信息,社交网络中的学习行为更是呈现出急剧增长的数据流趋势。如何利用这些“数据集过大,难以被典型数据库软件工具捕捉、存储、管理和分析”的教育类“大数据”,使这些数据转变为信息、知识,并为教育决策、教学优化服务,而不至于“淹没在数据的海洋中,却又忍受着信息的饥渴”,已成为教育工作者特别是教育决策者所关注的内容。利用教育数据挖掘[3]技术和学习分析[4]技术,构建教育领域相关模型,探索教育变量之间的相关关系,为教育教学决策提供有效支持将成为未来教育的发展趋势。
一、教育大数据
教育领域中的大数据有广义和狭义之分,广义的教育大数据泛指所有来源于日常教育活动中人类的行为数据,它具有层级性、时序性和情境性的特征;而狭义的教育大数据是指学习者学习过程中产生的大量数据,比如考试成绩、作业完成状况以及课堂表现等,它主要来源于学生管理系统、在线学习平台和课程管理平台。对这些教育大数据进行分析,构建大数据模型为学校和教师的教学提供参考,及时、准确的评估学生的学业状况,发现学生潜在存在的问题,进而预测学生未来可能的表现。
本文借助教育资源信息中心ERIC数据库和中国知网提供的近几年的国内外论文发表情况进行分析,其研究内容主要包括对教育数据挖掘、学习分析、个性化教育、教育方式的改善、学习策略探讨、教育管理方式的改变、大数据对于教育的推动作用、数据驱动以及对图书馆建设、对教与学需求、评价方法的影响等方面[5]。
2012年10月,美国教育部发布了《通过教育数据挖掘和学习分析促进教与学》[6]的教育大数据报告,对大数据教育应用的领域和案例以及所面临的挑战进行了详细地介绍。通过对教育大数据的获取存储管理和分析,我们可以构建学习者学习行为相关模型,分析学习者已有学习行为,并对学习者的未来学习趋势进行科学预测。《报告》指出目前教育领域中大数据的应用主要有教育数据挖掘和学习分析两大方向。教育数据挖掘主要是寻找数据新模式、开发新算法和新模型,而学习分析则是将已知预测模型应用到教学系统中;教育数据挖掘关注如何从学习的数据集中提取有用信息的技术,而学习分析侧重于如何优化学习及其学习环境的教育问题。
二、教育数据挖掘概述
教育数据挖掘(EducationalDataMining,简称EDM)是综合运用数学统计、机器学习和数据挖掘等技术,将存储在教育系统中的大数据进行分析和处理,通过构建数据模型,找出学习者学习结果与学习内容、学习资源和教学习行为等变量的相关关系,来预测学习者未来的学习趋势。通过这些分析技术和方法,教育数据挖掘可以用于帮助教务管理者、老师以及其他教育工作者发现能够提高学生学习成果的隐藏信息。还可以帮助回答学生实际上已经学会知道了什么以及他是否在学习相关的知识等问题。
在2008年教育数据挖掘国际会议论文集中国际教育数据挖掘工作组给出对教育数据挖掘更为恰当的定义,他们指出,“教育数据挖掘是一个将来自各种教育系统的原始数据转换为有用信息的过程,这些有用信息可为教师、学生、家长、教育研究人员以及教育软件开发人员所利用。”对于学习者,教育数据挖掘通过分析学习者完成的行为以及与之相似的学习者完成的行为来取得相关信息,并向学习者推荐有助于改进他们学习的学习资源、活动、任务和经验[7]。对于教育工作者,教育数据挖掘向他们提供更多更客观的反馈信息,根据学习者的学习状态来组织教学内容、重构教学计划,使他们能够更好地调整和优化教育决策、改进教育过程、完善课程开发。
2012年国外学者Bienkowski等教育数据挖掘专家阐述了教育数据挖掘的四个目标:1)综合分析学生的知识、学习动机、元认知及态度等具体信息,创建学生的学习模型,以预测学生未来的学习表现。2)发现和改进能够表达或描述学生学习内容特征的学科领域模型和最佳教学顺序,并以此优化教学过程。3)研究各种学习软件所提供的不同类型的教学体系所产生的影响。4)通过对包含学生学习模型、学科领域模型和软件教学模型的综合计算模型的构建,提高学生对科学知识的有效性学习。
(一)教育数据挖掘方法
教育数据挖掘方法的使用是教育数据挖掘研究最为关键的内容。
Romero&Ventura对教育数据挖掘研究进行分析,归纳出5类教育数据挖掘方法,它们是统计分析与可视化、聚类、预测、关系挖掘和文本挖掘[8]。
2009年BakerandYacef[9]对1995年至2005年间发表的60篇有关教育数据挖掘的论文进行内容分析对比,其中,43%的文献采用了关系挖掘方法,28%篇论文采用了预测挖掘方法,15%的论文采用聚类挖掘方法。李婷、傅钢善又结合两届教育数据挖掘国际会议的论文进行分析,发现不同教育数据挖掘方法的应用有所变化,关系挖掘方法(文献占比9%)在1995-2005年间占主导地位,但之后预测(40%的论文)占据了主导地位,人类判断和聚类挖掘方法大致保持不变,文献占比15%,在1995-2005年间几乎没有此类方法应用的模式发现位居第二,能够真正体现教育数据挖掘研究的价值。同时,出现了来自于项目反应理论的结构方程模型分析和贝叶斯网络等方法的使用。在国内研究中,大约40%的文献采用了关系挖掘方法,28%的文献采用了预测挖掘方法,和国外研究趋势大体一致。
综合国内外教育数据挖掘的研究,关系挖掘方法、预测挖掘方法这两类方法是目前教育数据挖掘领域的主要方法,应用十分广泛。几种EDM方法大概介绍如下:
1)预测。建立一个能够整合多个预测变量从其他相关方面数据中推断出某一被预测变量数据的模型,可用于追踪学生学习过程,研究学生学习行为,并以实践预测学生的教学结果。根据这一预测结果,学生可以了解自己的学习状况,及时调整学习方法和学习进度;教师可以给学生提供及时有效的反馈信息,引导学生使用合适资源提高成绩。例如,研究者通过在线学习环境中学习者参与在线讨论的情况、测试情况等,预测学习者在该门课程的学习中是否有失败的风险[10]。决策树、回归分析、时序分析等算法均可实现某种预测功能,2006年黄勇[11]等尝试采用决策树分类的D3算法,构造学习者学习能力决策树,对学习者数据库进行分类,将学习者分成学习能力强和学习能力弱的两大类。
2)聚类[12]。在教育数据挖掘研究中,根据数据特性(比如,学生的行为、喜好和表现等数据),将一个完整的数据集分成不同的子集。例如,研究者根据学习者在线学习环境中学习困难程度、交互模式等将学习者分成不同的群组,进而为不同的群组提供合适的学习资源和组织合适的学习活动。
3)关系挖掘。探索数据集中各变量之间的相关关系,并将相关关系作为一条规则进行编码,研究者利用关系挖掘,探索在线学习环境中学习者学习活动和学习成绩的相关关系,进而用于改进学习内容呈现方式和序列,以及在线教学方法。包括关联规则挖掘,相互联系挖掘,连续性形式挖掘,原因数据挖掘,社会网络分等方法。
4)文本挖掘。是Web挖掘方法中应用研究最多的一种。Web文本挖掘主要是对Web上大量文本集合的内容进行总结、分类、聚类、关联分析以及运用Web文档进行趋势预测等,是针对非结构化或半结构化的数据集。黄茜[13]通过对学习者在网络教育中留下的日志信息进行挖掘,以实现个性化的网络教育。
5)人类判断。用一种便于人类理解的方式描述数据,使研究者们能够迅速地识别和区分数据集中的特征,结合可视觉化数据分析方法使用机器学习模型。
6)模型构建。通过对数据集的聚类、预测、相关关系挖掘等方法,构建可供未来分析的有效现象解释模型。
(二)教育数据挖掘应用
教育数据挖掘和学习分析应用领域主要包括:1)构建学习者知识模型。学习者在大数据在线系统中产生的包括:学习者正确的、不正确的和部分正确的应答数据,学习者回答问题花费的时间,学习者请求帮助的数量,以及学习者回答错误的重复率等课程层面、学习单元层面或知识点层面的交互数据。研究者收集这些数据,通过数据挖掘和分析构建学习者知识模型,通过人工反馈或者自动反馈,帮助学习者了解自己掌握了哪些知识,并为其选择适合的方式,充分的考虑学习者的时间,提供合适的学习内容。2)构建学习者行为模型。通过收集学习者在课堂或学校情景中学习行为变化的情况、学习者完成课程学习的情况、学习者在网络系统中花费的学习时间以及考试成绩等数据,探索学习者的学习行为与教学成果之间的关系,最终形成学习者的学习行为模型[14]。例如,麦克费登(Macfayden)等通过跟踪和采集Blackboard在线学习平台上学习者学习行为相关数据,构建学习者行为模型,分析学习者已有学习行为,该模型被用于预测平台中学习者的学习失败可能。经过实证研究,该模型的预测正确率可以达到80%以上。而本文在教育数据挖掘预测学生表现的研究就是在这个方向的应用。3)构建学习者经验模型。通过收集学习者的学习满意调查问卷和量表测试数据,根据其在后续学习单元或课程学习中的存留数据、表现、行为、选择等,建立学习者的经验模型[15],利用该模型对在线学习系统中的课程和功能进行评估。4)构建学习者档案。研究者采集在线学习系统中学习者相关数据以及线下学习者基本信息数据,通过数据挖掘和机器学习算法,构建学习者个人学习档案,分析学习者的学习特征,将相同学习特征的学习者进行聚类和分组,最终能够为不同类型的学习者提供个性化的学习环境,能够激发学习者的学习积极性和主动性,促进学习者有效学习的发生。5)构建领域知识建模。通过对教育大数据的在线决策、挖掘和学习分析,对现有领域知识模型进行重构,探索课程、学习单元和知识点的内容组织方式、难度级别、呈现顺序与学习者学习结果之间的相关关系。6)教学策略分析。采集和分析学习者在线学习系统中的学习相关数据,探索在线学习系统中学习组件的功能、在线教学策略与学习者学习结果的相关关系,并对教学策略进行分析和总结,实现对在线学习系统的评估。7)其他应用。教育数据挖掘的运用还包括个性化学习、自适应学习系统以及趋势分析等方面,通过对大数据的分析,探索学习者在学习过程中的学习结果的变化趋势,探索学前行为与未来结果之间的关系,预测未来学习的趋势和结果。
三、教育数据挖掘的研究现状
目前国内有徐鹏对未来我国教育领域的大数据研究和应用的分析[16],魏顺平介绍了教育数据挖掘这一新领域的兴起并提出了教育数据挖掘中五类挖掘算法[17],而李婷、傅钢善则运用内容分析和文献计量法,对国内外现有的关于教育数据挖掘的文献进行统计分析[18]。这是都是限于理论层面的分析研究,就国内研究现状而言,真正把该技术应用于教育领域并进行实践研究的并不多。而国外关于教育数据挖掘的研究成果就远多于国内。国外有很多开放的网络教育数据资源,并且大多研究者都具有交叉学科背景,研究者涉及计算机领域专家、教育学家、心理学家、统计学专家等,发现教育数据挖掘能够回答与学生表现相关的一些问题。他们认为教育数据挖掘技术,作为一种新时期的新工具,能够通过学术分析方法,解决教育领域相关问题。而国内教育数据挖掘研究者大多数是计算机专业学者,他们熟练掌握数据挖掘技术,但是缺乏教育和心理学理论以及教育数据的来源,在研究过程中,即使能够通过数据挖掘能够获知学习者的行为,但是不能解释学习者产生这种行为的原因,提不出合理的预测和解决方案,导致国内研究相对滞后。
除了上文叙述的教育数据挖掘方法、应用的研究之外,教育数据挖掘工具、教育数据挖掘数据的来源、教育数据挖掘过程也是研究中的关键内容。目前所进行的研究大多使用广泛的数据挖掘工具,市面上开发了很多应用于商业领域的DBMiner、Clementine、IntelligentMiner等一些结合了人工智能、统计学和数据库技术多个学科思想的数据挖掘工具,但不是专门为教育领域而设计的,而且对很多教育工作者来说设计的过于复杂,不易于使用,国外仅有少数的研究者开发专门的EDM工具使用。
总的来说,许多教育数据挖掘研究证明了教育数据挖掘在教育中起着积极的作用。研究人员可以根据学生的能力、行为和表现,应用相应的数据挖掘方法将学生分类并预测他们将来的行为和表现,这些预测使老师准确识别较差的学生,以便帮助他们获得好的分数[19]。还有一些研究发现通过教育数据挖掘收集的信息对学习者的学习表现效果起着重要的作用,并且还发现了本来就已经存在但未被发掘的重要信息。
四、EDM预测学生表现的有效性研究
教育数据挖掘在确定学生学习表现的影响因素方面展示出了潜在价值,对预测学生表现、提高学生学习效果具有积极作用。如在数据集中找出学生特征及学习经历中真正影响其学习表现的因素;运用教育数据挖掘方法收集学生学习数据,并对此进行分类或寻找其中的关系从而开发预测模型,这些模型在改善学生学习经历、提高学习成绩等方面发挥重要作用,可以基于预测模型作出教与学方面的调整或进行必要的干预。
Affendey等分析了高中学生的表现并发现其第一年的课程影响着一些课程的设置,而该课程能够预测学生表现准确性,准确率高达95.29%。Ramaswami和Bhaskaran为识别学习迟钝的学生以及检测影响学生学业表现的主要因素开发了一种预测性数据挖掘模型CHAID,研究表明,教育数据挖掘模型在预测中学学生表现时,比如学生寻求帮助所需的时间方面非常实用[20]。
Kabra和Bichkar用教育数据挖掘模型去识别哪些学生更容易失败,通过决策树演算法模型分析学生的历史学业表现来预测新生学业表现,预测会不及格的学生准确率为0.907,这就说明这个模型能够有效地预测及格、失败或进步的学生的数量。他们还运用其他教育数据挖掘方法从学生之前所有的学习情况记录中发现一种关键的学习模式,并应用教育数据挖掘预测学生将来的分数,进而识别学生在不同科目领域得分的影响因素,帮助弱势学生在来年取得更好的成绩,提高学业表现。Ogundokun根据从教育数据中挖掘的学习方式、学校环境和考试焦虑信息进行研究,得出这三个因素可以预测学生的学习表现,其中考试焦虑是影响学习表现最关键的预测因素,并且帮助老师用教育数据挖掘收集到的信息识别什么因素可以预测学习成绩,因材施教,为每个学生制定学习任务。Thai-Nghe等使用因素法与预测法结合进行分析可以更好地预测成绩,并获得满意的结果。
还有研究者采用教育数据挖掘研究了有效课堂活动和有效互动活动之间的关系,指出教育数据挖掘能帮助老师识别哪些活动可以促成更有效的学生互动。有学者总结教育数据挖掘得到的信息可以对每个学生进行个性化预测;老师可以用推荐的方法为学生推介任务和练习以建立个性化的学习系统。
五、实验验证
教育数据挖掘在对影响和预测学生表现的研究中主要表现为:根据学生表现将学生分组;识别并预测影响学习的因素;预测学生未来的表现;帮助有可能失败的学生;推荐相关学习任务会提高学生的优秀表现;为教师的教学表现提供依据。
实验所使用的数据来自KDDCUP2010竞赛[21],任务是从学生与智能辅导教学系统的交互日志数据中分析学生以往的数学答题行为成绩,预测其将来的数学答题成绩。比赛有5个数据集,每个数据集文件又包括3个数据集,整个数据规模大概807MB,因此为了方便验证训练模型,需要生成内部训练集和测试集。仅从algebra_2008_2009_train中分离抽取出本实验所要的训练集和测试集,将每个学生的最后一题的所有步骤记录作为测试集,并依次抽取前5个、20个、50个、100个问题记录对应的训练集样本进行建模。选取学生属性中的学生(AnonStudentId)、问题(problem)、步骤(step)、知识组件(knowledgecomponent)和机会(opportunity)对应特征组合作为建模特征,然后对测试集中CorrectFirst Attempt(CFA)属性进行预测,结果衡量标准为RootMean SquaredError(RMSE)均方根误差。
六、EDM未来的研究重点
本文在统计分析了国内外百十项教育数据挖掘研究的已有研究成果认为,目前国内外研究者对EDM的前景是持肯定态度的,未来的研究应注重以下几个方向:1)教育数据挖掘方法和数据的标准化的研究。在EDM的研究过程中,对于数据预处理这一方面发现,数据集里各类数据库之间采用不同的数据存储类型、对数据的不同定义等问题导致了不一致的现象,为了使数据具有可比性,需要对数据进行标准化处理。2)教育数据挖掘工具的开发。市面上开发的DBMiner等数据挖掘工具,并不是专门为教育领域而设计的。例如,近年来EDM研究者运用比较多的Weka软件,也在数据预处理上需要借助其他辅助工具(比如JAVA,数据库MYSQL等)完成。因此,在挖掘方法和数据标准化的基础上,针对教育领域的特点,开发一些专门的EDM、统计和可视化工具,帮助教育工作者对于不同层次的教学过程进行分析,更为准确的预测学习环境中的学生表现。3)教育数据挖掘技巧的研究。教育领域的数据有其自身的特点,某些具体对象的属性难以用数量方法描述,信息具有隐含性和模糊性,网络教学信息数量大,包括教师教的信息、学生学的信息及交互信息,这些信息很难进行挖掘。而教育数据挖掘研究者的背景单一,大多为计算机专家,因此研究者需要考虑教育情境做相应的调整,并结合特定的整合教育领域知识的数据挖掘技巧,比如借助教育测评技术、教学理论和教育心理学理论等寻求突破口,使教育数据挖掘更好地为教育教学服务。总之,研究应当注重可以提高老师表现以及预测学习环境中学生表现的教育数据挖掘的工具和方法,有利于老师改进教学,决策者能制定提高学习成果的行之有效的政策。
参考文献
[1]BigDatafor Development:Challenges& Opportunities [DB/OL].http://www.unglobalpulse. org/sites/default/files/Big-DataforDevelopment-UNGlobalPulseJune2012.pdf.
[2]陈霜叶,孟浏今,张海燕.大数据时代的教育政策证据:以证据为本理念对中国教育治理现代化与决策科学化的启示[J].全球教育展望,2014,(2):121-128.
[3] Baepler, P. & Murdoch, C. J. Academic Analytics and Data Mining in Higher Education. International Journal for the ScholarshipofTeachingandLearning,2010(2):170-178.
[4]魏顺平.学习分析技术:挖掘大数据时代下教育数据的价值[J].现代教育技术,2013,(2):5-11.
[5]张植卿,程鲜彩.大数据对教育领域产生的革命性影响[J].经济研究导刊,2014,(5):232-233.
[6]BienkowskiM,FengM,MeansB.EnhancingTeaching and Learning Through Educational Data Mining and Learning Analytics: An Issue Brief [R]. Washington, D. C. : SRI International,2012.
[7]葛道凯,张少刚,魏顺平.教育数据挖掘:方法与应用[M].北京:教育科学出版社,2012:29-30.
[8]Romero&Ventura.EducationalDataMining:ASurvey from 1995 to 2005 [J]. Expert Systems with Applications.2007, (33):125-146.
[9]Baker&Yacef,TheStateofEducationalDataMiningin 2009:AReviewandFutureVisions[EB/OL].
[10]王盛. 教育数据挖掘促进高校学生个性化学习途径分析[J].高教高职研究,2014,(34).
[11]黄勇,李玉华.面向知识发现的数据分类技术在网络教学中的应用研究[J].南华大学学报,2006,(6):32-35.
[12]刘钢,王敏娟,张驰,王慧敏,陈笑怡.移动学习中的数据挖掘研究[J].中国远程教育,2011,(1).
[13]黄茜.WEB日志挖掘在个性化网络教育中的应用[J].现代教育技术,2004,(5):52-55.
[14]魏顺平. 在线学习行为特点及其影响因素分析研究[J].开放教育研究,2012,(4):81-90.
[15]舒忠梅,徐晓东.学习分析视域下的大学生满意度教育数据挖掘及分析[J].2014,(5).
[16]徐鹏,王以宁,刘艳华,张海.大数据视角分析学习变革《通过教育数据挖掘和学习分析促进教与学》报告解读及启示[J].远程教育杂志,2013,(6):11-17.
[17]魏顺平.教育技术挖掘:现状与趋势.第13届计算机模拟与信息技术学术会议论文集[Z].2011:25-28.
[18]李婷,傅钢善.国内外教育数据挖掘研究现状及趋势分析[J].现代教育技术,2010,(10):21-25.
[19] Baker, R. S. J. Data Mining for Education. InternationalEncyclopediaofEducation[M].2011.
[20] Ramaswami ,M.,& Bhaskaran,R. A CHAID Based Performance Prediction Model in Educational Data Mining[J]. IJCSI International Journal of Computer Science Issues,2010(1): 10-18.
[21]Stamper,J,Niculescu-Mizil,A.,Ritter,S.,Gordon,G.J., & Koedinger, K.R. (2010). Data set from KDD Cup 2010 Educational Data Mining Challenge. Available at http://www. datapub.cn/d/55d6bed7e4b022099bb3e532.