2011 年起,大数据成为社会上、学术界炙手可热的话题,媒体网络、街头巷尾,处处可见对这一新词汇的相关报道。随着其应用的推广,经济、金融、管理、科技、制造等诸多产业均发生着革命性的改变。大数据技术、大数据工程、大数据科学和大数据应用等诸多领域如同雨后春笋般应运而生; 而推陈出新的数据挖掘技术,则令大数据如虎添翼,不断冲击着传统的学术研究范式,为传统科学研究提供了全新的研究工具。在心理学与教育学领域,大数据方法已帮助研究者取得了一定成果。德国波恩大学的马科维茨·亚历山大( Markowetz Alexander) 等人介绍了使用智能手机记录和分析操作者行为研究,对重度抑郁症患者的动态跟踪研究; 韩国心理健康研究中心的宋泰民( Song Tae Min) 等人研究了韩国人2004 至2010 年间在谷歌搜索引擎中关于自杀、压力、饮酒等关键词汇的搜索频率,并与实际自杀人数建立多水平模型,验证了压力、自杀等词汇的搜索频率与自杀人数的正向相关关系; 默瑟通和耶瑟夫( Merceron andYacef)利用相关规则数据挖掘方法,对不同学生在学习与考试过程中的相似错误进行分析,从而提出改进教学方法的建议; 麦菲顿和道森( Macfaydenand Dawson)分析学生参与在线课程的行为,利用参与讨论的程度、邮件频率、完成测验数量等变量,区分优秀学生与不良学生之间的差别。在大数据时代,将心理学与教育学共同研究具有如下意义: 第一,心理学是研究人类的心理现象、精神功能和行为的科学,教育学是研究教育现象及其规律的社会科学,而教育的主体是学生或教师,即人是教育的出发点。由此可见,心理学与教育学的研究主体是一致的,二者在大数据相关研究中所需的数据类型、研究方法等具有一致性。第二,在教育学的研究过程中,制定教育目标、教育原则,选择教育方法、组织教学等方面,都需要心理学知识作为依据,这在使用大数据作为研究工具时也是必要的。第三,心理学研究也需要教育学理论与实践的支撑。一方面,教育学的大量研究成果是学生在学习过程中规律的总结,这直接丰富了心理学领域的相关内容;另一方面,教育学研究以学生和教师作为研究对象,这个研究对象本身拥有巨大的体量,符合大数据研究的基本要求,也为心理学研究提供了丰富的素材。

传统的心理学与教育学定量研究,是以假设检验的方法为主要研究过程的。在此过程中,首先提出假设,对变量进行控制,通过观察、实验、访谈等搜集数据,之后对资料进行分析并推断出相关结论。该方法的缺点之一是,假设检验是以排除不正确假设为基础的,但是为了得到正确的推论,还要继续进行新的假设。而与传统研究方法不同,大数据则根据获取到的数据特征,首先通过相关、分类、聚类、可视化等方法对数据进行先期处理,从处理的结果中分析可能的原因,从而做出推断。这种近似反向的研究思路,正是大数据视角下心理学与教育学研究范式的重要特点。

一、心理学与教育学的大数据类型

摩尔定律认为,当价格不变时,同一个面积集成电路上可容纳的晶体管数目,每隔18 ~ 24 个月便会增加一倍。换言之,计算机硬件的处理速度和存储能力,每18 ~ 24 个月也将提升一倍。这有力地推动了全世界对物理存储器的消费,推动了数据量存储呈几何级数的增长。国际著名咨询机构高德纳咨询公司( Gartner) 预测,到2020 年,世界上存储的数据总量将达到35ZB,相当于80 亿块4TB 的移动硬盘。海量的数据存储量是大数据时代科学研究的前提条件。

与其他领域相同,心理与教育领域的大数据主要包括三种类型: 结构化数据、非结构化数据与半结构化数据。结构化数据是以往研究的重点,而非结构化数据和半结构化数据的数据量远远大于结构化数据,是未来研究的重点,具有更大的开发潜能。

( 一) 结构化数据

结构化数据即数据库数据。它是存储在数据库里,可以用二维表结构来表达实现的数据,如数字、符号、图表等信息。显然,传统的心理领域与教育领域的研究更多的是面向这些结构化数据。结构化数据有三种类型,即截面数据、纵向数据和面板数据。

截面数据是传统心理研究与教育研究应用较多的数据类型,是指在同一时间截面上反映一个总体的一批( 或全部) 个体的同一特征变量的观测值。为了揭示被试的心理发展水平和教育程度,截面数据可以采用描述统计、推断统计、多元统计等方法进行分析。除此之外,近些年结构方程模型的应用更为广泛,它是因子分析、回归分析、路径分析和潜变量模型的拓展与延伸,是在已有回归分析的基础上,利用测量模型和结构回归模型表达变量之间潜在关系的方法。

纵向数据也称时间序列数据,它是在不同时间点上搜集到的数据,反映个体发展随时间变化的状态和程度。教育心理学领域多应用时间序列数据进行研究,如记录并研究儿童记忆能力发展情况或学业成绩变化情况等。常用统计分析方法包括重复测量方差分析、时间序列分析、多元回归分析等,侧重研究总体平均发展趋势问题。近年来,多层线性模型、潜变量增长模型、潜变量混合增长模型,也是时间序列数据分析常用的方法。面板数据( panel data) 属于二维数据,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。大数据时代,获取数据更加迅速便捷,研究者在同一时点上能够获得大量有价值的数据,多时点积累即可满足面板数据要求的数据原型。近年来,事件相关电位( ERP) 、功能性磁共振成像( fMRI) 等技术不断成熟,单次实验即可产生客观的数据。通过控制实验的影响因素,进行不同时间、相同被试的多次观测,搜集到的数据即为面板数据。单位根检验、协整分析等方法是目前研究面板数据比较常用的一些方法。

( 二) 非结构化数据

相对于结构化数据,非结构化数据难以使用二维逻辑表来表现。它包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等。大数据时代下,非结构化数据的有效管理、开发与应用是心理学科与教育学科研究的重点。

在心理学与教育学领域,应用非结构化数据开展的研究虽然没有十分普及,但总体上呈上升的趋势。可预期的非结构化数据分析领域包括文本分析、移动智能终端数据分析、可穿戴设备数据分析、互联网行为分析、社会行为数据分析等。可用于心理与教育研究的非结构化数据主要包括以下几种类型:

1. 文字数据

文字数据包括人们在互联网线上、线下留下的各种文字记录,如网络上创作的文字作品、自媒体发表的言论、搜索引擎的热门词汇、微博、微信朋友圈的文字、论坛或留言板评论等。这些数据,一部分可以直接进行频数分析,另一些需要进行分类、编码使其转化为可被分析的数据。国外使用的Twitter,国内使用的微博、微信等社交平台,都是文字数据海量数据的获取平台。清华大学彭凯平等人通过统计新浪微博的词频数据,利用文字数据反映情绪这一特性,分析我国不同地区人口的“幸福指数”。安娜亚和博蒂卡里奥( Anaya and Boticario)分析学生在网络学习论坛上发布或回复的信息内容,对学生的合作表现进行判断,从而对学生类别进行划分。

2. 多媒体数据

多媒体数据包括可以被记录下来的声音、图片、视频影像等素材。例如软件中的语音聊天记录,由个人用户拍摄并上传到网络上的图片、视频资料等。Google 公司的图片管理工具Picasa 利用机器学习的算法,对照片中的人物面孔进行识别,从而提供基于不同对象的照片分类功能; 在此研究基础上,研究者能够通过软件识别照片、视频、监控画面中人物的面孔、表情数据,与情绪、教学等领域的相关研究结合进行分析,更加客观地研究个体在学习、生活中的心理状态。

3. 行为数据

行为数据的定义范畴十分宽泛,可以说涵盖了我们生活中可被记录的一举一动。通过互联网、智能移动设备终端、可穿戴设备等电子信息产品,个体的行为数据均可搜集回传至服务器。例如,网页浏览时间、鼠标运行轨迹、手机通话时长、实时位置信息,以及特定场景下个体的动作、心跳、血压等生理指标,等等。行为数据可能无法直接用于心理学与教育学的分析,将声音、图像转化为数字化信息,再从海量数据中提取有意义的特征,是未来研究的重中之重,也是发挥心理学、教育学在大数据时代学科专业优势,促进多学科协同创新的落脚点。


首页 [1] [2] [3] 下一页 尾页

2011 年起,大数据成为社会上、学术界炙手可热的话题,媒体网络、街头巷尾,处处可见对这一新词汇的相关报道。随着其应用的推广,经济、金融、管理、科技、制造等诸多产业均发生着革命性的改变。大数据技术、大数据工程、大数据科学和大数据应用等诸多领域如同雨后春笋般应运而生; 而推陈出新的数据挖掘技术,则令大数据如虎添翼,不断冲击着传统的学术研究范式,为传统科学研究提供了全新的研究工具。在心理学与教育学领域,大数据方法已帮助研究者取得了一定成果。德国波恩大学的马科维茨·亚历山大( Markowetz Alexander) 等人介绍了使用智能手机记录和分析操作者行为研究,对重度抑郁症患者的动态跟踪研究; 韩国心理健康研究中心的宋泰民( Song Tae Min) 等人研究了韩国人2004 至2010 年间在谷歌搜索引擎中关于自杀、压力、饮酒等关键词汇的搜索频率,并与实际自杀人数建立多水平模型,验证了压力、自杀等词汇的搜索频率与自杀人数的正向相关关系; 默瑟通和耶瑟夫( Merceron andYacef)利用相关规则数据挖掘方法,对不同学生在学习与考试过程中的相似错误进行分析,从而提出改进教学方法的建议; 麦菲顿和道森( Macfaydenand Dawson)分析学生参与在线课程的行为,利用参与讨论的程度、邮件频率、完成测验数量等变量,区分优秀学生与不良学生之间的差别。在大数据时代,将心理学与教育学共同研究具有如下意义: 第一,心理学是研究人类的心理现象、精神功能和行为的科学,教育学是研究教育现象及其规律的社会科学,而教育的主体是学生或教师,即人是教育的出发点。由此可见,心理学与教育学的研究主体是一致的,二者在大数据相关研究中所需的数据类型、研究方法等具有一致性。第二,在教育学的研究过程中,制定教育目标、教育原则,选择教育方法、组织教学等方面,都需要心理学知识作为依据,这在使用大数据作为研究工具时也是必要的。第三,心理学研究也需要教育学理论与实践的支撑。一方面,教育学的大量研究成果是学生在学习过程中规律的总结,这直接丰富了心理学领域的相关内容;另一方面,教育学研究以学生和教师作为研究对象,这个研究对象本身拥有巨大的体量,符合大数据研究的基本要求,也为心理学研究提供了丰富的素材。

传统的心理学与教育学定量研究,是以假设检验的方法为主要研究过程的。在此过程中,首先提出假设,对变量进行控制,通过观察、实验、访谈等搜集数据,之后对资料进行分析并推断出相关结论。该方法的缺点之一是,假设检验是以排除不正确假设为基础的,但是为了得到正确的推论,还要继续进行新的假设。而与传统研究方法不同,大数据则根据获取到的数据特征,首先通过相关、分类、聚类、可视化等方法对数据进行先期处理,从处理的结果中分析可能的原因,从而做出推断。这种近似反向的研究思路,正是大数据视角下心理学与教育学研究范式的重要特点。

一、心理学与教育学的大数据类型

摩尔定律认为,当价格不变时,同一个面积集成电路上可容纳的晶体管数目,每隔18 ~ 24 个月便会增加一倍。换言之,计算机硬件的处理速度和存储能力,每18 ~ 24 个月也将提升一倍。这有力地推动了全世界对物理存储器的消费,推动了数据量存储呈几何级数的增长。国际著名咨询机构高德纳咨询公司( Gartner) 预测,到2020 年,世界上存储的数据总量将达到35ZB,相当于80 亿块4TB 的移动硬盘。海量的数据存储量是大数据时代科学研究的前提条件。

与其他领域相同,心理与教育领域的大数据主要包括三种类型: 结构化数据、非结构化数据与半结构化数据。结构化数据是以往研究的重点,而非结构化数据和半结构化数据的数据量远远大于结构化数据,是未来研究的重点,具有更大的开发潜能。

( 一) 结构化数据

结构化数据即数据库数据。它是存储在数据库里,可以用二维表结构来表达实现的数据,如数字、符号、图表等信息。显然,传统的心理领域与教育领域的研究更多的是面向这些结构化数据。结构化数据有三种类型,即截面数据、纵向数据和面板数据。

截面数据是传统心理研究与教育研究应用较多的数据类型,是指在同一时间截面上反映一个总体的一批( 或全部) 个体的同一特征变量的观测值。为了揭示被试的心理发展水平和教育程度,截面数据可以采用描述统计、推断统计、多元统计等方法进行分析。除此之外,近些年结构方程模型的应用更为广泛,它是因子分析、回归分析、路径分析和潜变量模型的拓展与延伸,是在已有回归分析的基础上,利用测量模型和结构回归模型表达变量之间潜在关系的方法。

纵向数据也称时间序列数据,它是在不同时间点上搜集到的数据,反映个体发展随时间变化的状态和程度。教育心理学领域多应用时间序列数据进行研究,如记录并研究儿童记忆能力发展情况或学业成绩变化情况等。常用统计分析方法包括重复测量方差分析、时间序列分析、多元回归分析等,侧重研究总体平均发展趋势问题。近年来,多层线性模型、潜变量增长模型、潜变量混合增长模型,也是时间序列数据分析常用的方法。面板数据( panel data) 属于二维数据,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。大数据时代,获取数据更加迅速便捷,研究者在同一时点上能够获得大量有价值的数据,多时点积累即可满足面板数据要求的数据原型。近年来,事件相关电位( ERP) 、功能性磁共振成像( fMRI) 等技术不断成熟,单次实验即可产生客观的数据。通过控制实验的影响因素,进行不同时间、相同被试的多次观测,搜集到的数据即为面板数据。单位根检验、协整分析等方法是目前研究面板数据比较常用的一些方法。

( 二) 非结构化数据

相对于结构化数据,非结构化数据难以使用二维逻辑表来表现。它包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等。大数据时代下,非结构化数据的有效管理、开发与应用是心理学科与教育学科研究的重点。

在心理学与教育学领域,应用非结构化数据开展的研究虽然没有十分普及,但总体上呈上升的趋势。可预期的非结构化数据分析领域包括文本分析、移动智能终端数据分析、可穿戴设备数据分析、互联网行为分析、社会行为数据分析等。可用于心理与教育研究的非结构化数据主要包括以下几种类型:

1. 文字数据

文字数据包括人们在互联网线上、线下留下的各种文字记录,如网络上创作的文字作品、自媒体发表的言论、搜索引擎的热门词汇、微博、微信朋友圈的文字、论坛或留言板评论等。这些数据,一部分可以直接进行频数分析,另一些需要进行分类、编码使其转化为可被分析的数据。国外使用的Twitter,国内使用的微博、微信等社交平台,都是文字数据海量数据的获取平台。清华大学彭凯平等人通过统计新浪微博的词频数据,利用文字数据反映情绪这一特性,分析我国不同地区人口的“幸福指数”。安娜亚和博蒂卡里奥( Anaya and Boticario)分析学生在网络学习论坛上发布或回复的信息内容,对学生的合作表现进行判断,从而对学生类别进行划分。

2. 多媒体数据

多媒体数据包括可以被记录下来的声音、图片、视频影像等素材。例如软件中的语音聊天记录,由个人用户拍摄并上传到网络上的图片、视频资料等。Google 公司的图片管理工具Picasa 利用机器学习的算法,对照片中的人物面孔进行识别,从而提供基于不同对象的照片分类功能; 在此研究基础上,研究者能够通过软件识别照片、视频、监控画面中人物的面孔、表情数据,与情绪、教学等领域的相关研究结合进行分析,更加客观地研究个体在学习、生活中的心理状态。

3. 行为数据

行为数据的定义范畴十分宽泛,可以说涵盖了我们生活中可被记录的一举一动。通过互联网、智能移动设备终端、可穿戴设备等电子信息产品,个体的行为数据均可搜集回传至服务器。例如,网页浏览时间、鼠标运行轨迹、手机通话时长、实时位置信息,以及特定场景下个体的动作、心跳、血压等生理指标,等等。行为数据可能无法直接用于心理学与教育学的分析,将声音、图像转化为数字化信息,再从海量数据中提取有意义的特征,是未来研究的重中之重,也是发挥心理学、教育学在大数据时代学科专业优势,促进多学科协同创新的落脚点。


首页 [1] [2] [3] 下一页 尾页

二、心理学与教育学大数据的搜集与整理

由于心理学和教育学都是研究人的科学,所有与人相关的数据均可能成为研究所需的数据。结构化的数据多来源于问卷、实验、文献等; 非结构化的数据则包括政府机构、企业的产品、服务中产生的大量密集型海量数据,以及互联网上发生的、蕴涵丰富的、可被发掘的具有社会价值、商业价值或科研价值的大数据。如何搜集、整理这些数据,使之成为可分析处理的对象,是现代心理与教育研究面临的难题。

( 一) 建立最小数据集

最小数据集目前没有通行的概念,它是业务管理过程中的重要指标,是指通过搜集最少量的数据,最好地掌握一个研究对象所具有的特点或一件事、一份工作所处的状态,其核心是针对被观察的对象建立一套精简使用的数据指标。美国医疗领域最早建立了自己的最小数据集,而不同行业均致力于建立符合本行业需求的最小数据集。建立最小数据集,包含了两个要求: 一是要将数据在具有代表性的前提下尽量简化,摒弃冗余的部分; 二是建立一个好的数据结构,即每条样本数据具有唯一的ID、每个变量内部具有一致的属性等。建立心理学与教育学领域的最小数据集,有利于指导数据搜集的方向,避免研究迷失在海量的大数据中。

心理学和教育学是研究人的学科,包括人的心理生理发展状况、学业水平和行为、个体的动机与成就等。因此,心理和教育研究的最小数据集应围绕能够区分某一类人群或某一个体的指标来进行设定。如果研究对象为较小范围内的个体,如某一所学校中的学生,可能搜集的变量包括年龄、班级、性别、学号、身高、体重、父母职业、历次考试成绩、人格量表得分等; 如果研究范围扩大,最小数据集所需的变量就要多一些,如国家、种族、区域等,另外还应对如考试成绩、量表得分等不同标准获得的数据进行标准化处理,满足后期数据分析的需要。由此可见,建立心理学与教育学共同的最小数据集,是相关研究在大数据时代的必要条件。

( 二) 大数据的收集

在大数据背景下,心理学与教育学的数据搜集方式将不再局限为实验、问卷、访谈等传统方式,文字数据、多媒体数据、行为数据无需到用户的终端进行逐一复制,云技术、云存储功能将用户的数据实时同步到云服务器上,有网络的地方即可随时对数据进行搜集、浏览与分析。按照搜集渠道的不同,心理与教育领域的数据可划分为线上搜集与线下搜集两种类型。

线下搜集数据,即搜集政府、企事业单位、非盈利组织等机构运营过程中产生的数据。如教育部从1985 年开始,每5 年开展一次全国青少年体质调研,每次调研人数均在25 万人以上; 某地区的全部医院拟建立统一的标准化数据库,对每位患者标识唯一的ID,将就诊信息上传至统一平台; 保险领域已经对搜集到的海量的不同品牌车辆的出险情况、驾驶者的驾驶习惯等数据进行分析,以此细化不同车辆、不同驾驶者的续保保费。这些数据均可应用于心理、教育领域的相关研究。

线上搜集数据,包括搜集由自然人产生的数据和数据库数据两方面。在已知的研究中,研究者多通过互联网、智能移动终端、可穿戴设备搜集数据,动态地获取被试的实时信息。如搜索引擎可记录用户的搜索词频; 用户在不同网站的停留时间、阅读速度、鼠标点击习惯等数据,均可以通过计算机终端获取,并上传到后台服务器; 智能移动终端的GPS、WIFI、蓝牙等功能,能够实时回传用户的位置信息、软件使用时长、通话时长、短信敏感词等,供研究使用; 大多数可穿戴设备能够搜集用户的心跳、血压、血氧等生理指标和步频、步幅等运动指标,亦附带与其他设备的数据同步,或网络回传功能,高频率大规模地搜集行为数据。

另一方面,随着历史调查研究的数据积累,数据库也是心理、教育领域研究的重要数据来源。除了能够直接使用的结构化数据外,各类文献库的体量增加十分迅速。以往研究中所使用的数据总量已达到大数据的标准,但不同文献所使用的数据缺乏统一的标准,并未发挥它们的最大价值。元分析方法解决了这一问题,它是对众多现有实证文献的再次统计,通过对相关文献中的统计指标利用相应的统计公式,进行再一次的统计分析。因此,对文献中的数据进行搜集与整理,是大数据时代心理与教育研究的又一重要方法。

( 三) 建立数据仓库

数据仓库( data warehouse) 是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定。数据仓库的前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具,以及基于数据仓库的应用开发工具等。一方面它类似于原始的数据库,具有存储数据的作用; 另一方面又具有数据分析、决策支持的用途。在心理与教育领域,已有建立并应用数据仓库的初步研究。例如,李幽竹在其硕士学位论文中讨论了建立高校学生信息数据仓库的可能性,提出该数据仓库的总体设计技术、组成、功能和特点,讨论了数据仓库中事实表与维度表的建立,以及部分数据挖掘算法和决策支持系统中商业智能( BI) 的应用。

心理与教育研究所使用的数据仓库,不仅应具有数据存储、筛选、过滤、按照主题组织等功能,还可以根据学科特点进行数据管理与分析。数据仓库可以通过联机分析处理( OLAP) 服务器,具备透析数据所反映的信息的能力,为研究和决策者提供帮助。刘丽丽等人搜集南京市三所中学的初一学生数据,使用SQL Server 软件构建数据仓库,在OLAP 服务器上分析多维数据集,得到了学生受欢迎程度与性别、是否为独生子女、父母婚姻状况、父母受教育程度等变量之间的相关关系。


首页 上一页 [1] [2] [3] 下一页 尾页

三、心理学与教育学大数据的研究方法

传统的统计学数据分析方法,在大数据时代依然有其用武之地。对于截面数据,可以采用描述统计、推断统计、多元统计分析方法进行分析; 纵向数据的研究则可采用重复测量方差分析、时间序列分析、多元回归分析等方法; 面板数据模型能够更好地识别和度量单纯时间序列模型和单纯截面数据模型所不能发现的影响因素,克服共线性的困扰,提供更多的信息、更多的变化、更高的自由度和更高的估计效率。静态面板数据模型可采用固定效应模型或随机效应模型进行分析; 动态面板数据模型可采用自回归面板数据模型与有外生变量的线性动态面板数据模型。

伴随着大数据的发展,针对大规模、高频次数据的研究方法应运而生。传统的数据挖掘方法首先对样本的分布进行假设,之后通过各种计算方法对总结进行推断,从而预测数据的概率分布。但是对于大数据而言,其样本量的规模无法应用传统方法,机器学习技术正好解决了这个问题。机器学习通过应用海量数据对模型进行拟合,优化模型的误差,从而使模型拟合逐渐逼近已有数据的真实水平,实现预测的准确性。目前比较流行的机器学习算法包括决策树、支持向量机、人工神经网络、关联规则、聚类分析等,主要解决包括数据的分类、关联、聚类、判别、可视化等方面的问题。

( 一) 分类算法

分类算法就是通过对已知类别的训练集的分析,用样本的其他属性建立一个关于类别属性准确划分的模型,以便用来判定新的测试数据的类别。目前可供心理学、教育学领域使用的分类算法有决策树分类、贝叶斯分类、神经网络分类和支持向量机分类。南京师范大学的王冬燕等人对全国10 个省市的1 294 名留学生进行测量,对留学生的社会适应、心理适应和学习适应建立分类回归树,结果表明分类回归树可以有效地对留学生适应性进行预测。吉林农业大学的刘晓彦将支持向量机( SVM) 理论应用于独立学院教学评价系统当中,根据教育学等相关理论,结合目前国内院校的教学评价指标,尝试建立独立学院教学评价指标体系。

心理学对分类算法这种机器学习方法的应用也呈上升趋势。认知诊断评估利用被试在标定了项目属性的测试项目上的作答反应,对被试知识、技能或属性的掌握情况进行推断或分类,反馈测试结果给学生、老师等以供补救教学之用。卡勒斯·康达( J. L. Carus Candas) 等人利用决策树、贝叶斯方法、支持向量机等数据挖掘方法,成功识别了装备可穿戴设备的被试的异常数据,为精神异常人群的早期发现提供了重要的工具。

( 二) 关联分析

数据的关联分析在机器学习中的算法被称为关联规则,它起源于超市的购物篮分析。大型连锁超市沃尔玛使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,发现啤酒与尿布的销量存在关联关系,于是将二者捆绑销售,结果销量双双增加。关联规则挖掘过程主要包含两个阶段: 首先从资料集合中找出所有的高频项目组; 其次再由这些高频项目组中产生关联规则。

吴玉婵在对新升本科院校大学生学习效果的影响因素的研究中,搜集了陕西省某新升本科院校信息工程学院2009 级、2010 级学生的相关学习动态、静态数据,应用关联规则算法寻找学生的入学高考成绩、学习自我评价数据、家庭信息、学习状况、学习行为、生活习惯、期末考试成绩等信息的相关关系,得到了如高考英语成绩对大学学习成绩有显著影响等一系列结论。

( 三) 聚类分析

在机器学习中,分类分析属于监督式学习方法,而聚类分析属于非监督式学习方法。监督式学习方法要求研究者给定配对的训练数据,通过分析训练数据产生推断; 而非监督式学习主要用于处理未被分类标记的样本集。

聚类分析是一种探索数据分组的踪迹方法,其目的是建立一种归类方法,将一批样本或变量,按照它们在特征上的疏密程度进行分类,使得组内样本的相似度达到最大,而组间的差异达到最大。聚类分析广泛地应用于客户细分、文本归类、结构分组和行为追踪等问题。

李晓巍以北京市和西安市的718 名中学生为被试,采用聚类分析技术对青少年的社会适应状况进行分类,按照社会适应状况的不同将青少年分为三种类型: 和谐型、低人际—高孤独型、低自尊型。在网络教学( E-learning)的研究过程中,研究者会根据学生的学习行为、合作行为、记忆能力、阅读速度等指标,通过不同的聚类方法,将学生划分为不同类型,分类进行教学与指导。

( 四) 其他方法

除了上述几类方法外,机器学习还有如下算法已在心理、教育领域被应用。

贝叶斯分类和因果学习算法将分类问题转化为分布的决策问题,它包括朴素贝叶斯和贝叶斯网络两类方法,为教育与心理学的分类与因果研究提供了又一工具。伍斯特理工学院的阿罗约( Arroyo) 等人应用贝叶斯网络方法,搜集学生在学习过程中的行为数据,对其完成特定学习任务的目标和态度进行预测。王小丽和远俊红采用加权朴素贝叶斯分类法对学生的考试成绩进行预测和分析,通过实验证明研究所采用的分类法对于预测成绩具有较好的准确度。

社会网络分析是研究一组行动者关系的研究方法。一组行动者可以是人、社区、群体、组织、国家等,他们的关系模式反映出的现象或数据是网络分析的焦点。从社会网络的角度出发,人在社会环境中的相互作用可以表达为基于关系的一种模式或规则,而基于这种关系的有规律模式反映了社会结构,这种结构的量化分析是社会网络分析的出发点。社会网络分析在教育与心理研究中已有初步应用。郁晓华和祝智庭从微博的特征入手,结合社会网络研究的相关内容,提出了聚焦模式、关联模式和发散模式三种微博社会网络教育应用的模式。李永强和黄姚在总结前人对于个性特征与社会网络特征关系的研究基础上,提出了基于本土化的人格理论和社会网络研究成果开展研究是未来的研究重点。

数据可视化是数据挖掘中的又一利器。使用可视化技术的首要动机是人们试图能够快速吸取大量可视化信息,并发现其中的模式。对于属性较少的数据,可绘制包括茎叶图、直方图、二维直方图、箱线图、饼图、散点图等图形; 对于时间空间数据,可视化技术可以采用等高线图、矢量场图、低维切片等进行分析; 对于高维数据,可以绘制像素的矩阵、平行坐标系、星形坐标和Chernoff 脸等。在认知科学研究中,大量眼动数据需要通过合理的可视化方式进行处理与分析。程时伟和孙凌云总结了眼动数据的预处理与参数化方法,在此基础上介绍了眼动数据的四种主要可视化方法———扫描路径法、热区图法、感兴趣区法和三维空间法———及各种方法的优缺点。

四、启示与展望

前文主要介绍了心理学与教育学领域的大数据类型、搜集与整理和研究方法。已有研究关注的重点在于以下几点: 分析历史数据,对心理与教育领域的研究对象进行评价,并总结其内在规律; 应用研究成果,对个体或群体的心理健康指导、教育政策制定提供理论支持; 改进研究方法,不断对心理学、教育学的学术研究提供创新有效的研究工具。在未来的研究中,心理学与教育学领域对大数据方法的应用变革主要表现在以下四个方面。

( 一) 从抽样分析向总体分析转化

传统的社会科学研究大多通过对样本特征的分析来推断总体的特征。在资源充足的情况下,研究者可能选取几千甚至上万个样本作为研究对象;实验室募集的被试量也可能有几百个; 发展学家选择性地对几个或者几十个研究对象进行多年的跟踪调查。这些研究的前提条件均为,样本在一定程度上代表着总体,研究样本的特征就可以归纳出总体的特征。因此,抽样方法的选择、抽样误差的控制均制约着使用抽样方法开展研究的过程与结论。

然而,通过线上、线下海量数据的累积,大数据时代的研究将在尽可能大的程度上摆脱对样本的依赖,从而面向尽可能全面的数据。研究将从对样本的分析转化为对总体的建模。同时,由于总体的多样性,大数据还为研究提供了更加多样化、异质化的样本,使研究者摆脱时间、空间的限制,避免样本选择不合理带来的干扰。

( 二) 从调查实验向实时搜集转化

在以往的心理学、教育学定量研究中,数据通常由问卷、访谈、实验等方式获得,不但耗时长、成本高,而且数据的质量也会根据调查者、访谈者的个人素质不同而参差不齐。此外,调查与实验还受到地点、时间、招募的志愿者等条件的限制。大数据时代主要依靠网络来搜集数据,并实现数据实时的交互传输,这样的变革带来以下几点优势: 第一,研究者不必亲自到现场开展问卷调查或访谈,通过网络即可获得一手数据,有网络的地方即可称为实验场所; 第二,通过对数据的采集进行控制、筛选,使获取的数据具有统一的标准,便于后期的分析; 第三,通过数据交互,实现对研究对象的动态监控,通过模型计算发现风险点和不稳定因素,并采取及时的预防措施。

( 三) 从主观数据向行为数据转化

虽然已经过效度与信度的检验,但问卷与访谈中的各类问题还是会因为被访者个人经历的不同、受访时的情绪的变化等,带有较强的主观色彩,其结论也可能存在偏差。大数据时代的变革是对客观数据研究的转化,其前提假设是个体的心理状态,能够通过其生理指标、行为举动、语言文字等客观事实反映出来。目前的研究重点集中在网络、移动终端搜集到的一些文字、数字化数据,随着新技术的不断发展,如何将个体所表现出的行为数字化,使对动作的研究具有可操作性,是未来的研究重点之一。

( 四) 从因果分析向精确预测转化

目前,大数据在社会科学领域的研究中存在着一个困境,即有些研究者认为,大数据得到的仅是数据之间的相关关系,并不能进行因果解释。如蒙塔格( Montag) 等人通过数据验证了外倾性人格与电话通话时长存在正相关,与短信息字数存在负相关。但这并不能够说明通话时间越长、短信字数越短是外倾性人格的充分条件或必要条件。

但是在研究过程中发现,大数据时代的心理与教育学研究不再过多依赖随机抽样,模型的预测能力大幅提升。通过搜集、整理、分析相关变量后,个体的心理健康水平、学业成绩、群体的情绪等,都能得到更加精确的预测,从而及时对相应的政策与实践做出调整。此时,变量之间因果关系的重要性也随之下降了。大数据时代,利用数据挖掘方法,寻找因变量与众多自变量之间的联结关系,对因变量进行精准的预测,是挑战传统研究方法的又一项重要变革。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注