2021年教育部颁布的《义务教育质量评价指南》明确指出,要重视综合素质评价。综合素质评价强调观察、记录与分析学生全面发展状况,重视德、智、体、美、劳全要素的横向评价,以及学生各年级学习成长情况全过程的纵向评价,旨在全面反映学生的综合发展和个性特长。然而,作为教育评价改革步入深水区的标志,综合素质评价实践面临诸多挑战,落地效果与顶层设计的期许间差距很大,已成为制约教育高质量发展的关键瓶颈。为应对这些挑战,智能技术的创新融合至关重要。2024年3月,教育部提出开发专门用于教育领域的人工智能教育大模型,探索其在教育领域的创新应用。教育评价改革是教育改革最核心和关键的推动力量,如何通过教育大模型服务于学生综合素质评价是个挑战性问题。本研究旨在探索如何通过人工智能教育大模型赋能学生综合素质评价,提升评价实效,推动综合素质评价顶层设计与实践探索的有机结合。
通用大模型凭借强大的数据理解与文本生成能力,在评价准确度和效率等方面的表现可与人类媲美,一定程度上能应对综合评价与个性化评价的技术难题。然而,通用大模型的元训练数据集常缺乏教育专业术语,如五育评价、素质评价等,导致模型术语理解易出现偏差,影响评价的有效性 。为充分满足综合素质评价要求,本研究利用人工智能教育大模型赋能综合素质评价。
一、何以可能:人工智能教育大模型的综合素质评价能力分析
1. 强大理解能力,实现综合评价
人工智能教育大模型能够展现出卓越的理解能力,能充分理解与综合素质相关的数据。首先,在多模态数据处理上,模型将图片、视频、音频等数据形式转化为文本信息,解决多源异构数据的处理难题。其次,在不平衡数据分析中,人工智能教育大模型利用自注意力机制与位置编码,捕捉上下文序列关系,准确把握语境与意义,并基于评价框架输出总结性信息,避免少数类数据被忽视,较好地解决综合评价中的难点。
2. 智能推荐能力,实现个性化评价
人工智能教育大模型将预训练阶段积累的知识与能力迁移至推荐场景,展现出优秀的智能推荐能力。模型可根据学生需求提供针对性反馈,具有分数评定、评级预测、评论总结、解释生成、顺序推荐和直接推荐等功能,体现了它在个性化推荐方面的优势。即便在“冷启动”场景下,模型也能利用预训练习得的能力生成有效建议。
然而,实现个性化推荐的关键在于模型是否具备记忆能力。人工智能教育大模型通过多头自注意力和缓存机制可进行长记忆处理,通过分析学生的互动历史和偏好,提供精准评价与定制化反馈。此外,模型还可根据学生的发展现状直接生成适合的学习材料或题目,以提升其综合素质。
二、何以实现:构建面向“教—学—评”一体化的人工智能教育大模型
鉴于人工智能教育大模型的运算基础与评价过程均根植于大数据分析,本研究采用“OSEMN(obtain,scrub,explore,model,interpret)大数据分析生命周期”构建“教—学—评”一体化人工智能教育大模型的基本框架,并新增“用户交互层”,将评价结果应用于优化教师教学策略与学生学习方法,从而推动“教—学—评”一体化发展。大模型框架由六个层级组成,确保数据从收集、处理、分析、建模到解释与用户交互的全流程一体化(见图 1)。

基于多模态的数据获取层是实现评价育人功能的数据基础。为充分开展综合素质评价,数据获取层通过有感化(如电脑、平板、手机等)和无感化(如点阵笔、高清摄像头等)物理终端设备,搜集学生素质的多模态数据,构建学生素质表现的数据全景视图。
整合数据预处理层、数据探索层与模型建构层的“1+N”分布式智能体系统是实现评价育人功能的核心架构。主要包含发现和同化两个阶段,即先对学生素质数据进行认知理解,然后辩证分析得出有效评价。
人工智能教育大模型具备多模态数据的感知与认知能力,但同时处理这两项任务会增加计算压力,影响长期评价跟踪的任务效率。为此,本研究提出采用“1+N分布式智能体系统”计算架构,大模型作为“认知中枢”,将感知任务分配给其它小模型,如音频转文本模型、视频转文本模型。这些模型分布在数据预处理层,当不同模态和格式的数据被转为文本数据后,再由人工智能教育大模型进行认知处理,形成1个认知模型与N个感知模型的分布式结构,增强大模型在综合素质评价中的效能。
数据认知是“教—学—评”一体化教育大模型的关键功能。在此环节,大模型主要负责数据的解释与辩证。在数据探索层,大模型对已转换为文本的数据进行解释。首先,长文本数据被分词处理转化为短词语,然后通过特征提取转换为向量数值,以便大模型理解。
文本数据被解释后,数据进入模型建构层,执行“同化”任务。大模型依据评价目标为学生构建个性化评价模型,开展素质评价。此处的协商建构由认知模型对学生数据进行多角度分析,最终形成综合评价结论。除初次评价外,其余阶段的评价模型都需进入诠释辩证循环,与旧数据模型进行讨论,达成共识后输出形成性评价结论,满足学习性评价需求。
面向多元评价的数据解释层是实现评价育人功能的内容载体。在“教—学—评”一体化的人工智能教育大模型中,教师与学生是主要评价主体,数据解释层需为师生提供针对性反馈。为全面反映学生综合素质与个性特点,评价结果应总结学生在五育方面的表现,并涵盖个人发展特点,形成对学生综合素质的总结性评价。其次,评价结论应重视形成性评价,反映学生的素质成长动态过程。发展建议在评价的育人功能中扮演着关键角色,模型应提供对教师教与学生学的改进建议,体现评价的激励功能。对教师的反馈涵盖教学方法、课堂管理和教学内容等方面的评估与建议;对学生的反馈聚焦学习过程和素质发展等方面,并提出具体策略和改进方向,旨在实现“以评促教”与“以评促学”。
走向人机共智的用户交互层是发挥评价育人功能的落脚点。“教—学—评”一体化发展是发挥评价育人作用的关键,其背后的决定性因素是人机共智的交互深度。在用户交互层,教师要根据数据解释层提供的评价与建议,结合自身教学经验和教育理念与大模型进行深度的人机交互,迭代优化下一阶段的教与学方案,从而开展新一阶段的“教—学—评”循环。在此过程中,教师应关注教与学之间的互动关系,引导学习发生,并根据学习进展调整教学内容,在动态发展中达成“教—学—评”的良性互动和一体发展。
三、未来展望
“教—学—评”一体化的人工智能教育大模型在综合素质评价实施中展现出显著优势,同时也带来新的挑战。推动综合素质评价与人工智能教育大模型的深度融合,提升大模型的评价质量并优化人机交互体验,仍是未来研究的重要方向。
(一)提供个性化高质量反馈
尽管大模型的评价能力接近真人教师,但目前的反馈质量仍未达到经验丰富教师的水平。提高反馈质量需优化大模型训练的两个关键阶段:预训练和微调。在预训练阶段,教师需增加高质量评价对话的数据量,并通过奖励机制将高质量评价排序前置,强化模型生成优质反馈。在微调阶段,指令微调技术通过提供详细的任务描述,帮助模型准确理解任务要求,提高生成优质评价反馈的概率。同时,提供高质量的对话样本也可唤醒模型在预训练阶段习得的评价模式。
(二)构建人机协作和谐生态
技术作为一把双刃剑,对人类社会的影响是双面的。为构建人机协作的和谐生态,教师与学生必须学会正确使用大模型。
第一,外部的政策制定和规范约束必不可少。考虑到生成式人工智能无法保证所生成内容的正确性,教师应限制低龄学生使用人工智能,以免学到错误的知识。联合国教科文组织2023年7月发布的《教育与研究领域生成式人工智能指南》,建议13岁以上的学生才可使用人工智能工具。其次,政策应强调算法的透明性与可解释性,防止算法黑箱与信息茧房等对学生个性化发展的影响。
第二,企业应规范生成式人工智能平台设计,确保用户在使用前知晓工具功能与局限,即人工智能所生成的评价不可盲信;保障用户数据隐私安全,防止数据泄露对人机关系造成负面影响。
第三,开展生成式人工智能培训,提升教师与学生的智能素养,帮助他们了解人工智能的原理与适用场景,避免发生“人工智能欺骗”等伦理问题。值得注意的是,相较于教师,学生对生成式人工智能抱有更积极的使用态度,这或许是因教师知识水平高,使其能更深刻地认识到大模型的潜在负面影响。因此,培训应重视学生对人工智能的全面理解。
最后,使用者本人应持谨慎、辩证的态度,将人工智能作为评价的辅助工具,而非决策工具。总体而言,在技术与教育融合过程中,教师不仅要探索如何利用技术推动教育转型,还需审慎考虑技术可能带来的公平、隐私和伦理等问题,以期实现人与技术真正和谐共存。
作者丨林小红(华南师范大学教育信息技术学院);钟柏昌(华南师范大学教育信息技术学院教授)