AI时代考试测评还有用吗？第七届世界教育前沿论坛热议

首页 > AI资讯 > 最新资讯 > AI时代考试测评还有用吗？第七届世界教育前沿论坛热议

AI时代考试测评还有用吗？第七届世界教育前沿论坛热议

南方都市报 2024-12-18

　　在中国，应试文化正不断受到诟病与冲击。对于统一性考试的负面影响，不乏尖锐的分析与批评。但也有教育学者认为，现存考试制度是最公平的竞争，似乎还没有找到任何替代。应试文化何去何从？随着数智化浪潮尤其是人工智能在教育领域的大面积渗透应用，新兴技术所赋能的教育改革，正不同程度地尝试突破传统的测评和考试。

　　12月14日-15日，由中国教育三十人论坛、香港大学教育政策研究中心、田家炳基金会、深圳香港培侨书院龙华信义学校联合筹办的第七届世界教育前沿论坛在深圳举行。本届论坛的主题为“测评与考试：从科举到人工智能”，来自英国、韩国、马来西亚、新加坡及中国内地、香港、台湾的30余位专家学者以及一线教育工作者，围绕主题分享思考，积极提出改变现状的路径和方法。

重新审视当前教育：

突破传统测评和考试

　　历时1300多年的古代科举，与现代的考试跨代融合，形成了今天华人社会中近乎牢不可破的应试文化。作为一种独特的社会现象，应试文化是由工业社会经济话语与历史公民话语的融合演变而来，具有深刻的社会背景和现代社会的烙印。

　　论坛上，世界教育前沿论坛主席、香港大学荣休教授、中国教育三十人论坛成员程介明表示，今天的全民学校制度，是不到200年前工业社会顶峰时期的产物，目的是为社会提供各类各层的人力资源，其形态模拟了工业生产流程，考试成了质量控制的关键。而随着社会变迁，大规模生产逐渐不再是常态，机器替代人工成为趋势，就业形态发生了变化，转工转行成为常态。传统的应试教育制度可能不再适用，社会需要培养自信、自立、自主、自为的个体。

　　世界教育前沿论坛主席、香港大学荣休教授、中国教育三十人论坛成员程介明。

　　他表示，教育改革应注重培养学生的能动性和自主性，将学习还给学生，让他们掌握自己的学习。人工智能为教育改革提供了新的机会，让学生掌握自己的学习，并不同程度地尝试突破传统的测评和考试。

　　台湾新竹清华大学教授谢小芩回顾了科举制度的历史、特点以及其与现代教育的联系。她谈到，考试主导教学的现象可以通过人工智能的发展得到改进，从而提升考试和测评方式，推动养成教育和教学的整体提升。例如，可以使用AI来出题、进行追问式和情境式考试，以及提高考试的效度和公平性。

　　亚洲学生在学科学习上的投入是显而易见的，尤其是在数学和科学等科目上，他们的表现往往在全球范围内都非常出色。然而，尽管亚洲学生在国际学术竞赛和标准化考试中取得了优异成绩，但在诺贝尔奖等国际荣誉的获得上，欧美国家确实更为突出。这也促使教育界和公众开始思考，传统的测评方法是否能够全面反映学生的多元智慧和能力。

　　对此，经济合作组织（OECD）教育与技能司司长安德烈亚斯·施莱歇尔表示，培养一流的人才需要深入思考如何增强个人在阅读、数学和科学等方面的能力，以适应不断数字化的社会。

　　他认为，评估固定学科内容比评估思维能力容易，但我们需要改变评估方式。常规认知技能的需求正在下降，技术密集型任务在增加，我们需要将人工智能融入其中。他强调，学校应该帮助学生理解他们的存在意义、价值观、热爱的事物以及他们想要实现的目标，这需要个性化的教育方法。同时，学习和考试不应该被割裂开来，考试应该成为学习体验的一部分，并提供持续的反馈。

教育测评的全球视野：

技术与评估的革新

　　依托大数据分析、机器学习、自然语言处理等先进技术，全球范围内，教育评价正从传统的纸笔考试模式，向着智能化、个性化和全球化的方向迈进。论坛上，嘉宾们分享各自在这一领域的探索和实践，为教育评价改革提供了宝贵的经验和启示。

　　新加坡国立南洋理工大学国立教育学院副教授吴伟斌谈到新加坡减少考试的尝试与经验。“自1965年以来，新加坡教育设计从基本的生存驱动转变为重视IT技能和社会需求。教育的目标已经从效率驱动转变为强调创造力和创新的高层次思维技能。”他表示，教育领域正经历着从传统到现代化的转型，这涉及到对小步骤改革的认识，即通过做一些小的、正确的改变来推动整体的进步，哪怕这可能意味着会错过一些正确的事物。

　　科大讯飞副总裁周佳峰在论坛上介绍了通过测评推动教育的实践经验。他谈到，大模型的发展为学生测评带来了更深层次和更多维度的可能性。传统的测评主要关注智力水平和学业成绩，而现在通过学科知识、身心健康和AI素养等多方面的测评，可以更全面地了解学生的发展潜能，并为他们提供适切的学习资源。

　　与技术派的自信乐观不同，伦敦大学学院教育与社会学院教授韦恩·霍姆斯则从批判性的视角谈到，在教育领域引入AI工具时，“一个关键问题是缺乏独立证据来验证这些工具的安全性、有效性和对课堂的积极影响。”他强调，虽然这些工具可能已经经过某些测试，并声称具备有效性和安全性，但实际上缺乏独立证据来支持这些说法。这导致教育决策者、教师和学校领导在选择和使用这些工具时，往往依赖不确定的信息。

　　他指出，这种情况可能导致孩子们成为未经充分控制的实验对象，这与科学实验应在良好道德控制下进行的原则相违背。“应将AI工具的使用从无根据的尝试转变为基于充分证据的技术应用，从而确保当它们应用于教育实践时，我们能对其有效性和安全性有信心。”

　　吴伟斌也认为，教育评估实践面临着挑战，需要在正式和非正式评估之间找到平衡，并且要适应多样化的教育内容和方法。评估的目的不仅是测试学生的知识，更重要的是考察学生如何应用这些知识。

　　交流中，湖南师范大学教授杨志明谈到，AI的发展带来了许多机遇，例如通过自然语言处理技术，人们可以直接用自然语言进行学习和交流。此外，大数据和机器学习神经网络的发展使得处理海量数据成为可能，而谷歌发布的Willow量子芯片更是展示了AI在算力上的突破。这些都可能对人们的学习和生活产生颠覆性的影响。

　　“在目前的AI技术水平下，AI可以作为助手，但还不能完全担任主角，因为这样做可能会带来较大的风险，就像现在没有人敢完全依赖AI开出的药方一样。” 杨志明提出，尽管ChatGPT带来了许多机遇，但也伴随着风险。例如，AI可能存在数据偏见，导致考试题目对某些文化或种族存在不公平。此外，AI的评分标准可能与人类评分员存在差异，考试蓝图可能缺乏针对性，考务管理可能存在安全风险，以及出题可能受到训练数据的偏差影响等。

　　杨志明认为，如何在利用ChatGPT等AI技术的同时，确保教育的公平性、诚信性和教师的职业发展，是当前教育界面临的重要课题。

创新教育测评：

跨学科实践与教学改革

　　AI加入日常教学后，会产生什么变化？

　　“我的能力已不足以批改学生利用AI生成的作品。”圆桌交流中，香港圣公会阮郑梦芹银禧小学副校长李伟铭分享了一个案例，该校六年级学生根据二年级学生创作的故事进行阅读理解，并利用AI技术生成图片。这一过程中，六年级学生通过阅读低年级学生的作品，不仅进行了有趣的讨论和反思，还制作了令人惊叹的作品。

　　李伟铭认为，AI时代要求教师重新思考批改的目的和方向，从简单的理解、牢记转向更高层次的创作。教师不再是权威的知识传授者，而是知识的共享者和引导者，与学生一起学习和反思。教师需要思考如何在班级中发挥新角色，如何赋能学生，鼓励他们互相评论、评审和评赏，以促进学生的进步。“这是新一代学习的关键。”李伟铭说。

　　传统的测评方法往往侧重于学生的学术成绩和知识掌握程度，而较少关注学生的创造力、批判性思维、情感智慧、社交技能等非认知能力。在本次大会上，来自教学一线的校长和老师们进行了分享。他们均认为，教育评估的改革方向之一是更加全面地评估学生的多元智慧和能力。

　　论坛上，深圳市宝安中学（集团）校长袁卫星介绍了一些好的测评案例。比如有学校将传统的考试转变为趣味的综合素养测评。学生们在设计文创产品的中，不仅学习美术设计，还要进行项目推销、文化研究、材料采购和产品制作，最终以产品发布会的形式向虚拟客户推销自己的作品。这种跨学科融合的测评方式，强调实践操作和创造力，让学生在参与中学习。袁卫星认为，教育测评的原则应基于需求，以学生为中心，根据学生的感受调整测评的频率和难度，真正体现学生为主体、教师为主导的教学理念。

　　深圳市龙华区教育科学研究院副院长黄仕则分享了龙华区在教育评价体系上的创新，该体系利用人工智能和大数据技术，构建了“六位一体”的新一代教育评价体系，包括学业监测、深度监测、体质健康监测、美育监测、增值评价和专题监测六个方向。此外，黄仕则还介绍了AI辅助作业减负提质的试点项目，通过无感数据采集技术，收集学生作业过程数据，解决减负提质的可见性问题，减轻老师负担，缓解家长焦虑，促进校家社协同育人。

　　吴佳筠校长来自香港培侨小学，她分享了学校在教育测评方面的改革。学校原先每学期都有期中和期末考试，但后来认为单一的试卷评估不能全面反映学生的能力，因此取消考试，转而采用多元化评估方式。这些方式包括实际操作作品、实验能力、识字应用等，强调在评估过程中观察学生的知识运用、技能、创造力和态度。

　　例如，五年级学生在学习地方描写文后，需要选择一个中国地方进行研究，并扮演小导游向同学介绍，同时制作PPT进行展示。评估标准非常详细，包括内容、结果和口头报告的声量等，让学生清楚如何获得分数。大规模的评估是四年级的综艺课程，学生可以选择自己喜欢的项目学习，最终通过全级同学共同完成的音乐剧表演来展示学习成果。

　　这些改革后的考试形式不仅让学生感到有趣，而且能全面评估学生的态度、合作能力和多方面的能力。虽然老师在准备过程中付出了很多努力，但最终的结果令人满意，吴佳筠认为这样的改革是值得的。

　　“我在进步吗？”“我怎么知道我在进步？”香港弘立书院的小学校长单宁在发言中以孩子的视角向与会教育学人抛出这个问题。她认为，评估不仅仅是测评，而是为学生的学和老师的教提供证据。

　　单宁谈到，在小学阶段，考察和记录尤为重要，因为它们提供了学生学习内容和进步的证据。考察包括老师的日常观察、学生自我认识、讨论和简单测试等多元方式。记录则涉及到标准化评估、成功标准、学生清单和学生反思等，以确保老师对学生认识的一致性。

　　在测评和报告方面，单宁提到内部评估和外部评估的重要性，包括教研室的评估和学校的单元评估。报告则关注学生的能动性，包括学生、家长和老师之间的三方会谈，学生主导的会议以及成绩报告单，这些都是学生学习历程的呈现。

　　单宁认为，评估不等同于测评，评估是一个包含考察、记录、测评和报告的完整循环，它赋予了学生更多的意义，涉及学生的自我认知、学习过程的分享和反思。

　　据悉，“世界教育前沿论坛”是中国教育三十人论坛创办的一个跨领域的国际教育交流平台，以“引领趋势，开创未来”为宗旨。论坛旨在推动最新教育思想和最新教育模式的国际间交流，推动最新教育科技的应用，实现未来教育的全面发展。论坛每年十月在中国深圳市举行，每届选取最前沿的学习科学问题作为主题。

（文章来源：南方都市报）

Tags:

大模型时代考试

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

AI时代考试测评还有用吗？第七届世界教育前沿论坛热议

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

与1500多支国内外队伍同台竞技，快手在NeurIPS2024顶级大赛中上演双杀

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

热门文章

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

杭州：争夺机器人第一城

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

蒙曼谈人工智能冲击：守住人类对于生活的感受

成立香港仔机器人，国华（00370）按下人工智能转型加速键

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

浩物股份：公司暂未本地部署接入DeepSeek大模型

大消费高低切换加速涨价概念正逐步化身市场暗线