切换到宽版
  • 7阅读
  • 2回复

[智能应用]学术评判中,“AI考官”能被委以重任吗 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
187706
金币
684319
道行
20100
原创
769
奖券
545
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 23871(小时)
注册时间: 2012-06-21
最后登录: 2026-06-11
只看楼主 倒序阅读 楼主  发表于: 昨天 09:19
科技日报记者 张梦然
“AI考官”能评判学术背后的思想重量吗?一项大规模研究,将当前最先进的生成式AI推上了学术评判的席位。
英国剑桥大学领衔的研究团队让Claude、ChatGPT等前沿模型,为来自英国三所大学考试和考核中的761篇本科论文逐一打分。结果显示,AI给出的评分与专家评审授予的学位等级仅仅有约半数相符。更为严峻的是,这些系统在识别优秀的学术成果和薄弱的作业时屡屡失准,暴露出其对语言形式过度敏感、对学术实质把握不足的缺陷。
这份新近发布的报告警示,尽管AI可以在一些阅卷流程中充当辅助工具,但若将其推向前台  独立裁断,不仅可能抹杀学生的个性才华,更将动摇高等教育赖以维系的信任根基。

评分模式“掐头去尾”

这项名为OpRaise的研究由剑桥大学心理学家德博拉·塔尔米博士主持,联合曼彻斯特城市大学、诺丁汉大学共同完成。研究团队选取了2022年至2025年间提交的761篇真实本科论文,涵盖50个模块、87项不同作业,考核形式包括课程作业、开卷居家考试与监考考试。
接受测试的三种前沿大语言模型分别为Anthropic的Claude Opus4.6、OpenAI的GPT-5.4以及谷歌的Gemini 3 Flash。研究团队系统性地从评分标准具体性、校准干预和评分策略三个维度调整指令,甚至为模型提供了完整的评分标准与预期分数分布,并要求其在给分前逐项解释评判依据。即便如此,AI的评分准确率仍徘徊在35%至65%之间。
在三所不同的大学里,AI都表现出明显的“中心倾向偏差”。它们倾向于给所有作业打上安全的中等分数,在50至60分的区间,与人类评分最为接近。一篇被人类专家评为75分(一等学位水平)的优秀论文,AI平均会压低几分;而一篇被评定为50分的薄弱作品,AI反而会慷慨地拔高几分,呈现“掐头去尾”的评分模式。
更注重形式而非“内涵”
人类阅卷,要基于学术推理和学科洞察再作出判断,但AI的评分本质上依赖统计预测。此次所有被测模型,无一例外地对语言特征表现出过度敏感:文章篇幅更长、词汇范围更广、句子结构更复杂,往往就能获得更高分数。至于论证是否严谨、证据是否充分、批判性思维是否到位,则并非其关注核心。换言之,AI更容易被“漂亮的外表”迷惑,很难穿透文字去掂量学术思想的重量。
这种形式重于内容的倾向,带来了同质化风险。研究团队在不同时间用同一篇论文反复测试,AI每次给出的分数几乎纹丝不动。表面上看,这似乎是“一致性高”的优点,实则暴露了这些AI在共享同一种机械逻辑:它们并非在“理解”论文,而是在匹配语言模式。
而当所有模型都呈现相同的评分模式时,学生的个性表达、独特的论证路径、非常规但富有创见的思考,反而可能被忽略。这种偏见的后果,就导致上文所说的,AI在最重要的评估决策之处,准确率最低。
在评语反馈环节,同样存在局限。AI生成的评语篇幅通常是人类的3至8倍,团队于是将AI评语压缩到与人类评语同等长度后,再交由教职工和学生辨别作者身份,结果众人竟难以区分。然而一旦揭晓哪段话出自AI之手,参与者对AI评语的认可度便明显下降。这说明,教师与教师之间、教师与学生之间,那种基于专业默契和学科共同体的理解,仍是AI无法取代的。
人类考官无法被替代
面对日益繁重的阅卷压力,不少高校将AI视为缓解教职工负担的潜在方案。塔尔米博士坦言,大学正承受着削减工作量、提高效率、满足学生期望的多重压力,一些机构已开始考虑让AI承担评估职责。机器或许确实能分担部分劳动密集型的阅卷工作,让教师腾出更多时间直接指导学生。但这份题为《AI大学评估中的应用:评估自动评分的机遇与风险》的报告强调,最终成绩必须始终由人类裁定,AI至多只能充当“第二双眼睛”,用于错误检测、一致性检查,或是标记出AI评分与人工评分差异显著的作业,提请人类重点复核。
学术评估的意义,远不止于技术层面的打分。塔尔米博士指出,评估是构建教育意义的过程,它让学生感到被重视,维护学术标准,维系师生之间的信任。
曼彻斯特城市大学的报告合著者雅埃尔·本恩博士补充道,许多学生明确表示,若得知作业由AI打分,会产生强烈的被欺骗感;教职员工也认为,过度依赖机器可能侵蚀到专业判断,并“抽走”了高等教育作为核心的人性化。师生之间围绕评分与反馈形成的默契与期待,本质上是一种“社会契约”,它的存续有赖于人对人的认可与回应。
这份报告并没有否定AI在教育领域的价值,而是为其划定了清晰的边界:AI绝不能取代“考官席”上的那双受过专业训练的眼睛。在学术质量的裁断场,人类的推理、经验与责任感,至今仍是无法被算法替代的最后防线。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
187706
金币
684319
道行
20100
原创
769
奖券
545
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 23871(小时)
注册时间: 2012-06-21
最后登录: 2026-06-11
只看该作者 沙发  发表于: 昨天 09:21
在学术评判中,AI考官目前难以独立承担核心评判重任,但可在辅助环节发挥有限作用。现有研究、行业实践及学术界的争议,从多维度揭示了AI在学术评判中的局限性与风险:

一、核心缺陷:AI无法精准把握学术实质
评分准确率远低于人类专家
剑桥大学主导的“OpRaise”研究测试了Claude Opus4.6、GPT-5.4、Gemini3Flash三大前沿模型,结果显示:即使提供完整评分标准,AI对真实本科论文的评分准确率仅35%-65%,与人类专家评审的匹配度不足半数。更关键的是,AI对“语言形式”过度敏感(如篇幅、词汇复杂度),却难以判断论证严谨性、批判性思维等学术核心要素,容易因“漂亮的外表”误判低质量成果


机械逻辑导致“同质化评判”
AI的评分依赖模式匹配而非真正理解,同一篇论文反复测试会得到完全一致的分数,无法识别学生个性化的创新表达或非常规但具创见的思考,反而可能压制学术多样性


二、现实风险:动摇学术信任与公平性
学术不端“技术漏洞”频发
部分学者通过添加隐藏提示词引导AI审稿工具给出正面评价,甚至出现“AI考官”给AI生成论文高分、却给人类原创论文低分的荒诞案例(如某985高校学生独立完成论文,AI检测率却高达76%),暴露了AI评判的不可靠性


学术生态信任危机
《自然》杂志指出,若AI充斥同行评审环节,将破坏学术共同体的信任根基——评审的核心是“专业判断与责任担当”,而AI无法对评审结果负责,一旦误判将导致学术资源的错配与学术价值的扭曲


三、行业现状:明确限制AI的“主角”地位
主流期刊禁止或严格限制AI评审
国内多家权威期刊(如《数量经济技术经济研究》《重庆邮电大学学报》)明确禁止审稿人使用公开AI平台评审论文;部分期刊(如《风景园林》《中国临床医学》)要求若使用AI辅助,需公开工具名称、说明生成内容,并由审稿人对最终结论负全责


高校AIGC检测的“形式化困境”
多所高校将AI检测率作为毕业硬性指标,但检测系统存在明显漏洞:规范的专业表述、固定句式(如“首先”“综上所述”)常被误判为AI生成,导致学生被迫“改写大白话”以通过检测,反而扭曲了学术表达的规范性


四、合理定位:AI可作为“辅助工具”而非“裁判”
AI在学术评判中的价值,应局限于流程优化与数据辅助:

效率提升:快速完成格式审查、基础语法纠错、文献重复率初筛等机械性工作,释放人力聚焦核心学术判断;
数据支持:分析学生长期学习轨迹,为教师提供个性化辅导建议,或辅助识别潜在的学术不端模式(需结合人工复核);
教学反馈:生成结构化的论文改进建议(如逻辑漏洞、证据不足),帮助学生明确提升方向,而非直接给出“通过/不通过”的结论。
结论
学术评判的本质是对人类思想深度、创新性与严谨性的价值判断,这需要基于学科知识、研究经验与伦理责任的综合考量,而AI的“统计预测”逻辑无法替代人类的“专业洞察”。未来,AI或可成为学术评判的“助手”,但“考官”的核心角色,仍需由人类专家坚守。
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
256461
金币
980454
道行
2006
原创
2473
奖券
3665
斑龄
46
道券
1615
获奖
0
座驾
设备
摄影级
在线时间: 53264(小时)
注册时间: 2008-10-01
最后登录: 2026-06-11
只看该作者 板凳  发表于: 昨天 10:50
剑桥大规模研究警示:AI难以评判学术思想,绝不可独立担任学术考官
《科技日报》编译剑桥大学领衔OpRaise专项研究,以761篇本科真实论文实测Claude、GPT、Gemini顶尖大模型,证实生成式AI存在难以根治的评分缺陷,明确划定AI在学术评价中的能力边界——仅可作辅助工具,无法替代人类教师完成独立评分裁定。

一、研究基础:全场景、多顶尖模型的大规模实测
1. 样本与范围
剑桥大学心理学家德博拉·塔尔米牵头,联合曼彻斯特城市大学、诺丁汉大学,选取2022—2025年761篇本科论文,覆盖50个课程模块、87类作业,包含课堂作业、居家开卷考试、线下监考试卷,贴合高校完整考核场景。
2. 测试模型
当前主流顶尖大模型:Claude Opus4.6、GPT-5.4、Gemini 3 Flash;
团队提供完整官方评分细则、分数区间参考,并强制AI逐条输出打分理由,穷尽指令优化手段,但评分准确率依旧仅35%—65%,和人类专家定级匹配度不足一半。

二、AI阅卷两大核心致命缺陷
1. 中心倾向偏差:打分“掐头去尾”,区分度严重缺失
所有被测模型统一出现中庸化打分倾向,集中落在50—60分中等区间:
- 高质量一等论文(人类75分左右):AI普遍压低分数,埋没优质创新成果;
- 逻辑薄弱、论证空洞的低分作业:AI反而抬分,掩盖学术短板。
AI无法精准区分顶尖佳作与不合格作业,而筛选优劣、划分学位等级恰恰是学术考核最核心目标,直接导致关键评级决策大面积失准。

2. 重语言形式、轻学术内核,看不懂思想深度
人类阅卷以论证逻辑、证据支撑、批判性思维、学科原创见解为核心标尺;
AI仅依靠文本语言统计学特征判断,过度看重篇幅长短、生僻词汇、复杂长句:文字包装越华丽,得分越高,完全忽略文章内在学术价值。
配套衍生两大问题:
1. 机械同质化:同一篇论文多次复测,AI分数几乎无波动,看似稳定,本质是只会匹配固定语言模板,不存在真正“理解”;独特、非常规但具备创新性的思考会被算法忽视;
2. 反馈缺少专业温度
AI评语篇幅是人工的3—8倍,压缩至同等长度后虽难以直观分辨,但师生知晓来源后,对AI评语认可度大幅下滑。学科圈层长期形成的专业共识、针对性人文指导、个性化点拨,是算法无法复刻的。

三、高校想用AI减负的现实矛盾与伦理风险
当下高校普遍面临阅卷任务繁重、师资人力紧张的压力,不少院校试图引入AI全权承担评分工作,但研究指出多重深层隐患:
1. 学生心理与公平问题
大量受访学生表示,若作业由AI独立打分,会产生强烈的不被尊重、被欺骗感;标准化算法抹平学生个体思考差异,扼杀个性化学术表达。
2. 动摇高等教育底层信任
学术评价不只是简单打分,更是师生间的“社会契约”:人工反馈传递专业认可、明确成长方向,维系学术标准与教育信任。完全依赖AI会消解教师专业判断力,抽离高等教育的人文内核。

四、研究给出明确定位:AI仅限辅助,人类掌握最终裁决权
报告并未否定AI教育价值,而是严格划分使用边界:
AI可承担的辅助工作
1. 批量筛查客观格式错误、文本规范问题;
2. 校验多份作业打分一致性,缩小人工阅卷主观偏差;
3. 快速标记AI打分与教师分差极大的试卷,推送教师重点复核;
4. 基础文字润色、文献格式整理等机械化劳动,解放教师精力,将时间留给针对性教学指导。

绝对禁止:AI独立担任考官、自主决定最终成绩
塔尔米团队强调:学术质量评判的核心——人类专业学科洞察、辩证推理、价值判断与教育责任,是现阶段所有生成式AI无法逾越的壁垒。在学位评定、课程结业考核等关键学术裁断场景,经过专业训练的人类教师,仍是不可替代的最终防线。

五、延伸现实启示
结合当下国内校园AI工具普及趋势,该研究具备极强参考意义:
1. 日常作业可用AI做初稿自查,但期中、期末、毕业论文等高权重考核,必须坚持人工终审;
2. 不能单纯追求阅卷效率而牺牲学术评价公平性,算法中庸偏差会造成优等生吃亏、劣质作业被宽容的系统性不公;
3. AI适合做“教学助手”,而非“考核判官”,教育的人文属性、思想价值评判,不能交由无自主认知的大模型完成。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个