7阅读
2回复

[智能应用]学术评判中，“AI考官”能被委以重任吗 [复制链接]

上一主题下一主题查看指定楼层

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 187706

金币: 684319

道行: 20100

原创: 769

奖券: 545

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 23871(小时)
注册时间: 2012-06-21
最后登录: 2026-06-11

只看楼主倒序阅读楼主发表于: 昨天 09:19

科技日报记者张梦然
“AI考官”能评判学术背后的思想重量吗？一项大规模研究，将当前最先进的生成式AI推上了学术评判的席位。
英国剑桥大学领衔的研究团队让Claude、ChatGPT等前沿模型，为来自英国三所大学考试和考核中的761篇本科论文逐一打分。结果显示，AI给出的评分与专家评审授予的学位等级仅仅有约半数相符。更为严峻的是，这些系统在识别优秀的学术成果和薄弱的作业时屡屡失准，暴露出其对语言形式过度敏感、对学术实质把握不足的缺陷。
这份新近发布的报告警示，尽管AI可以在一些阅卷流程中充当辅助工具，但若将其推向前台独立裁断，不仅可能抹杀学生的个性才华，更将动摇高等教育赖以维系的信任根基。

评分模式“掐头去尾”

这项名为OpRaise的研究由剑桥大学心理学家德博拉·塔尔米博士主持，联合曼彻斯特城市大学、诺丁汉大学共同完成。研究团队选取了2022年至2025年间提交的761篇真实本科论文，涵盖50个模块、87项不同作业，考核形式包括课程作业、开卷居家考试与监考考试。
接受测试的三种前沿大语言模型分别为Anthropic的Claude Opus4.6、OpenAI的GPT-5.4以及谷歌的Gemini 3 Flash。研究团队系统性地从评分标准具体性、校准干预和评分策略三个维度调整指令，甚至为模型提供了完整的评分标准与预期分数分布，并要求其在给分前逐项解释评判依据。即便如此，AI的评分准确率仍徘徊在35%至65%之间。
在三所不同的大学里，AI都表现出明显的“中心倾向偏差”。它们倾向于给所有作业打上安全的中等分数，在50至60分的区间，与人类评分最为接近。一篇被人类专家评为75分（一等学位水平）的优秀论文，AI平均会压低几分；而一篇被评定为50分的薄弱作品，AI反而会慷慨地拔高几分，呈现“掐头去尾”的评分模式。
更注重形式而非“内涵”
人类阅卷，要基于学术推理和学科洞察再作出判断，但AI的评分本质上依赖统计预测。此次所有被测模型，无一例外地对语言特征表现出过度敏感：文章篇幅更长、词汇范围更广、句子结构更复杂，往往就能获得更高分数。至于论证是否严谨、证据是否充分、批判性思维是否到位，则并非其关注核心。换言之，AI更容易被“漂亮的外表”迷惑，很难穿透文字去掂量学术思想的重量。
这种形式重于内容的倾向，带来了同质化风险。研究团队在不同时间用同一篇论文反复测试，AI每次给出的分数几乎纹丝不动。表面上看，这似乎是“一致性高”的优点，实则暴露了这些AI在共享同一种机械逻辑：它们并非在“理解”论文，而是在匹配语言模式。
而当所有模型都呈现相同的评分模式时，学生的个性表达、独特的论证路径、非常规但富有创见的思考，反而可能被忽略。这种偏见的后果，就导致上文所说的，AI在最重要的评估决策之处，准确率最低。
在评语反馈环节，同样存在局限。AI生成的评语篇幅通常是人类的3至8倍，团队于是将AI评语压缩到与人类评语同等长度后，再交由教职工和学生辨别作者身份，结果众人竟难以区分。然而一旦揭晓哪段话出自AI之手，参与者对AI评语的认可度便明显下降。这说明，教师与教师之间、教师与学生之间，那种基于专业默契和学科共同体的理解，仍是AI无法取代的。
人类考官无法被替代
面对日益繁重的阅卷压力，不少高校将AI视为缓解教职工负担的潜在方案。塔尔米博士坦言，大学正承受着削减工作量、提高效率、满足学生期望的多重压力，一些机构已开始考虑让AI承担评估职责。机器或许确实能分担部分劳动密集型的阅卷工作，让教师腾出更多时间直接指导学生。但这份题为《AI大学评估中的应用：评估自动评分的机遇与风险》的报告强调，最终成绩必须始终由人类裁定，AI至多只能充当“第二双眼睛”，用于错误检测、一致性检查，或是标记出AI评分与人工评分差异显著的作业，提请人类重点复核。
学术评估的意义，远不止于技术层面的打分。塔尔米博士指出，评估是构建教育意义的过程，它让学生感到被重视，维护学术标准，维系师生之间的信任。
曼彻斯特城市大学的报告合著者雅埃尔·本恩博士补充道，许多学生明确表示，若得知作业由AI打分，会产生强烈的被欺骗感；教职员工也认为，过度依赖机器可能侵蚀到专业判断，并“抽走”了高等教育作为核心的人性化。师生之间围绕评分与反馈形成的默契与期待，本质上是一种“社会契约”，它的存续有赖于人对人的认可与回应。
这份报告并没有否定AI在教育领域的价值，而是为其划定了清晰的边界：AI绝不能取代“考官席”上的那双受过专业训练的眼睛。在学术质量的裁断场，人类的推理、经验与责任感，至今仍是无法被算法替代的最后防线。

山庄提示：道行不够，道券不够？---☆点此充值☆

我有我可以

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 187706

金币: 684319

道行: 20100

原创: 769

奖券: 545

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 23871(小时)
注册时间: 2012-06-21
最后登录: 2026-06-11

只看该作者沙发发表于: 昨天 09:21

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

在学术评判中，AI考官目前难以独立承担核心评判重任，但可在辅助环节发挥有限作用。现有研究、行业实践及学术界的争议，从多维度揭示了AI在学术评判中的局限性与风险：

一、核心缺陷：AI无法精准把握学术实质
评分准确率远低于人类专家
剑桥大学主导的“OpRaise”研究测试了Claude Opus4.6、GPT-5.4、Gemini3Flash三大前沿模型，结果显示：即使提供完整评分标准，AI对真实本科论文的评分准确率仅35%-65%，与人类专家评审的匹配度不足半数。更关键的是，AI对“语言形式”过度敏感（如篇幅、词汇复杂度），却难以判断论证严谨性、批判性思维等学术核心要素，容易因“漂亮的外表”误判低质量成果
。

机械逻辑导致“同质化评判”
AI的评分依赖模式匹配而非真正理解，同一篇论文反复测试会得到完全一致的分数，无法识别学生个性化的创新表达或非常规但具创见的思考，反而可能压制学术多样性
。

二、现实风险：动摇学术信任与公平性
学术不端“技术漏洞”频发
部分学者通过添加隐藏提示词引导AI审稿工具给出正面评价，甚至出现“AI考官”给AI生成论文高分、却给人类原创论文低分的荒诞案例（如某985高校学生独立完成论文，AI检测率却高达76%），暴露了AI评判的不可靠性
。

学术生态信任危机
《自然》杂志指出，若AI充斥同行评审环节，将破坏学术共同体的信任根基——评审的核心是“专业判断与责任担当”，而AI无法对评审结果负责，一旦误判将导致学术资源的错配与学术价值的扭曲
。

三、行业现状：明确限制AI的“主角”地位
主流期刊禁止或严格限制AI评审
国内多家权威期刊（如《数量经济技术经济研究》《重庆邮电大学学报》）明确禁止审稿人使用公开AI平台评审论文；部分期刊（如《风景园林》《中国临床医学》）要求若使用AI辅助，需公开工具名称、说明生成内容，并由审稿人对最终结论负全责
。

高校AIGC检测的“形式化困境”
多所高校将AI检测率作为毕业硬性指标，但检测系统存在明显漏洞：规范的专业表述、固定句式（如“首先”“综上所述”）常被误判为AI生成，导致学生被迫“改写大白话”以通过检测，反而扭曲了学术表达的规范性
。

四、合理定位：AI可作为“辅助工具”而非“裁判”
AI在学术评判中的价值，应局限于流程优化与数据辅助：

效率提升：快速完成格式审查、基础语法纠错、文献重复率初筛等机械性工作，释放人力聚焦核心学术判断；
数据支持：分析学生长期学习轨迹，为教师提供个性化辅导建议，或辅助识别潜在的学术不端模式（需结合人工复核）；
教学反馈：生成结构化的论文改进建议（如逻辑漏洞、证据不足），帮助学生明确提升方向，而非直接给出“通过/不通过”的结论。
结论
学术评判的本质是对人类思想深度、创新性与严谨性的价值判断，这需要基于学科知识、研究经验与伦理责任的综合考量，而AI的“统计预测”逻辑无法替代人类的“专业洞察”。未来，AI或可成为学术评判的“助手”，但“考官”的核心角色，仍需由人类专家坚守。

如何不发帖就快速得到金币和道行

我有我可以

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 256461

金币: 980454

道行: 2006

原创: 2473

奖券: 3665

斑龄: 46

道券: 1615

获奖: 0

座驾

设备

摄影级

在线时间: 53264(小时)
注册时间: 2008-10-01
最后登录: 2026-06-11

只看该作者板凳发表于: 昨天 10:50

剑桥大规模研究警示：AI难以评判学术思想，绝不可独立担任学术考官
《科技日报》编译剑桥大学领衔OpRaise专项研究，以761篇本科真实论文实测Claude、GPT、Gemini顶尖大模型，证实生成式AI存在难以根治的评分缺陷，明确划定AI在学术评价中的能力边界——仅可作辅助工具，无法替代人类教师完成独立评分裁定。

一、研究基础：全场景、多顶尖模型的大规模实测
1. 样本与范围
剑桥大学心理学家德博拉·塔尔米牵头，联合曼彻斯特城市大学、诺丁汉大学，选取2022—2025年761篇本科论文，覆盖50个课程模块、87类作业，包含课堂作业、居家开卷考试、线下监考试卷，贴合高校完整考核场景。
2. 测试模型
当前主流顶尖大模型：Claude Opus4.6、GPT-5.4、Gemini 3 Flash；
团队提供完整官方评分细则、分数区间参考，并强制AI逐条输出打分理由，穷尽指令优化手段，但评分准确率依旧仅35%—65%，和人类专家定级匹配度不足一半。

二、AI阅卷两大核心致命缺陷
1. 中心倾向偏差：打分“掐头去尾”，区分度严重缺失
所有被测模型统一出现中庸化打分倾向，集中落在50—60分中等区间：
- 高质量一等论文（人类75分左右）：AI普遍压低分数，埋没优质创新成果；
- 逻辑薄弱、论证空洞的低分作业：AI反而抬分，掩盖学术短板。
AI无法精准区分顶尖佳作与不合格作业，而筛选优劣、划分学位等级恰恰是学术考核最核心目标，直接导致关键评级决策大面积失准。

2. 重语言形式、轻学术内核，看不懂思想深度
人类阅卷以论证逻辑、证据支撑、批判性思维、学科原创见解为核心标尺；
AI仅依靠文本语言统计学特征判断，过度看重篇幅长短、生僻词汇、复杂长句：文字包装越华丽，得分越高，完全忽略文章内在学术价值。
配套衍生两大问题：
1. 机械同质化：同一篇论文多次复测，AI分数几乎无波动，看似稳定，本质是只会匹配固定语言模板，不存在真正“理解”；独特、非常规但具备创新性的思考会被算法忽视；
2. 反馈缺少专业温度
AI评语篇幅是人工的3—8倍，压缩至同等长度后虽难以直观分辨，但师生知晓来源后，对AI评语认可度大幅下滑。学科圈层长期形成的专业共识、针对性人文指导、个性化点拨，是算法无法复刻的。

三、高校想用AI减负的现实矛盾与伦理风险
当下高校普遍面临阅卷任务繁重、师资人力紧张的压力，不少院校试图引入AI全权承担评分工作，但研究指出多重深层隐患：
1. 学生心理与公平问题
大量受访学生表示，若作业由AI独立打分，会产生强烈的不被尊重、被欺骗感；标准化算法抹平学生个体思考差异，扼杀个性化学术表达。
2. 动摇高等教育底层信任
学术评价不只是简单打分，更是师生间的“社会契约”：人工反馈传递专业认可、明确成长方向，维系学术标准与教育信任。完全依赖AI会消解教师专业判断力，抽离高等教育的人文内核。

四、研究给出明确定位：AI仅限辅助，人类掌握最终裁决权
报告并未否定AI教育价值，而是严格划分使用边界：
AI可承担的辅助工作
1. 批量筛查客观格式错误、文本规范问题；
2. 校验多份作业打分一致性，缩小人工阅卷主观偏差；
3. 快速标记AI打分与教师分差极大的试卷，推送教师重点复核；
4. 基础文字润色、文献格式整理等机械化劳动，解放教师精力，将时间留给针对性教学指导。

绝对禁止：AI独立担任考官、自主决定最终成绩
塔尔米团队强调：学术质量评判的核心——人类专业学科洞察、辩证推理、价值判断与教育责任，是现阶段所有生成式AI无法逾越的壁垒。在学位评定、课程结业考核等关键学术裁断场景，经过专业训练的人类教师，仍是不可替代的最终防线。

五、延伸现实启示
结合当下国内校园AI工具普及趋势，该研究具备极强参考意义：
1. 日常作业可用AI做初稿自查，但期中、期末、毕业论文等高权重考核，必须坚持人工终审；
2. 不能单纯追求阅卷效率而牺牲学术评价公平性，算法中庸偏差会造成优等生吃亏、劣质作业被宽容的系统性不公；
3. AI适合做“教学助手”，而非“考核判官”，教育的人文属性、思想价值评判，不能交由无自主认知的大模型完成。

如何不发帖就快速得到金币和道行

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]学术评判中，“AI考官”能被委以重任吗 [复制链接]