在应对人工智能引发的学术诚信挑战时,纽约大学一位教授尝试了一种新颖的教学评估方式。他在“ai/ml 产品管理”这门课程中开展了一次基于人工智能的口试实践,该尝试不仅暴露出学生知识掌握中的薄弱环节,也促使教师反思自身教学设计的有效性。授课教师 panos ipeirotis 与联合讲师 konstantinos rizakos 观察到:不少提交出结构严谨、内容详实书面报告的学生,在面对即时口头问答时,却难以准确阐述其项目中关键建模选择背后的逻辑依据。
为突破传统纸笔考核在能力验证上的局限,两位教师构建了一套 AI 驱动的口试系统,核心语音交互模块采用 ElevenLabs 提供的 AI 语音代理技术。整场口试分为两个阶段:第一阶段由 AI 主动提问,涵盖学生最终项目的整体目标设定、所用数据来源与处理方式、模型选型依据、性能评估策略以及常见失效场景分析等内容;第二阶段则随机抽取课程中某一真实商业案例,要求学生即兴展开分析与回应。全部36名学生在九天内陆续完成测试,单场平均用时约25分钟,整套方案总支出仅为15美元,折合每名学生成本低至42美分。
尽管初版 AI 口试在实际运行中暴露出若干待优化点——例如部分学生反馈 AI 语气略显生硬、偶有连续抛出多个问题造成理解负担、对话节奏不够自然等——但经过数轮参数调优与提示词重构后,AI 的交互体验与响应质量明显提升。评分机制方面,研究团队引入多模型协同评估策略,由 Claude、Gemini 和 ChatGPT 三款主流大模型分别独立打分;初期各模型间评分差异较大,但在实施交叉复核与一致性校准流程后,最终评分结果的可信度与稳定性显著增强。

尽管超六成学生表示 AI 口试带来的心理压力高于传统笔试,但高达70% 的参与者认可该形式更能真实反映其对知识的内化程度与应用能力。Ipeirotis 教授强调,正是得益于当前 AI 技术的成熟与可及性,规模化、低成本、高效率的个性化口试才真正从构想走向落地;而学生亦可通过反复模拟与 AI 对话的过程,持续锤炼表达逻辑、强化概念理解,并逐步适应人机协同的新学习范式。
源码地址:点击下载










