
AI参加中国高考:“语数外”最高分303、数学全不及格
By 纽约侨报网· 2024年06月20日 01:43
侨报网综合讯 中国高考覆盖各类学科及题型,这一综合性测试目前普遍被研究者用于考察大模型的智能水平。今年高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”(语文、数学、英语)全卷能力测试。OpenCompass19日发布了首个大模型高考全卷评测结果。
上海第一财经网报道,“语数外”三科满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,3个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。
从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分,来自书生·浦语2.0,其次是GPT-4o,得分73分。语文最高分是通义千问,英语最高分是GPT-4o。
值得注意的是,大模型犯错误的方式和人类考生有差异,从实践上来看阅卷老师们不完全适应给大模型评分,因此存在有题目误判的可能。
北京新京报网报道,在大模型这一新事物面世初期,不少网民用开源的大模型去测试一些简单数学题,发现很多答案并不准确。与自然语言理解不同,大型语言模型在解决算术推理任务时性能欠佳。
中国社科院新闻与传播研究所所长胡正荣指出,大模型虽然是语言模型,但这个语言不是人们通常理解的字面意思,音频、解题等都是大模型可以做的。
他提到,数据是大模型最基本的要素之一,如果要让大模型解题精准,那么训练大模型的数据量需要足够大。“正确率的差别,一方面是因为输入的数据量的差别造成的。”之所以大模型解数学题会出错、没有达到理想效果,就是因为训练的题库不够大,数据量越大、质量越高,精准度就会越好。
另一方面,胡正荣也强调了算法的重要性。“如果大模型的算法不够聪明,不是真正的数学思维,也会影响到答题的正确率”。
相关阅读:
注:凡新西兰中文先驱网引用、摘录或转自其他媒体的作品, 本网对其观点、真实性和知识产权恕不负责。新西兰中文先驱网致力于帮助文章传播,希望能够与作者建立长期合作关系。 若有任何问题请联系[email protected]。
chineseherald.co.nz All Rights Reserved 版权所有
chineseherald.co.nz All Rights Reserved 版权所有












