AI参加中国高考：“语数外”最高分303、数学全不及格

By 纽约侨报网· 2024年06月20日 01:43

0:00/0:00

侨报网综合讯 中国高考覆盖各类学科及题型，这一综合性测试目前普遍被研究者用于考察大模型的智能水平。今年高考结束后，上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”（语文、数学、英语）全卷能力测试。OpenCompass19日发布了首个大模型高考全卷评测结果。

18日，在人工智能与人形机器人前沿论坛活动现场展示的人形机器人小飞。（图片来源：新华社）

上海第一财经网报道，“语数外”三科满分为420分，此次高考测试结果显示，阿里通义千问2-72B排名第一，为303分，OpenAI的GPT-4o排名第二，得分296分，上海人工智能实验室的书生·浦语2.0排名第三，3个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格，最高分也只有75分，来自书生·浦语2.0，其次是GPT-4o，得分73分。语文最高分是通义千问，英语最高分是GPT-4o。

值得注意的是，大模型犯错误的方式和人类考生有差异，从实践上来看阅卷老师们不完全适应给大模型评分，因此存在有题目误判的可能。

北京新京报网报道，在大模型这一新事物面世初期，不少网民用开源的大模型去测试一些简单数学题，发现很多答案并不准确。与自然语言理解不同，大型语言模型在解决算术推理任务时性能欠佳。

中国社科院新闻与传播研究所所长胡正荣指出，大模型虽然是语言模型，但这个语言不是人们通常理解的字面意思，音频、解题等都是大模型可以做的。

他提到，数据是大模型最基本的要素之一，如果要让大模型解题精准，那么训练大模型的数据量需要足够大。“正确率的差别，一方面是因为输入的数据量的差别造成的。”之所以大模型解数学题会出错、没有达到理想效果，就是因为训练的题库不够大，数据量越大、质量越高，精准度就会越好。

另一方面，胡正荣也强调了算法的重要性。“如果大模型的算法不够聪明，不是真正的数学思维，也会影响到答题的正确率”。

相关阅读：

“金”钥匙、“钢的书”……中国高校录取通知书花样上新

2024年高考作文题，来了！

各国“高考”：日本“浪人”出没，最难考试在印度？

如果穿越回高考前一夜，你会做什么？

AI能写高考作文了，人类为何仍需要写作？

注：凡新西兰中文先驱网引用、摘录或转自其他媒体的作品，本网对其观点、真实性和知识产权恕不负责。新西兰中文先驱网致力于帮助文章传播，希望能够与作者建立长期合作关系。若有任何问题请联系[email protected]。

AI参加中国高考：“语数外”最高分303、数学全不及格

相关新闻

相关内容