ramy  2019-04-15 14:32:56  应用程序 |   查看评论   

为了挽救在“抛家弃子”边缘疯狂试探的家长们,不少K12教育平台与时俱进,相继将人工智能加入了数学辅导豪华服务套餐。

 

在各种新闻中,AI数学老师的画风往往是这样的:

 

羞辱学渣——只用10分钟作答2017高考数学全国II卷,拿下100分(总分150分), “蒙题”都没这么快;

 

碾压学霸——在日本的大学入学标准考试、SAT等各国“高考”中拿到了超过平均分的成绩,向状元挺近;

 

取代人类教师——可以依据人为输入的打分条件,对照答案,在瞬间判断正误。效率比人类判卷老师高出好几个指数级不说,失误率也更低。

 

想必令不少家长都心动了吧。在这里,我们要扫兴地说出一个真相——即使是目前最先进的人工智能系统,数学水平恐怕连高中生都比不上。

 

DeepMind亲自打脸:AI是个数学渣?

 

这年头,靠AI判卷打分已经不是什么新鲜事了,给张标准答案小学生都能干。但靠AI教做数学题,就很有技术含量了,考验的则是阅读、推理、计算、逻辑等等综合能力,最起码也得是个“新西方”名师上阵吧。

 

如果用后者的课时费,请小学生来帮辅导作业,显然大家都会认为是开玩笑。但要是把小学生换成AI,反而令家长们“不明觉厉”喜掏腰包了。

 

不过,DeepMind的最新研究结果表明,即使是目前最先进的AI系统,做起数学题来连普通高中生都比不过,是不是有点幻灭?

DeepMind新成果:让AI做了200万道数学题,结果堪忧

事情是这样的,DeepMind参考英国16岁学龄儿童的数学考试,为AI(深度神经网络)打造了一个包含200万道题目的题库,涵盖了算术、代数、概率、微积分等各种题型,并派出了循环神经网络 (RNN) 和Transformer两位当下性能最先进的模型参与测试。

 

结果发现,除了四舍五入、加减法、比较大小、数字排序等等简单问题之外,在一些涉及因式分解、混合计算之类的高级题目上,AI的表现都不如人类高中生,连及格线都没达到。

 

到底咋回事,看看它们是怎么做题的就知道了。

 

LSTM和Transformer架构都包含一个编码器和解码器。不过在具体运算逻辑上,LSTM会将问题编码为一系列由键和数值代表的具体位置(41+132),然后解码器将下一个字符预测并映射出来(173)。

 

由于有注意力机制的参与,LSTM能够预先处理一些逻辑上需要先完成的对象,比如知道在计算8 /(1 + 3)时,应该先算出(1 + 3),这已经有点接近人类进行运算时的推理步骤了。

DeepMind新成果:让AI做了200万道数学题,结果堪忧

Transformer的不同之处在于,它的编码器能够把数学题转换成一个长度相同的序列, 然后通过注意力机制与位置完全连接的层嵌入任意数学表达式,然后进行转换。

 

这样做的好处是,Transformer能够使用相同数量的参数进行更多的计算(改变嵌入函数就可以了),同时拥有了连续的“内部记忆”,在处理包含多层级、关联性的混合运算时更有优势,能够在更长的序列上给出正确答案。

 

计算方式搞清楚了,那么两位模型的最终成绩如何呢?

 

答案是,非常惨。Transformer模型只答对了14/40个问题,也就相当于E级水平。相比之下LSTM的分数就更惨不忍睹了,放在人类学生身上绝对是要被叫家长的节奏。

DeepMind新成果:让AI做了200万道数学题,结果堪忧

(图为各个模型处理的参数规模和平均正确率)

  
 

除特别注明外,本站所有文章均为 人工智能学习网 原创,转载请注明出处来自DeepMind新成果:让AI做了200万道数学题,结果堪忧

留言与评论(共有 0 条评论)
   
验证码: