MathGPT专攻解题讲题数学大模型分析

发布时间 2023-08-25 05:02:25作者: 吴建明wujianming

MathGPT专攻解题讲题数学大模型分析

MathGPT来了!专攻数学大模型,解题讲题两手抓

大模型领域又来新玩家。

据了解,学而思正在进行自研数学大模型的研发,命名为MathGPT

面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心。

目前已经取得阶段性成果,并将于年内推出基于该自研大模型的产品级应用。

据悉,学而思已将MathGPT作为公司核心项目,由CTO田密负责。

今年春节前,该项目已经启动相应的团队建设、数据、算力准备和技术研发。

此外,学而思已经启动在美国硅谷的团队建设,将成立一支海外算法和工程团队,在全球范围内招募优秀的人工智能专家加入。

MathGPT与大语言模型(LLM)的差异

OpenAI在今年三月份发布了大语言模型GPT-4,国内百度、阿里也发布了各自的大模型产品,但通用语言模型更像一个“文科生”,在语言翻译、摘要、理解和生成等任务上有出色表现,在数学问题的解决、讲解、问答和推荐方面则存在明显不足:

解答数学问题经常出错,有些数学问题虽然能够解决,但方法更偏成年人,无法针对适龄孩子的知识结构和认知水平做适配

“这种不足是由LLM模型的自身特点决定的。”

学而思AI团队负责人介绍,LLM大模型来自对海量语言文本的训练,因此最擅长语言处理。

行业内偏向基于LLM大模型做阅读、写作类应用,但如果想要在数学能力上有突破,就需要研发新的大模型。

因此,学而思决心组建团队专研MathGPT——数学领域大模型,用自己在数学和AI上的多年积累,面向全球范围内的数学爱好者和科研机构,做好AI大模型时代的数学基础工作。

学而思希望通过MathGPT弥补和攻克大语言模型的三个问题

第一,题目要解对,现在GPT结果经常出现错误;

第二,解题步骤要稳定、清晰,现在GPT的解题步骤每次都不一样,而且生成内容经常很冗余;

第三,解题要讲的有趣、个性化,现在GPT的解释过于“学术”和机械,对孩子的学习体验很不友好。

为了实现这些目标,MathGPT将结合大语言模型计算引擎两者的能力,大语言模型负责理解题目、分步解析,并在合适的步骤自行调用计算引擎,这样能提高题目解答正确率。

基于海量名师解题过程的数据进行模型训练,模型的解题步骤可以更加清晰。

再引入优秀老师的教学理念和方法,模型在解题趣味性上也能进一步提高。

据透露,MathGPT将先从中小学数学做起,逐步覆盖全年龄学段和解题种类。

做MathGPT,学而思凭什么

学而思作为获国家科技部批准的“智慧教育国家新一代人工智能开放创新平台”建设单位,也是教育行业首批唯一一家人工智能“国家队”成员,在人工智能领域有着多年的深入研究。

早在2017年,学而思便成立了AI lab 人工智能实验室

据公开信息显示,基于智慧教育人工智能开放创新平台助力,学而思AI lab获得各类顶级学术会议比赛冠军16项,亚军6项;

发表国际期刊和会议高水平学术论文31篇,包含光学字符识别、图像、自然语言处理、语音以及多模态等多领域的学术研究,在计算机视觉顶会以及自然语言顶会中均有多篇论文发表;

申请专利220余项,授权专利150余项,软件著作权60余项。

 学而思AI lab在各类顶级学术会议比赛获奖情况

“以数学起家”的学而思至今已有20年的数学教学经验,积累了庞大的数学相关数据,这些数据是进行MathGPT训练的必备物料。

另外,学而思的海外业务Think Academy在全球若干国家和地区深受数学爱好者喜欢,学而思的学生在每年的IMO和AMC等国际数学竞赛中表现优异,每年都有多位学生在国际奥林匹克数学竞赛中拿到金牌。

所以,学而思选择在MathGPT方向发力也顺理成章。

今年2月,学而思学习机上线AI讲题机器人小π。

据了解,小π研发已有数年积累,研发方向主要为数学等领域的AI智能讲题能力,核心优势在于数理逻辑和运算。

在实测中,当学而思学习机用户配套的AR镜识别到一道手写或者印刷的数学计算题时,小π机器人会对题目进行智能AI拆解分析,同时生成逻辑流畅、表达清晰的语言,将题目的解题方法讲解出来。

该功能已覆盖的题目包括分数、小数等复杂计算,甚至一些“凑数、组合”的巧妙算法,已十分接近真人老师的解题效果。

 同一道数学题目在ChatGPT(上)和小π(下)的解答对比

小π相关技术于2020年启动研发,以学而思超3亿的专业题库数据作为基础,经过了3年的数据训练和打磨迭代。

另据了解,学而思学习机近期将会上线一款“AI助手”,涵盖作文助手、口语助手、阅读助手、数学助手等相关功能,该AI产品将于5月11日开启内测。

MathGPT的挑战和技术难题

如何利用大语言模型服务各行各业是当下社会的焦点问题。

大模型的出现是对生产力和生产关系的改变,各行各业都会受到影响,并会在大模型的助力下完成转型升级。

教育行业和大模型有着天然的契合点。教育也是通过交流,把知识和信息传递给学生,大模型会让教育行业的数字化、智能化速度更快。

比如在教育领域,Duolingo、Quizlet、可汗学院等产品主要和OpenAI合作,在GPT大模型上做微调和接口调用,增强原有的产品体验。

但也有一些领域如数学、医学等,对AI的需求是准确、清晰、具备强大的逻辑推理能力,且容错率低,通用LLM目前的性能表现还无法在上述领域取得突破,未来是否可能取得突破尚不清晰。

以数学领域为例,目前市场上有几个主要流派。

比如Google收购的Photomath、微软数学、Mathway、专注数学计算的WolframAlpha等产品,主要利用非LLM的传统AI技术加上数据库的方式解决数学问题。

走AGI路线的公司则尝试让通用LLM“更懂数学”,比如GPT4在数学任务上比之前的3.5版本性能更好,谷歌旗下的Minerva模型也专门针对数学问题进行调优。

学而思选择了另一条少有人走的路,不基于现有LLM做微调和接口调用、不做通用LLM,而是自研基于专业领域的“数学大模型”MathGPT,致力于打造自主、稳定、可持续、高质量的学习解决方案。

学而思表示,乔布斯对电脑的定义是“思维的自行车”,MathGPT面向全球的数学爱好者,希望能成为学习数学、思考数学的“自行车”,帮助人们更好的解决学习数学、思考数学的问题。

长远看来,数学思维代表着理性逻辑,是“思维的体操”,是一种基础能力,能够与很多行业产生关联。

未来,也许每个人都是程序员,用自然语言就可以编程,创新想法,与人协作,创造新事物,但是用自然语言编程的好坏很大程度取决于是否经过数学思维的训练。我们希望通过MathGPT,帮助每个人更好地建立理性逻辑,从而终身成长,推动社会进步。

在大语言模型不断进化的浪潮下,不同的技术路线选择孰优孰劣,仍有待讨论和验证。

学而思自研独立的MathGPT大模型是否能够超越通用模型在数学任务上的表现,是否更匹配不同人群的数学学习场景,这个问题还需要在创新实践中寻找答案。

随着整个行业的深化发展和越来越多人才参与到这个领域,相信不久的将来就能看到更为成熟的解决方案。

千亿级、数学专用,MathGPT大模型开始公测了

国内大模型市场又迎来了一个新的「选手」,这次是数学专用大模型。

8 月 24 日,机器之心获悉,在好未来 20 周年直播活动中,CTO 田密宣布好未来自研的数学领域千亿级大模型 MathGPT 开启内测。即日起,用户可通过官网(www.mathgpt.com)申请注册账号免费试用体验。
今年 5 月,好未来曾公布正在进行自研数学大模型的研发,命名为 MathGPT。MathGPT 是面向全球数学爱好者和科研机构,以解题和讲题算法为核心的数学垂直领域的大模型,也是国内首个专为数学打造的大模型。
使用方式也很简单。用户使用 MathGPT 时,用文字或图片方式上传数学题,即可得到对话式的解答反馈,也可以通过 “随机来一题” 的按钮,随机生成数学题目并由系统给出解答。

目前,MathGPT 支持中文、英文版本的 PC 端和移动端体验。

领先的数学解题能力
MathGPT 汇集了好未来多年教育教研数据积累,专注于数学领域。千亿级大模型的训练、推理、部署框架,为模型赋予了强大能力。通过优质教育数据,实现题目计算、讲解、问答等多任务持续训练和有监督微调,呈现出卓越表现。此外,借助人类反馈对齐,还将进一步提升模型综合素养。MathGPT 在解题准确率、稳定性及用户体验方面均有明显的优势。
据了解,MathGPT 的数学计算能力已覆盖小学、初中、高中的数学题,题目类型涵盖计算题、应用题、代数题等多个类型,还可以针对题目进行追问。不过暂未开放数学之外的问答互动。

 MathGPT 技术报告

具体效果如何呢?在 CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考数学和 Math401 等 6 个公开数学评测集合的测试结果中,MathGPT 取得了多项测试的最高分数。同时,MathGPT 在 C-Eval 的初高中的全科测试集合上也均有不错的表现。

 MathGPT 在 C-Eval 榜单初高中各科成绩

此外,在解题稳定性、讲解友好度方面,MathGPT 基于海量名师解题过程的数据进行模型训练,模型的解题步骤专业清晰。
我们以一道数列题为例,MathGPT 给出的答案包含 “分析”、“详解”、“点睛” 三个部分,比通用大模型的粗略讲解方式更为细致。其中“分析” 提供了题目的解题思路、思考方式,帮助用户更好地理解题目;“详解” 则给出具体的计算方式和答案;最后 “点睛” 的环节对题目的考点、难点、关键点进行提示,帮助用户回顾反思出题意图、举一反三。

对于使用者而言,研究数学问题不仅在于得到答案本身,更在于答案背后的解题原理、思路逻辑。与其他通用大模型相比,MathGPT 能实现更高准确度的解题,也能把答案解析得更清楚、讲解得更明白,更好地满足用户使用 AI 产品解答数学问题的核心需求。

在 MathGPT 发布同时,好未来也更新了一个具有代表性和挑战性的数学任务评测集,供全球人工智能专家、数学爱好者体验和测评。好未来希望让 MathGPT 在数学教育领域发挥更大作用,并愿意把基于大规模、高质量的内容的千亿级大模型研发经验方法和业内分享,和行业共同进步。
好未来 AI 的厚积薄发
在 AI 浪潮的推动下,今年以来多家科技公司宣布推出通用大语言模型产品,而好未来选择了另一个方向,不基于将现有大语言模型做微调和接口调用、不做通用大语言模型,而是深入数学的垂直领域研发大模型,致力于打造自主、稳定、可持续、高质量的数学解决方案。
通用大模型 “重文轻理”,在数学问题的解决、讲解、问答和推荐方面则存在明显的短板。而在另一个层面,在通往通用人工智能的路上,数学推理能力很重要,全球有很多大型公司在做这方面的研究。
“好未来在数学的数据和业务上有 20 年的积累,有大量的教育数据的积累和持续生产教育数据的能力,所以选择做这个难而正确的事情。” 田密称,好未来希望用自己在数学和 AI 上的多年积累,做好 AI 大模型时代的数学基础工作。
其实早在 2017 年,好未来便成立了 AI lab 人工智能实验室。基于智慧教育人工智能开放创新平台助力,好未来 AI lab 获得各类顶级学术会议比赛冠军 16 项,亚军 6 项,发表国际期刊和会议高水平学术论文近百篇。
2019 年,科技部宣布依托好未来建设智慧教育国家新一代人工智能开放创新平台,好未来成为教育行业首批唯一一家人工智能 “国家队” 成员,在人工智能领域有多年深入研究。多年来,好未来以教育行业重大需求为牵引,构建了面向教育的人工智能算法能力、应用解决方案、基础软硬件体系和开源开放服务的国家教育科技创新平台。
好未来也在积极参与推动大模型标准体系建设,先后作为核心单位参与了由国家人工智能标准化总体组组织的大模型系列国家标准、中国信通院牵头编制的 “大模型预训练模型技术和应用评估方法” 系列团体标准,以及教育部教育信息化技术标准委员会暨全国信息技术标准化技术委员会主导的 “教育通用大模型” 系列标准编制工作。
近期,好未来正作为牵头单位与中国信通院、复旦大学、科大讯飞、百度等行业领先科研机构、高校、企业一同编制教育大模型团体标准,从覆盖场景、应用成效、服务可靠等维度全面评估教育大模型能力,为教育大模型应用落地提供参考与指导。
用 AI 实现大规模因材施教
随着大语言模型的兴起,如何用 AI 技术服务各行各业是社会关注的焦点。教育行业是最早开始布局 AI 领域的行业之一,AI 能为教育生态带来何种变化一直备受关注。
“AI 带来了重新定义教育行业的机会,大模型技术使得大规模的因材施教真正有了实现的可能。” 田密介绍,20 年来,好未来一直在探索个性化学习,从线下小班到线上大班,再到 AI 课,形式不断进化,但教的内容始终是固定的、学生和老师互动较少、颗粒度只能到题目级别。
田密认为,大模型的本质,是一种更高效的、从数据中学习知识并加以应用的方式。在 AI 能力的加持下,“学生自学 + AI 答疑” 的新型学习方式成为广泛的可能。学习者获得优质教学内容的门槛、成本降低,获得的教学内容个性化、精细化程度持续升高,可以实现千人千面的 AI 教学和答疑辅导,每个学生都能得到最适合自己的学习内容。
以 MathGPT 为基础,好未来将不断探索 AI 环境下的学习方式,更好地服务于全球的学习者、数学爱好者,并将经验及时与行业分享,通过 AI 技术助力教育科技的积极改变。
随着内测的顺利进行,MathGPT 的解题能力将得到持续提升,基于 MathGPT 的产品级应用也正在加速研发中,将于近期发布。

 

参考文献链接

https://mp.weixin.qq.com/s/RUnJ2T9BueDnDCu91m8uPQ

https://mp.weixin.qq.com/s/Oq_OtdJvHiIQZtLfEBDOgA