国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上

发布时间 2023-08-12 18:24:17作者: CV技术指南(公众号)
前言 国产大模型,再次迎来新玩家!

本文转载自量子位

仅用于学术分享,若侵权请联系删除

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班 全面上线!!

XVERSE-13B,开源即免费商用。

来自前腾讯副总裁、腾讯AI lab创始人姚星创立的明星独角兽元象,公司成立一年即完成1.2亿美元融资。

此次开源的大模型,它支持40多种语言、8192上下文长度。在多项中英文测评中,性能超过了同尺寸(130亿参数)的LIama2、Baichuan等。

目前,哈尔滨工业大学已经率先用上。

国产百亿大模型免费商用

据介绍,XVERSE-13B大模型主要有这几个方面的特点。

模型架构方面,它是基于标准Transformer架构(Decoder-only),支持8K上下文长度,据称这也是目前同尺寸标准模型中最长。这样一来,可满足更多轮对话,减少遗忘现象,以及输入更多内容完成复杂任务。

训练数据上,构建了1.4万亿tokens的数据集,包含中、英、俄、西等40多种语言。

而为了充分利用训练数据,他们在分词策略上,基于BPE(Byte-Pair Encoding)算法,使用上百 GB 语料训练了一个词表大小为 100,278 的分词器。

这样一来,能够同时支持多语言,而无需额外扩展词表。

此外,还在训练框架上进行了算子、通信、并行策略及调度等方面的优化,包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等自研技术,使得千卡集群上的峰值算力利用率达到 58.5%,据介绍位居业界前列。

作为通用大模型,它支持文本生成、自动化写作、数据分析、知识问答、多语言翻译、个性化交互、人物角色扮演、专业小助手等功能。

具体到各项能力测评上,他们选取了 MMLU(英文)、 C-Eval(中文)、AGIEval(中英) 、GAOKAO-Bench(中英)、GAOKAO-English(英文)等在内的评测集。

比如在MMLU测评中,其综合评分达到55.1分,在多个维度超过了同参数规模的主流模型。

(MMLU 由加州大学伯克利分校等高校共同打造,集合了科学、工程、数学、人文、社会科学等领域的 57 个科目,主要目标是对模型的英文跨学科专业能力进行深入测评。其内容涵盖从初级水平到高级专业水平)

还有在C-Eval、AGIEval和GAOKAO-Bench等中文测评中,分别以54.7、41.4以及53.9分超越了其他模型。

目前,XVERSE-13B代码采用 Apache-2.0 协议,向学术研究完全开源,企业只需简单登记,即可免费商用。

哈工大已经率先使用大模型推进相关研究工作。哈工大计算机科学与技术学院张伟男教授表示:

开源是互联网时代主流模式,不仅能贡献社区,推动技术持续创新,还能利用协同解决算法透明性、稳定性、公众信任度等共性问题。

来自元象XVERSE团队

随着XVERSE-13B的发布,国产大模型迎来了新玩家:

元象XVERSE,2021年3月成立,专注于AI与元宇宙技术服务。

创始团队来自腾讯游戏、Adobe、微软、IBM、麦肯锡等公司。创始人是前腾讯副总裁姚星,他曾亲手创立了腾讯AI lab以及机器人实验室Robotics X,并兼管腾讯技术工程事业群(TEG)多个技术部门。

他也是腾讯在受AlphaGo震动决定战略布局AI时的一号位负责人,代表腾讯全球挖人组队,也代表腾讯喊出了口号:AI in All。在此期间曾主导推出了绝艺、绝悟、云深智药等行业代表性产品和应用,张潼张正友都曾向他汇报。

2022年3月,元象完成A与A+轮融资1.2亿美元,投资机构包括腾讯、高榕资本、五源资本、高瓴创投、红杉中国、淡马锡和CPE源峰等。

在3D和AI技术领域,已自主研发出行业领先的“端云协同” 3D互动技术,主打零门槛、一站式、高品质的元宇宙体验。

目前客户包括澳门大三巴、腾讯音乐、央视、一汽大众、阿迪达斯、邮储银行等企业。

GitHub链接:

参考链接:

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

CV的未来发展方向?平时最喜欢逛的几个地方

训练网络loss出现Nan解决办法

比Meta「分割一切AI」更全能!港科大版图像分割AI来了:实现更强粒度和语义功能

Segment Anything项目整理汇总

Meta Segment Anything会让CV没前途吗?

CVPR'2023年AQTC挑战赛第一名解决方案:以功能-交互为中心的时空视觉语言对齐方法

6万字!30个方向130篇 | CVPR 2023 最全 AIGC 论文汇总

知识蒸馏最新进展

ICCV2023 | 当尺度感知调制遇上Transformer,会碰撞出怎样的火花?

CVPR 2023 | 完全无监督的视频物体分割 RCF

新加坡国立大学提出最新优化器:CAME,大模型训练成本降低近一半!

SegNetr来啦 | 超越UNeXit/U-Net/U-Net++/SegNet,精度更高模型更小的UNet家族

ReID专栏(二)多尺度设计与应用

ReID专栏(一) 任务与数据集概述

libtorch教程(三)简单模型搭建

libtorch教程(二)张量的常规操作

libtorch教程(一)开发环境搭建:VS+libtorch和Qt+libtorch

NeRF与三维重建专栏(三)nerf_pl源码部分解读与colmap、cuda算子使用

NeRF与三维重建专栏(二)NeRF原文解读与体渲染物理模型

NeRF与三维重建专栏(一)领域背景、难点与数据集介绍

异常检测专栏(三)传统的异常检测算法——上

异常检测专栏(二):评价指标及常用数据集

异常检测专栏(一)异常检测概述

BEV专栏(二)从BEVFormer看BEV流程(下篇)

BEV专栏(一)从BEVFormer深入探究BEV流程(上篇)

可见光遥感图像目标检测(三)文字场景检测之Arbitrary

可见光遥感目标检测(二)主要难点与研究方法概述

可见光遥感目标检测(一)任务概要介绍

TensorRT教程(三)TensorRT的安装教程

TensorRT教程(二)TensorRT进阶介绍

TensorRT教程(一)初次介绍TensorRT

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门