Colossal-AI助力,摩尔线程预训练语言模型MusaBert荣登CLUE榜单TOP10

  发布时间:2025-12-07 20:37:53   作者:玩站小弟   我要评论
摩尔线程联合潞晨科技研发的预训练语言模型MusaBertMUSA为摩尔线程提出的通用元计算架构),在12月16日的中文语言理解领域权威CLUE榜单上进入TOP 10,最终以82.889得分在CLUE1 。

摩尔线程联合潞晨科技研发的助力预训练语言模型MusaBert(MUSA为摩尔线程提出的通用元计算架构),在12月16日的线程型中文语言理解领域权威CLUE榜单上进入TOP 10,最终以82.889得分在CLUE1.1总排行榜中排名(除人类成绩以外)第9  ,预训言模并在AFQMC任务中以86.92分取得排名第一的练语成绩 ,这意味着摩尔线程AI在语义理解与匹配能力上超越了人类水平 。登C单同时 ,助力这也是线程型潞晨科技的AI大模型开发系统Colossal-AI在自然语言处理领域应用的重要进展 。

(2022年12月16日CLUE1.1总排行榜最新成绩)

相较于CLUE总排行榜TOP 10的预训言模其他中文预训练模型,MusaBert仅包含3亿参数量 ,香港云服务器练语是登C单前十名中规模最小的模型 ,并且为单模型(single model) ,助力没有进行任何集成 。线程型此外,预训言模摩尔线程基于MusaBert的练语语义嵌入模型MusaSim在AFQMC任务上击败一众大规模模型,取得第一名,登C单不仅为检索系统、分类对话等更深度语义理解研究打下坚固基石 ,也证明了摩尔线程在中文自然语言处理领域和低资源大模型训练方面的强大能力 。

一直以来,语义理解都是NLP(自然语言处理)技术的建站模板重要目标,通过一系列AI算法,可将文本解析为结构化的 、机器可读的意图与词槽信息。通常来说 ,训练数据的获取与处理 、模型的迭代和训练等都是NLP技术的落地难点。MusaBert仅使用了极少的参数量便取得了比肩甚至超越百亿参数大模型的成绩 ,服务器租用主要是得益于多方面获得的突破性进展:

● 技术层面 :摩尔线程拥有“软硬一体”的技术能力,使得MusaBert能够从底到上进行优化;摩尔线程多功能GPU内置AI加速和并行计算等硬件模块,能够提供AI和科学计算在内的全栈功能 ,能够为AI推理计算加速、低资源大模型训练等应用场景提供通用、高性价比 、节能环保的AI能力 。

● 算法层面:MusaBert使用了潞晨科技的AI大模型开发系统Colossal-AI,在上游训练方面,充分发挥了该系统的亿华云易用性及强大的并行训练性能,同时MusaBert针对模型数据预处理使用的DataLoader进行了优化 ,可以在低资源的条件下快速处理大规模数据;在下游任务方面,摩尔线程通过采用合适的优化建模 、在领域内进行数据增强以及在模型的训练优化中采用了先进的Adan优化器等方式  ,尽可能发掘和展现出预训练语言模型强大的语义理解能力  。摩尔线程自研的语义嵌入模型MusaSim以MusaBert为基座模型 ,使用对比学习方法进行训练 ,云计算并利用了摩尔线程收集的百万对有监督数据。得益于MusaBert和高质量的数据集 ,MusaSim不仅在语义相似度任务上超越了众多更大规模的模型,在意图识别、情绪分析等分类任务上 ,也能得到较好的效果。

● 数据层面:MusaBert除使用了摩尔线程自身收集的高质量语义相似数据以外,还使用了200GB悟道开源数据和80GB的CLUE社区数据 ,以及浪潮电子信息产业股份有限公司提供的1T高质量数据集。免费模板大规模高质量的数据使得模型在相对小的规模下仍然保持了较高的性能 。

目前 ,MusaBert作为基座模型,已经应用于摩尔线程研发的智能客服与数字人等项目 ,并相继在下游语义相似度 、情绪识别 、阅读理解  、声韵识别等领域落地  。

为了更进一步降低大模型开发和应用的门槛 ,MusaBert代码现已开源到Colossal-AI仓库(https://github.com/hpcaitech/ColossalAI/tree/main/examples/language/roberta),使用该脚本,可在短时间内训练出高质量的中文Bert模型  。包括MusaBert和MusaSim在内的一系列高质量模型也将在近期开源以贡献中文NLP社区  。此外,经摩尔线程与潞晨科技的严格测试,仅通过摩尔线程多功能GPU单卡 ,即可进行MusaBert甚至是更大规模的GPT2的训练,大大降低了预训练成本,这也为双方实现低资源大模型训练的共同愿景 ,迈出了坚实一步。

作为中文语言理解领域最具权威性的测评基准之一,CLUE 涵盖文本相似度、分类 、自然语言推理、阅读理解等众多语义分析和理解类子任务 ,工业界和学术界纷纷用 CLUE 作为预训练算法能力的验证和衡量标准。此次进入CLUE榜单TOP 10 ,代表了摩尔线程与潞晨科技联合研发团队在中文预训练研究领域已达到业内领先水平 。

展望未来 ,摩尔线程还将与潞晨科技紧密合作,着手更适当规模的自然语言大模型研究  ,充分利用上游数据,产出能力更强的模型并且开源 。同时,保持算法和系统两个层面并行 ,持续优化大模型在摩尔线程多功能GPU上的训练能力,尤其在单张消费级显卡等低资源场景下的训练能力 ,可以大大降低使用大模型训练的门槛和成本 ,进一步促进AI民主化 。

关于潞晨科技

潞晨科技是一家致力于“解放AI生产力”的全球性公司 ,核心产品面向大模型时代的通用深度学习系统 Colossal-AI ,可实现高效快速部署AI大模型训练和推理 ,降低AI大模型应用成本 。自开源以来 ,Colossal-AI已经多次在GitHub热榜位列世界第一,获得GitHub Star约七千颗 ,并成功入选SC 、AAAI、PPoPP等国际AI与HPC顶级会议的官方教程 。相关解决方案已成功在自动驾驶、云计算 、零售 、医药 、芯片等行业知名厂商落地应用 、广受好评 。

关于摩尔线程

摩尔线程智能科技(北京)有限责任公司是一家以GPU芯片设计为主的集成电路高科技公司 ,专注于研发设计全功能GPU芯片及相关产品 ,能够为中国科技生态合作伙伴提供强大的计算加速能力。公司成立于2020年10月 ,致力于创新面向元计算应用的新一代GPU ,构建融合视觉计算、3D图形计算  、科学计算及人工智能计算的综合计算平台,建立基于云原生GPU计算的生态系统,助力驱动数字经济发展。

  • Tag:

相关文章

  • 确保智能家居网络的安全:物联网的风险

    网络安全专业人士表示,物联网更像是威胁互联网。这是为什么。近年来,随着用户对连接和远程管理的需求飙升,物联网(IoT)呈爆炸式增长,这反过来又推动了智能家居市场的发展,并使家居系统更容易使用和管理。从
    2025-12-07
  • 使用U盘刷系统教程(学会使用U盘轻松刷机,让电脑焕然一新)

    随着科技的发展,人们对电脑系统的需求越来越高,而系统的更新升级也是必不可少的。本文将为大家介绍如何使用U盘来快速刷机,让您的电脑焕然一新。选择合适的U盘1.确保U盘容量足够大建议不少于16GB),以便
    2025-12-07
  • 使用DG工具分区教程(以DG工具分区为例,详解分区操作步骤,让你轻松掌握)

    现代计算机操作系统普遍采用硬盘分区的方式来管理存储空间,而DG工具是一款功能强大且易于操作的分区工具。本篇文章将以DG工具分区教程为主题,为大家详细介绍使用DG工具进行分区的步骤与技巧,帮助读者轻松掌
    2025-12-07
  • 三星S6Edge超级省电模式开启方法

    三星S6Edge超级省电模式开启方法。当你的三星S6Edge电量已经快用完了,附近又没有可以充电的地方,要怎么办呢?开启超级省电模式吧,这样可以帮你延长手机续航时间,下面,小编就来教大家三星S6Edg
    2025-12-07
  • Unix这颗大雷,真的会让电子设备瘫痪吗?

    新年伊始,万象更新,今天不发那些网络安全新闻,聊聊轻松点的话题,给大家在元旦假期里解解闷。业内一直盛传的Unix时间的雷,真的会让全球电子设备瘫痪吗?昨天,几个安全圈好友聚在一起喝酒,不知怎么就聊到了
    2025-12-07
  • 《畅游小精灵世界,探索神奇之旅》(以小精灵可梦GO怎样玩)

    《畅游小精灵世界,探索神奇之旅》是一篇关于如何玩转小精灵可梦GO的文章。作为一款了现实世界和虚拟小精灵的手机游戏,小精灵可梦GO凭借其独特的玩法和丰富的内容,在全球范围内引起了巨大的轰动。本文将为您详
    2025-12-07

最新评论