当前位置:返回首页

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

日期：2024-07-08 来源：原创/投稿/转载浏览次数：67

　　所谓万卡集群，顾名思义，就是由1万张甚至更多GPU计算加速卡组成的高性能计算系统，主要用来训练、微调超大规模的基础大模型。

　　这种超级集群全面整合了高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等全套软硬件技术，堪称一台超级计算机”，可支持千亿级、万亿级参数规模的大模型训练，可以大幅提高训练效率、缩短训练时间，快速迭代模型能力。

　　比如马斯克近日就透露，新一代AI聊天机器人Grok 3就动用了多达10万张NVIDIA H100加速卡进行训练，因此将会非常特别”，为此耗资多达三四十亿美元。

　　比如字节跳动搭建了一个12288张卡的训练集群，研发MegaScale生产系统，用于训练大语言模型，科大讯飞2023年建成了首个支持大模型训练的超万卡集群算力平台飞星一号”。

　　但是，万卡集群乍一看只是千卡集群的拓展和延伸，它绝非简单的更多计算卡迭加，而是一个超级复杂的系统工程，需要解决超大规模组网互联、集群有效计算效率、训练高稳定与高可用、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算等众多难题。

　　这是一条难而正确的事情，摩尔线程推出夸娥万卡智算集群解决方案，就是希望能够建设一个规模超万卡、场景更通用、生态兼容好的一个加速计算平台，并优先解决大模型训练的难题。

　　摩尔线程创始人兼CEO张建中强调：要挑战最难做的事情，除了有勇气之外，还要有能力，要有很好的团队，有很强的研发、生产、制造、销售、市场、服务等等方方面面的人才，否则是很难做成的。做成一件事情，其实不是偶然的，而是要花很多时间去建立的。每一家成功的企业都有很多正确的决定，但是不管什么样的决定，真正强的团队才是核心。摩尔线程就有很强的团队，这么多年的经验，我们在GPU行业里的知识、Know-how，碰到过的困难，解决过的难题，对我们来说都是非常宝贵的经验。”

　　夸娥，是摩尔线程的智算中心全栈解决方案，以其自主研发的全功能GPU为底座，包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台（KUAE Platform）、夸娥大模型服务平台（KUAE Model Studio），软件硬件一体化，训练推理一体化，交付一体化，可以开箱即用，提供大规模GPU算力集群的建设、运营管理。

　　摩尔线程的夸娥万卡集群具备PB级的超大显存总容量、PB/s级的超高速卡间互联总带宽、PB/s级的超高速节点互联总带宽，可实现系统性协同优化，从而达到超强的算力，并且MFU最高可以达到60％。

　　稳定性也是卓尔不群，平均无故障运行时间超过15天，最长可以稳定训练大模型30天以上，周均训练有效率超过99％，远超行业平均水平，而且可以性能自动调休、问题自动诊断，2分钟内就能快速修复，进而断点续训练。

　　这得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制，包括：软硬件故障的自动定位与诊断预测，实现分钟级的故障定位；Checkpoint多级存储机制，实现内存秒级存储和训练任务分钟级恢复；高容错高效能的万卡集群管理平台，实现秒级纳管分配与作业调度。

　　此外还有强大的通用性，支持所有主流大模型训练，可加速LLM、MoE、多模态、Mamba等不同架构、不同模态，支持主流分布式训练框架(Colossal-AI、DeepSpeed、Megatron-LM、Flag Scale)。

　　同时，基于高效易用的MUSA编程语言、完整的CUDA生态兼容、自动化迁移工具Musify，开发者只需极短的时间、极少的工作就能完成迁移，甚至几乎不需要修改代码，迁移成本趋近于零。

　　值得一提的是，摩尔线程表示，如果已经适配过摩尔线程的千卡集群，不需要任何额外工作就可以无缝跑在万卡集群上，而哪怕是第一次适配万卡集群，也只需几个小时，只是性能调优需要花一点时间，主要是模型使用方法不同、芯片厂商策略不同所致。

　　目前，摩尔线程已经实现从芯片到算力卡，从一体机到节点集群的全栈式覆盖，支持从单机多卡到多机多卡、从单卡到千卡万卡集群的无缝扩展。

　　单卡支持 48GB 显存、768GB/s显存带宽，并支持摩尔线互连技术，卡间互连带宽240GB/s，从而支持高效多卡互联。

　　双路八卡GPU服务器，专为支持MTT S4000大模型智算加速卡充分发挥其训推性能、稳定性、可靠性的服务器系统。

　　它基于MCCX D800 训推一体机，属于可灵活部署的推理、训练、微调软硬件一体化解决方案。

　　国内众多AI厂商、云厂商、科技厂商、软件厂商和、科研院校机构等，都与摩尔线程有着深入的合作，尤其是利用摩尔线程夸娥智算集群，助力大模型训练、大模型推理、具身智能等不同场景和领域持续创新。

　　除了芯片、算力卡、服务器、一体机节点之外，还有AI算力底座、AIGC创作生产力、产业升级三大展示区。

　　AI算力底座展示区，包括夸娥集群管理平台、夸娥模型服务平台、夸娥大模型推理平台，以及夸娥生态版图。

　　夸娥集群管理平台是摩尔线程大规模GPU计算集群产品可视化管理平台，是用于Al大模型训练、分布式图形渲染、流媒体处理和科学计算的软硬件一体化平台，深度集成全功能GPU计算、网络和存储，提供高可靠、高算力服务。

　　夸娥模型服务平台覆盖大模型预训练、微调和推理全流程，支持所有主流开源大模型。通过摩尔线程MUSIFY代码移植工具，可以良好兼容CUDA应用生态，内置的容器化解决方案，则可实现API一键部署。

　　夸娥大模型推理平台，基于高效的MT Transformer大模型推理引擎，支持业内主流vLLM推理框架、MUSA Serving自研推理框架等，帮助开发人员高效地在云端部署高性能推理服务。

　　AIGC创作生产力展区，可以看到依靠夸娥智算集群、基于图形计算和AI计算的软硬件一体化AIGC内容创作平台摩笔马良”。

　　它部署了摩尔线程自研大语言模型MUSAChat，可以及时润色、翻译用户的输入文本，进一步增强语义理解，还可以基于用户的文本指向，灵活调用SDXL、SD1.5两代模型能力，生成细节丰富、有艺术感的图像结果。

　　同时，结合多种IP-Adapter、ControlNet技术，它还支持创意人像”，上传一张个人照片，以文字描述目标风格，1分钟内就可以得到细腻、逼真的人像图片，而且无需训练、风格不限。

　　摩笔天书”则是依靠夸娥智算集群的AI内容生成解决方案，可提供一站式、多模态、全流程、全自动的绘本生成创作体验。

　　用户只需输入标题和简要的故事大纲，即可一键生成完整故事、绘本图片、旁白、字幕、背景音乐等素材，并自动合成图文绘本故事和视频绘本故事。

　　MT AIR”(MT AIReality)是摩尔线程自研的新一代的AI渲染平台，构建拥有照片级、视网膜级、堪比物理世界真实度的实时渲染管线，轻松实现三维重建，可用于影视、动画、游戏、元宇宙等领域。

　　Sora复现计划”(Open-Sora-Plan)是由北京大学、兔展AIGC联合实验室共同发起的开源项目，利用开源社区的力量，完成对Sora文生视频的复现，当前在Github上有超过1万开发者，摩尔线程则是国内极少数支持运行Open-Sora-Plan视频生成模型的国产GPU公司。

　　在产业数智化升级展示区，可以看到基于人工智能气象预报大模型书生风乌的气象预测应用、基于东华软件私有化大模型智多型（niflex）的公共安全应用、佳都全息路口解决方案的数字交通应用、基于中科闻歌自主研发雅意大模型的辅助决策应用、智慧安防应用、智能金融应用、智慧政务应用等等。

　　值得一提的是，依托夸娥智算集群的强兼容、高算力等特性，风乌成功在24小时内就完成了从CUDA到MUSA的无缝、快速生态迁移，首次实现从硬件到算法的全国产化，且性能、精度均达到国际先进水平。

　　11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

　　7月3日，上海——摩尔线程重磅宣布其AI旗舰产品夸娥智算集群解决方案实现重大升级，从当前的千卡级别大幅扩展至万卡规模。摩尔线程夸娥万卡智算集群，以全功能GPU为底座，旨在打造国内领先的、能够承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台，专为万亿参数级别的复杂大模型训练设计。我们的愿景是为美好世界加速。

　　以大模型为代表的新一代人工智能技术是引领新一轮科技革命和产业变革的战略性技术和重要驱动力量，随着对算力需求的日益高涨，人工智能算力底座公司日益成为新一波人工智能技术浪潮重要组成部分。2024年5月，摩尔线程与智谱AI开展了新一轮GPU大模型适配及性能测试，包括大模型推理以及基于夸娥千卡智算集群的大模型预训练。关于摩尔线程摩尔线程是一家以全功能GPU芯片设计为主的集成电路高科技公司，能够为广泛的科技生态合作伙伴提供强大的计算加速能力，致力于打造为下一代互联网提供多元算力的元计算平台。

　　近日，有网友发帖称，一留学生自曝信用卡刷了100万逃离美国”引起热议。中国政法大学教授罗翔谈论此事时表示，如果网传信息为真，该留学生可能涉嫌信用卡诈骗。罗翔还表示，本质上信用卡是刺激大家提前消费的工具，所以大家用起来还是要量力行。

　　在正在进行的一加新品发布会上，一加发布了作为行业首款第三代骁龙8平板——一加平板Pro，一加平板Pro刷新行业性能纪录，安兔兔跑分高达231万，首次支持《原神》2.1K超高画质，运行1小时几乎满帧，带来更出色的游戏体验。一加平板Pro搭载行业TOP级旗舰好屏，配备3K分辨率7:5黄金比例LCD超清大屏，支持一加自研明眸护眼技术，针对夜晚使用手机、长时间使用手机以及长时间

　　近日，苹果ApplePay在匈牙利遭遇技术故障，导致许多用户在未进行任何消费的情况下遭遇无故扣款。问题波及匈牙利大多数银行，用户在短时间内被重复扣款，尽管每次金额不大，但累计数额惊人。”为了防止进一步的经济损失，部分用户已经通过银行冻结了信用卡，以防止进一步扣款。

　　快科技7月7日消息，这两天凯美瑞只卖12万了”成为不少人讨论的话题，但是你真的会去买它，又或者你真的能买到吗？近日，有广州的媒体向当地的广汽丰田经销商咨询，2.0L汽油最低配车型裸车价都要13.98万元，落地价在15万元以上；2.0L混动最低配车型要贵一万，落地价16万多。当然上述12万也是可以买到的，具体的条件是：旧车置换、分期5年。而且分期不是免息，每年都有5个点的利息。从另一面看，就算12万能买到凯美瑞，你真的会买吗？随便打开一个汽车网站看看配置表，不管是2.0汽油最低配车型还是2.0混动最低配车型，配置水平都是网友口中?

　　天猫平台的一则新规在商家中引起了轩然大波，新规明确规定了商家不得通过包裹卡等方式引流至其他平台，尤其是微信。这一举措对于长期依赖包裹卡进行私域引流的商家来说是个重大打击，在此背景下，众多商家纷纷探讨应对之策，「包裹卡是否继续发放」则成为热议的焦点。你怎么看?还有哪些引流解决方案?欢迎评论一起聊聊。

　　比亚迪元家族累计销量已突破100万台，成为品牌旗下一款广受欢迎的车型。今年5月，元PLUS销量达到25，501辆，环比增长15.9%元UP也热销14，520辆。2023年，元PLUS全年销量突破41万辆，荣获中国A级纯电车销量冠军。

　　苹果最新推出的AppleIntelligence功能因存储限制无法在所有设备上使用，这一限制暴露出苹果在端侧AI发展上的存储瓶颈。iPhone15系列中仅有15Pro和ProMax两款型号支持AppleIntelligence这背后的原因可能与设备的DRAM大小有关。据IDC预测，16GBRAM将成为新一代AI手机的标准配置。

　　今日，词条#iPhone显示无可用SIM卡#冲上热搜，引发网友热议。该话题主持人称，苹果手机突然就显示卡用不了，你们有这种情况吗？确保你拥有活跃的无线运营商套餐；重新启动你的iPhone；检查有没有运营商设置更新，前往设置”通用”关于本机”；如果你的设备装有实体SIM卡，请从SIM卡托架中取出iPhoneSIM卡，然后重新插入SIM卡，确保SIM卡托架已完全闭合并且没有松动；如果你使用的是其他iPhone机型或其他手机制造商的SIM卡托架，则可能无法正确安装；如果你的设备装有实体SIM卡，并且你已经完成了上一步，请尝试使用另一张SIM卡，没有的话，请前往运营商的零售店，并让他们用另一张SIM卡进行测试，你可能需要更换SIM卡。

　　ProductLift是一个针对SaaS产品经理、项目经理和市场策略师的优先级排序、路线图和变更日志工具。它允许用户对功能进行投票，定义产品路线图，并展示产品更新。ProductLift致力于提升您的产品体验。

　　Skott是一个AI驱动的社交媒体营销、博客和设计一体化工具，能够自主地生产数千篇博客和帖子，无需人工干预，全年365天持续运作。它基于Lyzr Agent Framework构建，提供企业级自动化服务，用户可以完全控制提示、LLMs、分析以及最重要的数据。Skott具备自我反思能力，能够持续改进内容，拥有长期记忆功能，保留用户偏好和指导方针。此外，Skott还提供24小时企业级支持，确保数据隐私，可在本地云上运行。

　　Calypso是一个AI驱动的公共股票投资助手，结合了人工智能技术与公共金融数据，提供全方位的股票分析服务。它通过AI技术帮助用户在股票市场做出更明智的投资决策，提供实时的盈利预览、更新、AI聊天问答等功能，并通过GPT-4类模型训练，以提供更专业的投资建议。

　　OWOX BI SQL Copilot是一款AI驱动的SQL查询生成工具，它通过自动化的方式帮助数据和业务团队快速、准确地创建SQL查询，无需编码技能。该工具直接集成Google BigQuery，提供即时访问表架构，支持使用自然语言生成复杂SQL，优化现有查询，并提供错误修正和实时调试功能。它还支持广泛的SQL功能，包括解释和增强查询结构，以提高理解和性能。此外，OWOX BI SQL Copilot强调数据所有权，确保用户数据的安全和合规性。

　　Hubflo是一个为服务公司设计的下一代平台，通过提供强大的客户门户来提升客户满意度和保留率，同时大幅减少客户邮件、电话和会议，加快项目交付速度。它专为创意和专业服务设计，包括数字代理、咨询、会计/金融服务、建筑和家居设计、律师事务所等。Hubflo提供文件共享、合同、消息、任务、计费等工具，并可集成任何其他服务。产品背景信息显示，Hubflo由AI驱动，具有自动化的入职流程、文件收集、电子签名、发票发送等功能，并且提供安全的客户消息和独特的电子邮件集成，以及16+原生集成和500+外部应用嵌入能力。

　　Expert Specialized Fine-Tuning (ESFT) 是一种针对具有专家混合(MoE)架构的大型语言模型(LLMs)的高效定制化微调方法。它通过仅调整与任务相关的部分来优化模型性能，提高效率，同时减少资源和存储的使用。

　　可灵 AI 是一款集成了 AI 图像和视频创作功能的创意生产力平台。其主要优点在于快速生成多样风格的图片和高清视频，助力用户提升创作效率。产品定位于为创作者和内容创意人群提供创作灵感和工具支持。

　　奇点通是一个致力于提高工作效率的在线工具平台，通过集成多种智能功能，帮助用户在品牌识别、内容创作、社交媒体推广等场景下提升效率。产品背景是当前市场对于自动化和智能化工具的需求日益增长，奇点通通过其技术优势，为用户提供了一种高效、便捷的工作方式。

　　302.AI是一个汇集了全球顶级AI品牌的在线平台，提供无月费，按需付费的服务模式。它允许用户根据需求选择不同的AI服务，无需支付固定的月费，从而降低使用门槛，提高灵活性。平台可能涵盖了多种AI技术，如图像识别、自然语言处理等，满足不同用户的需求。

　　InternLM-XComposer2.5是一款专注于文本图像理解与合成应用的大型语言模型，具有7B参数的后端支持，能够处理长达96K的长文本上下文，适合需要广泛输入输出的复杂任务。

　　Wanderboat是一个利用人工智能技术，为用户提供个性化旅行计划的网站。用户可以通过聊天的方式，快速生成符合自己兴趣和偏好的旅行行程。它通过分析用户的需求，推荐最佳的景点、餐厅和活动，让旅行规划变得简单而无压力。

　　Gemma-2-27B-Chinese-Chat是基于google/gemma-2-27b-it的首个指令调优语言模型，专为中英文用户设计，拥有角色扮演和工具使用等多种能力。该模型通过ORPO算法进行微调，显着提升了在中英文对话、角色扮演和数学计算等方面的性能。

　　SenseVoice是一个包含自动语音识别(ASR)、语音语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)等多语音理解能力的语音基础模型。它专注于高精度多语种语音识别、语音情感识别和音频事件检测，支持超过50种语言，识别性能超越Whisper模型。模型采用非自回归端到端框架，推理延迟极低，是实时语音处理的理想选择。

　　CodeGeeX4-ALL-9B是CodeGeeX4系列模型的最新开源版本，基于GLM-4-9B持续训练，显着提升了代码生成能力。它支持代码补全、生成、代码解释、网页搜索、函数调用、代码问答等功能，覆盖软件开发的多个场景。在公共基准测试如BigCodeBench和NaturalCodeBench上表现优异，是参数少于10亿的最强代码生成模型，实现了推理速度与模型性能的最佳平衡。

　　YoYo是一个提供创意合成素材的平台，用户可以在这里探索各种角色和风物素材，进行个性化创作。它支持用户通过选择不同的角色和场景素材，合成具有独特风格的插图或图像。YoYo平台的主要优点在于其丰富的素材库和用户友好的合成工具，能够帮助设计师和插画师快速实现创意想法，提高工作效率。

　　笔魂AI绘画是一个专注于人工智能创作图片的网站，集聚了国内AI魔法师与炼丹师们，致力于打造AIGC的内容社区与商业化应用。该产品利用先进的AI技术，为用户带来创新的图片创作体验，同时提供丰富的创意社区交流平台，促进创意分享与合作。

　　Vitamin AI是一款利用人工智能提升公司生产力的平台，它通过集中信息、加速沟通、高效协助客户以及快速创建内容，彻底革新了公司的生产力。它提供了一系列专为商业需求设计的AI工具，包括社交媒体自动化、问答聊天、客户聊天机器人、内容生成器、博客文章生成器和音频转文字等。Vitamin AI专注于您的数据，提供对您业务更相关和准确的见解和输出，同时优先考虑敏感数据的保密性和安全性。

　　L402是一个开放协议，基于HTTP 402 Payment Required状态代码和闪电网络实现互联网原生的付费墙。它为API货币化和数字服务提供了即时、低成本的交易，通过微支付、按使用付费和细粒度访问控制模型，解锁了新的收入流。L402的开放协议鼓励创新和跨行业的广泛采用，促进了一个充满活力的应用和服务生态系统的发展。

　　Fast Sites with AI Translations是一个静态网站构建工具，它使用i18next进行多语言翻译，并且包含自定义语言切换器。该工具还包含站点Map生成器和robots.txt生成器，内置HTML验证功能。它可以帮助用户从单一语言扩展到20多种语言，通过调整URLs和生成多语言链接的站点Map，使搜索引擎能够轻松找到内容。作为静态网站生成器，输出文件非常小，加载速度快，安全性高。

　　creaition是一个利用先进AI技术，通过全视觉工作流程，让用户轻松创建令人惊叹的设计对象的平台。它提供了基础版Lite的免费试用，让用户体验无缝的设计创造过程。该平台通过训练定制的AI模型，融合品牌精髓，生成与现有产品组合无缝集成的无数新设计。

关键字：

上一篇：东微半导（688261）7月5日主力资金净买入128439万元下一篇：网络货运为企业降本增效

推荐阅读

免责声明

本网转载作品的目的在于传递更多信息，涉及作品内容、

版权等问题，请联系我们进行修改或删除！

欢迎访问！

国产GPU正式进入万卡万P时代！摩尔线程智算集群扩展至万卡

热门频道推荐

相关功能

免责声明