尊龙时凯

银狐病毒防御大作战 丨 揭秘最新攻击手段与体系化防护实战
预约直播
体验驱动校园网,数智彩光谱新篇 丨 尊龙时凯体验驱动下一代全光校园网建设研讨会
预约直播
尊龙时凯睿易 尊龙时凯官方商城

中文

  • Global / English
  • France / Français
  • Germany / Deutsch
  • Indonesia / Indonesian
  • Italy / Italiano
  • Japan / 日本語
  • Kazakhstan / Pусский
  • Poland / Polski
  • Portugal / Português
  • Spain / Español (España)
  • Thailand / ภาษาไทย
  • Vietnam / Việt Nam
  • LATAM / Español
    (América Latina)
  • Türkiye / Türkçe
  • Brazil / Português(Brazil)
产品
< 返回主菜单
产品中心
产品

交换机

交换机所有产品
< 返回产品
交换机主页
交换机

园区网交换机

园区网交换机所有产品
  • 核心交换机
  • RG-N18000-E(Newton)系列新一代融合核心交换机
  • RG-S7800C-X系列新一代融合核心交换机
  • RG-S7800C系列融合核心交换机
  • RG-S7600系列超聚合核心彩光交换机
  • 汇聚交换机
  • RG-S6150-X系列新一代融合万兆交换机
  • RG-S6120系列融合万兆交换机
  • RG-S6100系列多速率系列交换机
  • RG-S5760-X系列新一代融合千兆交换机
  • RG-S5750-X系列融合千兆交换机
  • RG-S5750-H系列千兆交换机
  • 接入交换机
  • RG-S5315-E系列2.5G多速率交换机
  • RG-S5310-E系列新一代千兆交换机
  • RG-S5310系列千兆交换机
  • RG-S5300-E系列新一代千兆交换机
  • RG-S5000系列千兆交换机
  • RG-S2910XS-E系列千兆交换机
  • RG-S2910-H系列千兆PoE交换机
  • RG-S2900G-E V3系列千兆交换机
  • 极简光交换机
  • RG-S5750-DP系列极简光汇聚交换机
  • RG-MUX彩光透明汇聚系列
  • RG-SF2920系列极简光交换机
  • RG-PF2920系列极简光入室交换机
  • RG-IF2920系列极简光入室交换机
  • RG-MF2920系列极简光入室交换机
  • RG-PDBOX集中供电主机
  • RG-SF2910系列极简光入室交换机

数据中心与云计算交换机

数据中心与云计算交换机所有产品
  • 核心交换机
  • RG-N18000-XH系列
  • RG-N18000-X系列
  • RG-S7800C系列
  • RG-S6990系列
  • RG-S6980系列
  • RG-S6930系列
  • RG-S6920系列
  • RG-S6910系列
  • RG-S6900AI系列
  • 接入交换机
  • RG-S6580系列
  • RG-S6520系列
  • RG-S6510系列
  • RG-S6200系列
  • RG-S6000系列
  • 400G/800G光模块
  • LPO系列光模块

行业精选交换系列

行业精选交换系列所有产品
  • 行业精选交换系列
  • RG-SG7008L多业务融合一体机
  • RG-S3000-RU系列一体机远端模块
  • M7000L-RU系列一体机远端模块
  • RG-S6120-L系列万兆交换机
  • RG-S5750V2-L系列千兆交换机
  • RG-S5300-L系列千兆接入交换机
  • RG-S2910-L系列千兆交换机
  • RG-S2906-L系列千兆交换机
  • XS-S1930J-P系列二层接入交换机

工业交换机

工业交换机所有产品
  • 工业交换机
  • RG-IS5200沙海系列工业以太网交换机
  • RG-IS5900系列一机双网工业交换机
  • RG-IS2900系列一机双网工业交换机

SDN

SDN所有产品
  • SDN
  • 数据中心SDN控制器
  • ServiceChain方案

配件

配件所有产品
  • 配件
  • 电源模块配件

所有技术解决方案

  • 数据中心场景
  • AI-Fabric智算中心网络解决方案
  • AI-FlexiForce智算中心网络解决方案
  • 高速低碳云数据中心解决方案集
  • 极速X-Fabric数据中心网络解决方案
  • AIGC量化分析平台
  • RoCE智算网络专家

路由器

路由器所有产品
< 返回产品
路由器主页
路由器

核心路由器

核心路由器所有产品
  • 核心路由器
  • RG-RSR77-XA系列多业务核心路由器

汇聚路由器

汇聚路由器所有产品
  • 汇聚路由器
  • RG-RSR50系列多业务框式汇聚路由器
  • RG-RSR30系列多业务盒式汇聚路由器

接入路由器

接入路由器所有产品
  • 接入路由器
  • RG-RSR20系列多业务接入路由器

移动路由器

移动路由器所有产品
  • 移动路由器
  • RG-RSR800系列移动路由器
  • RG-RSR10-01G系列4G路由器

行业精选路由器系列

行业精选路由器系列所有产品
  • 行业精选路由器系列
  • RG-RSR10-L系列路由器

所有技术解决方案

  • 广域网
  • 尊龙时凯全新SD-WAN解决方案

无线

无线所有产品
< 返回产品
无线主页
无线

放装型无线接入点

放装型无线接入点所有产品
  • Wi-Fi 7系列
  • RG-AP9861-R四射频Wi-Fi 7无线AP
  • RG-AP9850-R五射频Wi-Fi 7无线AP
  • RG-AP9751-R四射频Wi-Fi 7无线AP
  • RG-AP9520-RDX三射频Wi-Fi 7无线AP
  • RG-AP9220(V2)双射频Wi-Fi 7无线AP
  • RG-AP9220双射频Wi-Fi 7无线AP
  • Wi-Fi 6系列
  • RG-AP880-AR四射频Wi-Fi 6无线AP
  • RG-AP850-AR(V3)四射频Wi-Fi 6无线AP
  • RG-AP840-AR三射频Wi-Fi 6无线AP
  • RG-AP820-AR(V3)三射频Wi-Fi 6无线AP
  • RG-AP820C双射频Wi-Fi 6无线AP
  • RG-AP820-L(V3)双射频Wi-Fi 6无线AP
  • RG-AP820-I双射频Wi-Fi 6无线AP
  • Wi-Fi 5系列
  • RG-AP730-I三射频Wi-Fi 5无线AP

墙面型无线接入点

墙面型无线接入点所有产品
  • Wi-Fi 7系列
  • RG-AP1920双射频Wi-Fi 7无线AP
  • RG-AP1920(V2)双射频Wi-Fi 7无线AP
  • RG-AP1920-X双射频Wi-Fi 7无线AP
  • Wi-Fi 6系列
  • RG-AP180C双射频Wi-Fi 6无线AP
  • RG-AP180(V3)双射频Wi-Fi 6无线AP
  • RG-AP180-L(V3)双射频Wi-Fi 6无线AP
  • RG-AP170双射频Wi-Fi 6无线AP

智分无线接入点

智分无线接入点所有产品
  • 全光无线星空系列
  • RG-AM5832-SF-P 24口万兆恒星主机
  • RG-AM5754-SF-P 48口多速率恒星主机
  • RG-AM5528-SF 24口2.5G恒星主机
  • RG-MAP920-SF-M Wi-Fi 7行星无线AP
  • RG-MAP852-SF(V3) 4口行星AP
  • RG-MAP852-SF-U 旗舰版行星AP
  • RG-MAP852-SF-M(V3) 4口行星AP
  • 智分+系列
  • RG-AM5532智分+主机
  • RG-AM5528(ES)智分+主机
  • RG-MAP852(V3)智分+微AP

室外无线接入点

室外无线接入点所有产品
  • 室外无线接入点
  • RG-AP680-AR四射频Wi-Fi 6无线AP
  • RG-AP680-O(P)双射频Wi-Fi 6无线AP
  • RG-AP680C双射频Wi-Fi 6无线AP
  • RG-AP680-O(V3)双射频Wi-Fi 6无线AP
  • RG-AP680-CD(V3)双射频Wi-Fi 6无线AP

场景化无线

场景化无线所有产品
  • 零漫游无线接入点
  • RG-APD4930零漫游主机
  • 轨道交通无线接入点
  • RG-AP680-PIS双射频Wi-Fi 6车载AP
  • RG-AP680-AR四射频Wi-Fi 6无线AP
  • 一机一网无线远端模块
  • M7000L-AP842I-RU室内Wi-Fi 6无线远端模块
  • M7000L-AP842W-RU室内Wi-Fi 6无线远端模块
  • M7000L-AP842O-RU室外Wi-Fi 6无线远端模块

无线控制器

无线控制器所有产品
  • 无线控制器
  • RG-WS7816C高性能无线AC
  • RG-WS7110C高性能无线AC
  • RG-WS7110高性能无线AC
  • RG-WS6816C高性能无线AC

行业精选无线系列

行业精选无线系列所有产品
  • 放装型无线接入点
  • RG-AP900-A双射频Wi-Fi 7无线AP
  • RG-AP850-A(V2)三射频Wi-Fi 6无线AP
  • RG-AP820-A(V3)双射频Wi-Fi 6无线AP
  • 墙面型无线接入点
  • RG-AP194-A双射频Wi-Fi 7无线AP
  • RG-AP180-A(V3)双射频Wi-Fi 6无线AP
  • RG-AP180-L-A(V3)双射频Wi-Fi 6无线AP
  • 室外无线接入点
  • RG-AP690-A双射频Wi-Fi 7 室外全向无线AP
  • RG-AP690D-A双射频Wi-Fi 7 室外定向无线AP
  • 无线控制器
  • RG-WS7204-A多业务无线AC
  • RG-WS7208-A多业务无线AC
  • RG-WS7005-A(V2)多业务无线AC

无线管理与应用

无线管理与应用所有产品
  • 无线管理与应用
  • RG-WIS云管理平台

所有技术解决方案

云桌面

云桌面产品方案中心
< 返回产品
云桌面主页
云桌面

云终端系列

云终端系列所有产品
  • 云终端系列
  • RG-CT7800系列终端计算机
  • RG-CT7529尊龙时凯应用全融合整机
  • RG-CT7528系列TCI云终端
  • RG-CT7526系列TCI云终端
  • RG-CT6000-G4系列IDV云一体机
  • RG-CT5540H系列IDV/TCI云终端
  • RG-CT5002C-G4系列TCI云终端
  • RG-CT5000-G4系列IDV云终端
  • RG-CT3100-G2系列TCI云终端
  • RG-CT1120系列VDI云终端
  • RG-CT1006 VDI云终端
  • RG-CT1000-G2 VDI云终端
查看云终端选型指导

云主机系列

云主机系列所有产品
  • 通用云主机产品
  • RG-CS7015云服务器
  • RG-CS7010云服务器
  • RG-CS6000-G2云服务器
  • RG-CS1020系列云服务器
  • RG-CT5500C-CS MINI云服务器
  • 应用创新云主机产品
  • RG-CS7025云服务器
  • RG-CS5020系列云服务器

云桌面软件系列

云桌面软件系列所有产品
  • 云桌面应用软件系列
  • RG-Unified WorkSpace统一工作空间解决方案
  • RG-CloudManagerRemote云桌面教学管理软件
  • RG-ClassManager Rainbow云课堂教学管理软件
  • RG-ClassManager Sunny云办公云盘软件
  • RG-Class Service Center 云课堂服务中心
  • RG-CloudManagerCenter云桌面服务中心
  • 云桌面平台软件系列
  • RG-CDC云桌面管理平台
  • RG-CCP云计算平台
  • RG-CVA尊龙时凯应用虚拟化

配件系列

配件系列所有产品
  • 配件系列
  • RG-CPM2700-G3 27寸IPS液晶显示器
  • RG-CPM2380C-G2 23.8寸IPS液晶显示器
  • RG-CPM2150-G3 21.5寸VA液晶显示器
  • RG-OCS系列终端云化套件
  • RG-CPK1000-G2有线键鼠套装

服务产品

服务产品所有产品
  • 服务产品
  • RG-云桌面基础质保服务(寄修)
  • RG-云桌面上门类基础质保服务(服务器)
  • RG-云桌面上门类基础质保服务
  • RG-云桌面硬盘不返还服务
  • RG-云桌面配件质保服务

所有技术解决方案

  • 云办公
  • 应用全融合办公解决方案
  • 安全云办公3.0解决方案
  • 云办公(vGPU解决方案)
  • 云课堂
  • 实训空间解决方案
  • 教育云电脑解决方案
  • 三擎云课堂(VDI+IDV+TCI)
  • 云课堂(vGPU解决方案)
  • 应用全融合课堂解决方案

安全

安全所有产品
< 返回产品
安全主页
安全

大数据安全平台

大数据安全平台所有产品
  • 大数据安全平台
  • RG-BDS-C大数据安全平台基础版
  • RG-BDS 500E-C日志审计平台

下一代防火墙

下一代防火墙所有产品
  • 下一代防火墙
  • RG-WALL 1600-Z8680新一代防火墙
  • RG-WALL 1600-Z8620新一代防火墙
  • RG-WALL 1600-Z8600-G20新一代防火墙
  • RG-WALL 1600-Z5100新一代防火墙
  • RG-WALL 1600-Z5000-G10新一代防火墙
  • RG-WALL 1600-Z3500新一代防火墙
  • RG-WALL 1600-Z3200新一代防火墙
  • RG-WALL 1600-Z3100新一代防火墙
  • RG-WALL 1600-CF6000-10新一代防火墙
  • RG-WALL 1600-CF6000-03新一代防火墙
  • RG-WALL 1600-CF6000-01新一代防火墙

安全网关

安全网关所有产品
  • 安全网关
  • RG-CMG6000-09多功能安全网关
  • RG-CMG6000-06多功能安全网关
  • RG-CMG6000-03多功能安全网关
  • RG-EG-E5220新一代智能安全网关
  • RG-EG-E5120新一代智能安全网关
  • RG-EG-E3500新一代智能安全网关
  • RG-EG-E3300新一代智能安全网关
  • RG-EG-E3000-G智能安全网关
  • RG-EG5200-P多业务PoE安全网关
  • RG-EG3250新一代多业务安全网关
  • RG-EG3230新一代多业务安全网关
  • RG-EG3220新一代多业务安全网关
  • RG-EG3210新一代多业务安全网关
  • RG-EG2100-P V2全能PoE网关

检测管理安全

检测管理安全所有产品
  • 检测管理安全
  • RG-UAC 6000-U3210应用管理网关
  • RG-UAC 6000-U3100应用管理网关
  • RG-UAC 6000-X300D应用管理网关
  • RG-UAC 6000-X60M应用管理网关
  • RG-UAC 6000-X20ME应用管理网关

安全服务

安全服务所有产品
  • 安全服务
  • 尊龙时凯等级保护建设服务
  • 尊龙时凯风险检测服务
  • 尊龙时凯安全专家服务

安全云

安全云所有产品
  • 安全云
  • 尊龙时凯Z系列防火墙安全云管理平台

所有技术解决方案

  • 安全
  • 尊龙时凯网络出口网安融合解决方案
  • 企业办公综合出口解决方案
  • 商贸连锁综合网关解决方案
  • 高职教多业务出口解决方案

软件

软件所有产品
< 返回产品
软件主页
软件

网络管控产品

网络管控产品所有产品
  • 网络管控产品
  • RG-UNC统一网络中心

IT运维产品

IT运维产品所有产品
  • IT运维产品
  • 乐享智能运维管理平台
  • 乐享订阅服务
  • 乐享云辅驾运维管理服务
  • 乐为服务管理平台

所有技术解决方案

  • 政府
  • 政务网络运维管理解决方案
  • 教育
  • 极简校园网综合运维管理
  • 医疗
  • 医疗信息化运营解决方案
  • 企业
  • 企业IT运维解决方案

身份管理

身份管理所有产品
< 返回产品
身份管理主页
身份管理

安全管理系列

安全管理系列所有产品
  • 安全管理系列
  • RG-SMP+安全管理平台
  • RG-SMP安全管理平台
  • RG-ESS 1000易安全系统
  • RG-IPC 1.X身份策略管理中心

运营管理系列

运营管理系列所有产品
  • 运营管理系列
  • RG-SAM+5.X高校AI认证平台
  • SAM+增值维护服务

身份中台

身份中台所有产品
  • 身份中台
  • RG-SourceID身份中台构建专家

所有技术解决方案

  • 身份管理
  • 新一代医院内网终端准入解决方案

服务产品

服务产品所有产品
< 返回产品
服务产品主页
服务产品

基础实施服务

基础实施服务 所有产品
  • 基础实施服务
  • 软件调试服务
  • 硬件安装服务
  • 项目技术支持服务

基础维护服务

基础维护服务所有产品
  • 基础维护服务
  • 产品授权服务
  • 维保服务

运维管理服务

运维管理服务所有产品
  • 运维管理服务
  • 综合运维服务
  • 驻场服务

整网服务

整网服务所有产品
  • 整网服务
  • 网络规划设计服务
  • 网络优化服务
  • SuperWi-Fi一站式会场无线即时服务

安全服务

安全服务所有产品
  • 安全服务
  • 安全巡检服务
  • 安全运维服务

备件与扩容服务

备件与扩容服务所有产品
  • 备件与扩容服务
  • 云桌面扩容增配服务
  • 备件销售

培训与认证服务

培训与认证服务所有产品
  • 培训与认证服务
  • 1+X网络设备安装与维护职业技能等级证书
  • 培训服务
  • 认证服务
  • 【考试券】RGSA-Routing and Switching
  • 【考试券】RGSP-Routing and Switching
  • 【考试券】RGSE-Routing and Switching Written
  • 【考试券】RGSA-Cloud Computing
  • 【考试券】RGSA-Security
  • 【实验券】RGSE-Routing and Switching Lab
  • 【考试券】RGSE-Data Center Network Written
  • 【实验券】RGSE-Data Center Network Lab

官方商城

尊龙时凯睿易

体验中心

尊龙时凯AI应用

网络研讨会

服务支持
< 返回主菜单
服务与支持中心
服务与支持
服务工具
  • 小锐云服
  • 小锐云桥
  • 客服中心AI闪电侠
  • 智能云管平台MACC
  • 无线智能服务WIS
  • 尊龙时凯安全云平台
  • 查看全部
服务平台
  • 云桌面服务平台
  • 睿易服务平台
  • 合作伙伴服务平台
技术支持
  • 文档中心
  • 软件下载
  • 在线培训
  • 常见问题
  • 技术博文
  • 产品参数查询
服务产品
  • 维保服务
  • 综合运维
  • SuperWi-Fi
  • IPv6改造
  • 查看全部
产品服务
  • 产品授权申请
  • 产品维修中心
  • 产品服务公告
  • 产品保修查询
  • 我要报修
  • 安全通告
  • 保修服务政策
  • 睿易保卡激活与查询
教学服务
  • 尊龙时凯ICT人才教育中心
  • 校企合作
  • 认证体系
  • 培训计划
合作伙伴
< 返回主菜单
合作伙伴中心
合作伙伴
成为尊龙时凯伙伴
  • 合作伙伴政策
  • 行为准则
  • 廉洁及合规举报
  • 我要签约
  • SMB事业部分销专区
售前营销
  • 市场资料库(合作伙伴)
  • 尊龙时凯产品配置器
  • 营销资料平台
  • 售前认证
  • 售前工具包
  • 合作伙伴礼品库
  • e-Learning
  • 产品资质查询
  • 远程POC
销售与订单
  • 项目报备管理系统
  • 订单管理
  • 产品停服信息
  • 产品停售信息
  • 商务手册
  • 行业渠道产品电商平台
  • 历史订单查询
  • 授权函查询
售后及服务
  • 售后认证
  • 售后工具包
  • RSDP 尊龙时凯服务交付平台
  • 售后服务认证
  • 售后知识平台
  • 渠道服务管理系统(CSM)
  • SMB渠道客户服务平台(CCSP)
用户中心
  • 系统指导大全
  • 账号管理
  • 下载电子授权牌
  • 签约信息查看
  • 资质查询
  • 签章管理
  • 返利管理
  • 睿易技术认证查询
关于尊龙时凯
< 返回主菜单
关于尊龙时凯首页
关于尊龙时凯
公司介绍
  • 公司概况
  • 发展历程
  • 自主创新
  • 企业文化
公司动态
  • 新闻报道
  • 应用案例
  • 视频中心
  • 活动及研讨会
  • 用户说
加入我们
  • 社会招聘
  • 校园招聘
联系我们
  • 总部及办事处
  • 安全通告
  • 服务网点
  • 阳光诚信系统
营销资料平台
  • 营销资料平台
投资者关系
登录 登录 个人中心 个人中心 尊龙时凯商城 尊龙时凯商城 区域/语言 区域/语言
返回主菜单
选择区域/语言
  • Global / English
  • Japan / 日本語
  • Türkiye / Türkçe
  • Vietnam / Việt Nam
  • Indonesia / Indonesian
  • Thailand / ภาษาไทย
  • Spain / Español (España)
  • Portugal / Português
  • France / Français
  • Poland / Polski
  • Kazakhstan / Pусский
  • Germany / Deutsch
  • Italy / Italiano
  • Brazil / Português(Brazil)
  • LATAM / Español (América Latina))

    技术盛宴 | 浅谈LLM推理性能的影响因子——HBD Size

    作为GenAl时代的全栈服务专家,尊龙时凯网络致力于为企业提供覆盖laaS到PaaS的全栈产品及解决方案。

    • 发布时间:2024-05-31

    • 点击量:

    • 点赞:

    分享至

    我想评论

    随着LLM(大语言模型)技术的飞速发展,市面上出现越来越多的AGI应用,对话式机器人作为最普遍的应用已经深入普罗大众的工作和学习中。最显著的改变就是从搜索引擎查询问题,转变为打开多款对话式机器人的APP进行查询,然后再综合多个解答进行自己的判断。

    那么,“对话式机器人”这类应用是如何根据用户的输入,来进行有逻辑的高质量内容输出的呢?其本质是:先通过大量的“训练”任务使其具备能够理解用户语言、逻辑和思维的能力,再通过用户给出的输入进行“推理”运算,进而输出对应的内容与用户进行高质量互动。 

    一、训练与推理的关系

    LLM(大型语言模型)的训练和推理是模型生命周期中的两个关键阶段,我们可以类比成理论学习和应用实践的结合。

    1.训练阶段(学习阶段):

    该阶段是模型构建的基础,决定了模型的质量和应用效果。

    1)在训练阶段,LLM通过大量的文本数据学习语言的模式、语法、语义和上下文信息。

    2)使用深度学习技术,如神经网络,模型在训练过程中不断优化其参数,以提高对文本数据的建模能力。

    2.推理阶段(应用阶段):

    该阶段不涉及参数更新,将训练学到的知识应用到实际问题上。

    1)推理阶段是指使用训练好的模型对新的输入数据进行处理,以生成输出或做出决策的过程。

    2)在推理过程中,模型会接收新的文本输入,预测或生成文本,执行翻译,或者完成其他特定的NLP任务。

    3.差异性:

    1)目标:训练和推理都旨在实现模型的最佳性能,但训练侧重于学习,推理侧重于应用。

    2)可用性:训练阶段的效果会直接影响推理阶段结果的可用性。

    3)资源消耗:训练通常需要大量的计算资源和数据,而推理则更注重实时性、成本和可扩展性。

    4)持续学习:推理阶段的反馈可以用于改进模型,通过持续学习或增量学习的方式,使模型适应新的数据和场景。
     

    二、推理的过程

    主流 LLM 基本都是 Decoder Only 的 Transformer 模型,推理过程可以分为两个阶段:

     

    Transformer 模型结构图 

    Transformer 模型结构图

     

    1.“预填充(Prefill)”阶段:

    Prefill阶段是模型根据用户输入的Tokens通过一次前向传播来生成第一个输出 Token。在前向传播过程中,输入的Tokens之间以并行方式执行运算,所以具备比较高的执行效率。

    2.“解码(Decoding)”阶段:

    在Prefill阶段生成第一个 Token(A)之后开始进入Decoding阶段。在Decoding阶段中,解码器会以自回归的方式逐个生成输出序列的词元。在每一步,它基于已生成的词元和之前的状态来预测下一个词元,直到生成一个特殊的 Stop Token(或者满足用户设置的某个限制条件,比如超过一定的长度) 生成过程就会停止。Decoding阶段需要执行多次前向传播,而且只能以串行的方式执行,因此效率相对比较低。

    两个阶段对算力芯片的要求也不同,Prefill阶段为计算密集型,适合选用高算力 GPU;Decoding阶段为访存密集型,相应的可以使用算力不是特别强而访存带宽比较大的 GPU。

     

    三、推理的评估指标

    针对 LLM 推理服务通常有两种调用模式,如下表所述:

     

    针对 LLM 推理服务通常有两种调用模式

     

    类似ChatGPT 一样的 Streaming 方式,目前应用比较广泛,主要因为可以给用户带来更好的交互体验,不需要长时间等待即可获得系统反馈,因此本文以Streaming模式下的评估指标来进行分析。

    1.首个词元生成时间(Time To First Token,简称TTFT):

    在用户输入查询的内容后,模型生成第一个输出token所需要的时间。

    2.单个输出词元的生成时间(Time Per Output Token,简称TPOT):

    推理系统根据用户请求生成后续词元所需要的平均时间。在人机实时交互的过程中,让用户得到快速的响应至关重要,延时较高会让客户陷入较长的等待时间,大大影响交互体验,但只要生成速度大于人类的阅读速度就能获得很好的用户体验。

    3.Decoding吞吐:

    通常用来衡量推理服务器在decoding阶段的输出效率,即decoding阶段的所有Token数量除以该阶段所需要的耗时。

    4.单卡吞吐:

    通常用来衡量推理服务器完成本次推理任务的输出效率,即在Prefill阶段以及decoding阶段总共生成的Token数量除以整个推理任务所需要的耗时。

     

    四、推理性能的影响因素

    影响LLM推理性能的因子有许多,本文重点分析不同HBD Size域在不同集群规模以及不同计算精度下对推理性能的影响。

    1.计算精度:

    指浮点数(Floating Point Numbers)的不同精度,比如FP16、FP8、FP4。

    2.实例规模:

    完成本次推理任务所需要的GPU卡数量。

    3.HBD (High Bandwidth Domain)Size:

    一个推理实例内,通过独立的高速通道形成全联接的GPU卡的数量。(跨服务器通过交换柜互联也算同一个HBD)

    我们基于理论建模的和仿真算法,通过控制变量的对比方式,在保证单一因子变化的前提下去分析计算精度、集群规模以及HBD Size对推理性能的影响。

    测试模型采用B200算力卡进行模拟仿真,基于QWen 110B的基础上扩展16个MoE专家,Batch Size为16,Token输入序列为32K,同时假设HBD内通过1.8TB/s的双向带宽互联。

     

    HBD (High Bandwidth Domain)Size 

    如上图数据所示,发现以下现象:

    64张B200的GPU卡规模下,组成该推理实例时。在上述模型推理中,HBD Size从8提升至64,TTFT最大下降46%,单卡吞吐最大提升41%。

    因此可以得出结论:HBD Size对推理性能有正面作用,即高速互联的GPU卡数量越多,推理性能越强。

     

    HBD (High Bandwidth Domain)Size

     

    如上图数据所示,发现以下现象:

    128张B200卡的GPU规模组成推理实例时,在上述模型推理中,HBD Size从8提升至128,TTFT最大下降57%,单卡吞吐最大提升59%;同样证明HBD Size的提升对推理性能有正面作用。

    对比上述两份数据,发现以下现象:

    从64卡扩展到128卡规模时,TTFT指标从下降46%变化为下降57%,收益更明显;再如单卡吞吐从提升41%变化为提升59%,收益更明显。

    因此可以得出结论:当采用更大规模GPU卡时,HBD Size扩增时性能收益提升趋于明显。

     

    HBD (High Bandwidth Domain)Size

     

    从上述表格数据中,我们发现以下现象:

    同为128卡规模下,FP16精度下随着HBD Size提升,Prefill与Decoding阶段的通信时间占比逐步下降,这种现象在FP8和FP4精度下也同样存在。

    当采用更低计算精度时,FP16精度下从8卡提升到128卡,单卡吞吐提升倍率为1.36;而在FP4精度下从8卡提升到128卡,单卡的吞吐提升倍率为1.63。

    因此可以得出结论:在更低的计算精度下,HBD Size扩增时性能收益提升趋于明显。

    五、结论

    1、在相同集群规模和同样的计算精度下,随着HBD Size的提升,推理性能也随之提升。具体表现为TTFT降低,Decoding吞吐及单卡吞吐提升。

    2、在相同计算精度下,集群规模越大,HBD Size的提升收益愈发明显。具体表现为TTFT降低幅度更大,Decoding吞吐及单卡吞吐提升幅度更大。

    3、在相同集群规模下,计算精度越低,HBD Size的提升收益愈发明显。具体表现为Prefill与Decoding阶段的通信时间占比逐步下降幅度越慢,单卡吞吐提升倍率幅度越大。

    尊龙时凯网络,作为GenAI时代的全栈服务专家,致力于为企业提供覆盖IaaS到PaaS的全栈产品及解决方案。我们的产品覆盖高性能网络与GPU算力优化调度,旨在通过创新技术解决方案,帮助客户实现生产效率的飞跃与运营成本的优化。我们坚信,通过我们的努力,能够为客户打造一个更加智能、高效和可靠的未来。让我们携手,共同探索GenAI时代的每一个机遇。

    相关标签:

    点赞

    更多技术博文

    任何需要,请联系我们

    返回顶部

    收起
    获取报价
    请选择服务项目
    关闭咨询页
    售前咨询 售前咨询
    售前咨询
    售后服务 售后服务
    售后服务
    意见反馈 意见反馈
    意见反馈
    更多联系方式