NVIDIAT4GPU加速VIVO推荐系统部署:支撑亿级用户智能化服务

VIVO 是一家以设计驱动创造伟大产品,打造以智能终端和智慧服务为核心的科技公司,也是一家全球性的移动互联网智能终端公司。致力于为消费者打造拥有极致拍照、畅快游戏、Hi-Fi 音乐的智能手机产品。根据《2020胡润中国10强消费电子企业》报告显示,VIVO 以1750亿人民币排名第3位。

而 VIVO AI 平台致力于建设完整的人工智能中台,搭建全面的、行业领先的大规模分布式机器学习平台,应用于内容推荐、商业变现、搜索等多种业务场景,为 2.6亿+ VIVO 用户提供极致的智能服务。

为了能加速满足企业往智能化深度发展的需求,VIVO 在数据中台基础上增加了一体化智能服务的概念,并且立足于数据的获取、存储、特征处理、分析、模型构建、训练、评估等智能服务相关的任务环节,使其高度组件化、配置化、自动化。

NVIDIAT4GPU加速VIVO推荐系统部署:支撑亿级用户智能化服务

AI中台系统架构图 (图片来源于VIVO研究院授权)

在整个 AI 中台架构中,推荐中台则作为最重要的核心,也是最具商业价值的部分,需要承载 VIVO 亿级用户群体产生的日活千万的数据量。本文从推荐系统工程化的角度,解读了以下三方面内容:VIVO 的智能推荐系统是如何运行的?在实际应用场景中遇到过什么挑战?NVIDIA GPU 如何加速推荐系统的部署?

NVIDIAT4GPU加速VIVO推荐系统部署:支撑亿级用户智能化服务

推荐中台系统架构图 (图片来源于VIVO研究院授权)

经过验证,本方案可以有效解决推荐业务中 GPU 通用性问题;同时能更高效的利用 GPU 。目前已经在部分推荐业务中落地。经过压测,性能方面,单张 T4 GPU 推理卡,性能优于约6台以上的78核 CPU 服务器。成本方面,VIVO 自研通用 GPU 方案,在 TensorRT 方案基础上,取得了更高的 QPS 和更低的延迟,可节省成本约75%

在工程实践中,VIVO 推荐系统面临的第一个问题是如何平滑的把多种推荐业务逻辑从 CPU 平台向 GPU 平台迁移。鉴于当前已经存在多个推荐业务场景,包括应用商店,手机浏览器,负一屏信息流等。每个场景都有自己的算法模型和业务流程,如何把多种分散的智能服务整合到一个统一的推荐中台,同时要兼顾当前的业务的无损迁移是一个巨大的挑战。

一直以来,CPU 是客户主要的支撑推荐业务场景的主流硬件平台。但 VIVO 工程团队却发现在推理服务中,CPU 的表现始终无法达到要求标准,不仅算力较弱,应对复杂模型时,响应延迟和 QPS 也无法满足实时性和高并发的需求。

此时,客户尝试改用 NVIDIA GPU 来实现推荐业务的推理服务,有效解决 CPU 算力和性能的瓶颈的同时,也期待更大的成本优势。经过大量的工程实践,结果表明,单台基于NVIDIA T4 GPU的推理服务器,性能可以等同于24台 CPU 机器。毋庸置疑, GPU 的整体表现皆具有性能和成本的优势。据此,客户也认为使用 GPU 作为推荐业务场景的推理平台,已成为了公司乃至行业的共识。

由于 GPU 芯片架构的独特性,不经优化的原始 TensorFlow 模型,很难高效利用 GPU 的算力。为了解决这个问题,VIVO 工程团队投入了大量的人力和时间进行推荐模型优化及转换。而首先着手设计的是 TensorRT 方案,即是使用 NVIDIA 推理加速工具 TensorRT ,结合 Triton 的 serving 方式,以最大化 GPU 整体收益。

具体来说,把训练导出的 TensorFlow 模型经过 Onnx 转换成 TensorRT 模型,进而使用 NVIDIA 提供的推理服务框架 Triton 加载 TensorRT 模型。业务代码使用 VIVO 封装 Triton 的 JNI 接口,将业务请求输入 TensorRT 模型去做推理计算。

NVIDIAT4GPU加速VIVO推荐系统部署:支撑亿级用户智能化服务

推荐业务流程图(图片来源于VIVO研究院授权)

实测结果表明,该方案取得了预期的线上收益。性能方面,单张 T4 GPU 推理卡,性能优于约6台以上的78核 CPU 服务器。以如下场景为例,在相同的精排服务请求:QPS 为600,BatchSize 为3000时,不同方案的成本,TensorRT 方案可节约成本约14%:

NVIDIAT4GPU加速VIVO推荐系统部署:支撑亿级用户智能化服务

为了进一步提升线上收益,最大化 GPU 利用率,NVIDIA 机器学习团队配合 VIVO 继续优化现有效果,探索更多的技术方案可行性。

经过深入探讨,我们发现目前的方案(Triton+TensorRT)确实可以有效利用 GPU ,但是也存在一些问题。比如很多推荐业务场景,算法模型迭代更新频率高,工程化开发周期无法满足频繁更新的需求。此外,部分推荐模型存在算子不支持的情况,需要手动开发 TensorRT plugin ,短时间内也无法上线。总体来说,这样的开发流程通用性不够好,也较难有效的支持算法持续迭代。

因此,我们迫切需要实现一套机制,既要保证 GPU 的推理性能,更要具备良好的通用性。经过多次工程化尝试,我们针对性提出适合自身的推荐系统推理加速方案,即 VIVO 自研通用 GPU方案。

本方案通过多进程 + MPS + TensorFlow runtime 的方式,有效的提高了 GPU 利用率,且部分场景无需转换 TensorRT 模型。该方案的主要设计目标是:

  1. 多进程模型,管理和守护模型服务进程,有序的更新模型
  2. 添加原生 TensorFlow 中不支持 GPU 的算子
  3. 加载模型时,动态替换原来的不支持 GPU 的算子
NVIDIAT4GPU加速VIVO推荐系统部署:支撑亿级用户智能化服务

自研通用GPU方案示意图 (图片来源于VIVO研究院授权)

此外,考虑到具体工程实践中,VIVO 算法部门和工程部门需要同步开发,如何解耦算法工程团队和推理加速团队的开发任务,因此推出了可配置的推理引擎服务,加速迭代开发效率。

NVIDIAT4GPU加速VIVO推荐系统部署:支撑亿级用户智能化服务

自研可配置推理引擎示意图(图片来源于VIVO研究院授权)

经过验证,本方案可以有效解决推荐业务中 GPU 通用性问题;同时能更高效的利用 GPU 。目前已经在部分推荐业务中落地。经过压测,VIVO 自研通用 GPU 方案,在 TensorRT 方案基础上,取得了更高的 QPS 和更低的延迟,可节省成本约75%!

下表详细对比了在相同精排请求:QPS 为600,BatchSize 为3000时,不同方案的成本。

NVIDIAT4GPU加速VIVO推荐系统部署:支撑亿级用户智能化服务

同时,我们测试了负一屏信息流推荐场景,结果同样表明,无论是 QPS 或是推理延迟(测试选用业界标准P99/P95指标),自研通用 GPU 方案都优于 TensorRT 方案和 CPU 方案。

NVIDIAT4GPU加速VIVO推荐系统部署:支撑亿级用户智能化服务

展望未来,VIVO 推荐系统工程团队会继续探索新技术,持续积累 GPU 工程经验,并且沉淀到平台中,最终赋能到各个业务线。

主题测试文章,只做测试使用。发布者:觉鸟网,转转请注明出处:https://www.jueniao.cn/n/20394.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022年6月10日 17:44
下一篇 2022年6月10日 17:47

相关推荐

  • 首帧秒开+智能鉴黄+直播答题,阿里云直播系统背后技术大起底

    摘要: 想要快速实现直播能力,并对原有业务不产生任何影响,依托如阿里云一样的直播平台,来搭建移动直播系统,将技术难题交给阿里云,把更多的精力放在核心业务的本身,是最为稳妥和高效的选择。本文介绍阿里云直播系统架构、核心能力、技术实现和接入流程。 移动直播的应用场景 直播是内容高级的展示手段,移动直播和垂直领域结合,会碰撞出更好场景,为原有业务增值。 比如一些常…

    2022年6月22日
    2500
  • 广州疾控提示:建议中高风险地区人员暂缓返工返岗

    6日凌晨,广州疾控中心发布致来(返)穗市民疫情防控的健康提示,全文如下: 亲爱的市民朋友: 时值春节人员来(返)穗高峰,为保障您和家人的健康,特就有关个人的健康管理事项提示如下: 二、来(返)穗后及时向社区和单位报备。如与目前国内已经报告本土阳性感染者的公布行程有交集、重合的,或近期有本土阳性感染者所在地市旅居史的,抵穗后务必12小时内主动向社区(村)或小区…

    2022年6月13日
    2500
  • 苹果2250元新品智能音箱Homepod评测:音质完美

    苹果此前已经宣布旗下首款智能音箱HomePod将于2月9日正式开卖,售价为349美元,约合人民币2250元。这款智能音箱首发并无中国,但不妨先看看外媒The Verge的评测了解一下。 苹果HomePod评测视频: 苹果此前已经有所说明,表示HomePod更加注重音质部分,而非智能部分,The Verge的评测也印证了这一点,其对该产品的总体评分为7.5分(…

    2022年6月14日
    3000
  • 地平线:国内唯一量产包办NOA\L2+\智能座舱的芯片公司

    地平线拥有业界唯一覆盖支持L2到L4智能驾驶应用的征程系列车规级AI芯片,同时具备面向全场景整车智能落地的算法knowhow与量产工程化经验。 4月20日,作为国内屈指可数的一家汽车智能驾驶辅助芯片及解决方案供应商,地平线再度开放技术体验日活动。与过去发布的专注ADAS方面的技术方案不同,这次地平线带来了一整套的全场景智能驾驶解决方案,包括:全球首个量产级8…

    2022年6月20日
    4100
  • 千万曲库降临,小爱同学支持QQ音乐播放源

    今天上午,小米语音助手小爱同学发布 3.5 版本更新,用户直接对小爱说升级小爱即可获取更新。在新版本学中,小爱同学已经接入了拥有千万级曲库的 QQ 音乐。小米手机用户打开小爱同学进行设置,就可以选择 QQ 音乐作为播放源啦! 目前,小爱同学共提供了三个播放源进行选择,分别为小米音乐、QQ音乐和酷我音乐,其中小米音乐为手机预装软件,可以直接选择;QQ音乐和酷我…

    2022年6月15日
    3800

发表回复

您的电子邮箱地址不会被公开。

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信