产业AI化的算力流水线,浪潮如何实践?
本篇文章3695字,读完约9分钟
人工智能已经从一项技术发展到一个行业,这是一个在过去几年里方兴未艾的行业轨迹。人工智能产业化,如语音识别,有很大的想象空间,但空天花板,这是公认的,人工智能为成千上万的行业是有前途的。
“工业信息市场已经进入工业人工智能阶段,这将是一个万亿美元的市场。”在最近举行的ipf2020 Inspur云数据中心合作伙伴大会上,Inspur集团首席执行官兼首席科学家王恩东如是说。
在从技术人工智能到工业人工智能的演变过程中,不同的企业正在探索,边界模糊,定位重塑。这是一个全新的机遇,可能催生新产业形式的巨人,或者淘汰一些竞争壁垒较弱的企业,处于变革的浪潮中,从底层计算能力中寻求突破。
结合Inspur自身的定位和面向ai的行业前景,Inspur构建了一条生产计算能力、聚合计算能力、调度计算能力和释放计算能力的流水线,以加速ai登陆,这反映了Inspur对ai计算能力的理解。
作为服务器制造商,计算能力的生产是Inspur最基本的能力。Inspur已经形成了完整的产品布局,可以提供全方位的定制人工智能芯片和加速器卡,涵盖从训练到推理、从语音到语义、从边缘到云、从人工智能加速到各种相关的人工智能应用场景。
据Inspur官员称,Inspur目前能够提供业内性能最高的最全面的ai服务器产品线。像agx-2这样用于训练场景的Fist产品是目前世界上第一个人工智能服务器,能够支持2u空.之间8个最高性能的GPU的互连agx-5是目前世界上单机ai计算性能最强的ai超级服务器,单机张量计算能力为每秒20万亿次。
在这次会议上,Inspur发布了世界上第一个ai开放式加速计算系统mx1,它可以在同一个单元中支持来自不同制造商的ai芯片,这意味着它可以支持符合oam(ocp加速器模块)开放标准的各种接口。
高效的计算能力不仅仅是硬件工作。如何在硬件平台上实现大规模计算,需要配套的软件优化产品和技术。例如,目前常用的 爬行数据集最大接近250tb,这样大的数据集需要大规模的深度神经网络训练,受gpu视频内存的限制,不可能实现超大参数规模和高分辨率图像模型的训练。在这方面,Inspur开发了lms系统,可以实现大模型中细粒度模型的分层,从而释放gpu内存压力,优化整体图像计算。
“在三维核磁共振图像的模型训练中,Inspur lms系统支持3.5亿像素立方的超大图像分辨率,但现在一般的gpu技术只能达到2亿像素立方左右的尺寸分辨率。”Inspur ai hpc总经理刘军表示。
由Inspur开发的人工智能大模型计算框架Lms在nlp智能语言模型训练中已经超过70亿个参数,是一般参数模型的20多倍。
计算能力产生后,数据中心就扮演了聚合计算能力的角色。目前,云数据中心仍存在许多固有的挑战,如虚拟交换、vxlan等技术,消耗大量cpu资源,最大时间损失高达50%。此外,网络抖动、带宽和iops的增加可能会降低云数据中心的性能。与此同时,裸机服务器、软件定义的网络和其他需求成为主流,这也给数据中心带来了新的问题。
当人工智能计算中心推出推理服务,特别是高并发推理服务时,最大的挑战来自于海量文件io处理的瓶颈。Inspur特别优化了高并发推理集群的体系结构,构建了基于nvme的高性能存储池。具体操作是对人工智能计算的软件栈进行深度优化,优化所有高带宽、低延迟的推理节点,使性能提高3.5倍以上。
在数据中心网络加速方面,引入n20x智能网络加速方案,可释放高达50%的cpu计算资源,将iops延迟降低30%以上。
n20x智能网络加速方案可以将主机网络、存储和计算的负载卸载到网卡上,有效地加速主机计算、存储和网络。它支持ovs、nvme和虚拟io的技术集成,甚至可以实现接近物理机性能的裸机服务、容器和虚拟机分钟级资源交付。
如何将生产和聚合后计算能力的高效调度用于更多创新?
从开发环境、生产环境、模型发布和部署来看,人工智能应用的复杂性远远高于以前。人工智能企业需要一个强大而高效的资源管理平台来帮助完成一站式的模型开发和部署,这就是inspiration资源平台。
aistation培训平台可以首先解决研发模式开发培训的挑战,实现ai计算能力的高效共享,加速AI创新的研发。通过aistation,企业的不同工作组和开发人员可以高效地共享ai服务器资源,保证计算资源的高效利用。
“我们可以实现非常精细的计算资源切割和共享。一个gpu资源可以与多个用户共享,以便同时使用。面对训练场地和大规模数据集的io挑战,我们实现了训练数据的缓存加速。模型开发和培训变得越来越复杂。Inspur在上海aistation提供分布式培训和安排,以确保开发人员能够尽可能自动安排更大的计算能力,从而提高ai培训模型的准确性。”刘军解释道。
在人工智能模型生产的在线阶段,人工智能推理平台可以帮助客户进行部署和推理,从而加快人工智能生产的整个交互过程,解决了许多问题。例如,它兼容各种深度学习框架和推理服务,aistation推理版本可以提供多模型计算结果,保证推理结果的准确性和可信度。
雷锋。com了解到,单个ai应用平均至少需要6个人月的专家人力,而智能工具可以提高ai开发的效率,有效降低人力成本,这已经成为许多企业用户的需求。
Inspur升级了automl 套件自动机器学习平台。automl 套件可以实现企业级一站式模型自动构建,支持私有化部署,完全支持图像分类/回归/目标检测cv场景应用。模型大小和计算量被极大压缩。用户提供原始图片数据和标注数据,由automl 套件处理,自动生成所需的人工智能算法模型。
Automl 套件可以通过其三个核心引擎实现上述功能: autonas可以根据数据特征从头构建网络模型,实现ai模型与用户应用场景的最佳匹配; autotune可以自动调整超级参数,使算法工程师从繁琐耗时的手动参数调整中解脱出来; auto rune基于元学习技术,可以在任何网络上进行无损压缩,使得生成的模型能够满足用户应用生产部署的需求。
目前,Inspur automl 套件已经在智能城市、铁路、高速公路等场景中得到应用。在智能城市交叉口监控领域,基于40万个数据集,automl自动生成的模型白天识别准确率为91.5%,夜间识别准确率为83.6%,高于专家手工设计模型的准确率;在铁路开口销设备的故障检测中,利用Inspur automl 套件自动生成的模型,召回率达到81.8%;在高速公路雾识别领域,经过14000张图片的搜索和训练,雾检测自动生成模型的准确率达到99.25%,模型效果达到了生产应用水平。
“在未来五年或十年,人工智能将成为未来的核心计算能力。面对大数据和深度学习的计算需求,人工智能将带来对计算能力的指数级增长需求。Inspur一直致力于创新的人工智能计算,这也是我们当前新基础设施的驱动力。Inspur将提供最先进的计算单元来产生计算能力。我们将通过更灵活的数据中心整合计算能力,并高效调度计算能力。我们的工业人工智能为创新提供了更多的可能性,与此同时,它通过释放计算能力来快速发展人工智能。”刘军总结道。
正如王恩东所说,智能社会离不开智能生态。在人工智能产业化过程中,Inspur是新兴人工智能企业的主要合作伙伴和计算能力提供商,新兴it企业积累了大量高质量的算法框架、模型和数据。这些高质量的人工智能技术正是工业用户在人工智能产业化过程中所需要的,也是为这些用户服务的传统合作伙伴所缺乏的。
为了帮助行业用户更好地进行智能转型,并将传统合作伙伴与新兴的人工智能企业联系起来,Inspur之前已经提出了元脑生态计划。圆脑由Inspur的左撇子合作伙伴组成,具有人工智能开发核心能力和行业整体解决方案交付能力。惯用右手的伙伴是联合形成的。在这次会议上,Inspur进一步推出了“电子基金”计划。“电子基金”的第一阶段将由Inspur作为启动资本进行投资,重点关注以下三个方向:
计划火种源:帮助合作伙伴创新人工智能技术,Inspur独立投资市场资金,为人工智能计算平台构建开放环境,免费为合作伙伴提供Inspur算法工具服务,授权合作伙伴开发人工智能算法,与合作伙伴共同创新产品。创建行业人工智能解决方案;
火种源项目:对于金融、通信、智慧城市、交通、能源等8个重点行业,我们将为合作伙伴提供联合营销资金,促进高价值人工智能场景解决方案的落地,加快重点行业的工业人工智能进程;
人才火种:为行业内的人工智能人才赋权,共同打造asc、aicc等顶级人工智能资源交流平台,开放资源为行业赋权,为行业培养更多优秀的人工智能人才。
Inspur的目标是汇聚人工智能最强的计算平台、最高质量的算法模型开发能力和最高质量的集成、部署和服务能力,从而支持和加速各行业、行业和人工智能的集成,使各行业和行业具有感知、自主学习和进化的能力,最终帮助用户完成商业智能的转型和升级,实现具有生态动力的行业和行业人工智能大脑。(雷锋网(公开号码:雷锋网)雷锋网)
标题:产业AI化的算力流水线,浪潮如何实践?
地址:http://www.qdgzw.com/kjcy/32087.html
免责声明:京青年创业网是一个专业为创业者提供学习交流的创业资讯媒体,更新的资讯来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,京青年创业网编辑将予以删除。