随着云计算的迅猛发展,公有云成为数字经济时代的基础设施,全社会对于公有云运营商的要求也越来越高。与此同时,人工智能技术的发展,为智能运维AIOps提供了广阔的发展空间。
智能运维AIOps就是利用大数据与人工智能分析,替代传统人工对数据中心的运维方式。相比传统的人工运维,智能运维AIOps提高了数据中心运维的自动化和智能化水平,使云服务更加稳定、高效且安全。
深信服科技股份有限公司创新研究院高级技术专家易佳在接受OFweek维科网人工智能网编辑采访时表示,AIOps其实是把运维工作AI化,将人工运维的过程转变为自我提炼、学习、迭代的过程,同时将AI技术渗透到运维的监测、分析、决策、修复、总结,实现运维过程的全智能化。
据了解,深信服率先将AIOps技术在桌面云领域进行实践落地,凭借管理便捷性和高效运维能力,为数字化办公提供有力支撑。
“对于私有云、桌面云场景,我们已经具备完整交付的能力,客户现在已经在使用深信服的AI引擎来处理整个故障的生命周期”,易佳介绍说,“在托管云方面,我们构建深信服的云端智能大脑,具备快速计算与AI推理能力,能从故障预测、检测、评估、根因溯源等方面,覆盖故障全生命周期。”
易佳认为,AIOps智能运维可以帮助企业大幅提升资源使用效率,帮助企业降低综合成本。
深信服AIOps,让运维智能化
深信服科技成立于2000年12月,总部位于深圳,是一家专注于向企业级用户提供信息安全、云计算、基础架构、基础网络和物联网相关产品、解决方案和服务的供应商。2018年5月,深信服在深交所挂牌上市。
近年来,深信服密切布局AI版图,目前主要发力于云计算和安全领域。其中,安全领域以安全攻防和安全在线运营为主;云计算领域主要是服务于信服云,包括托管云、SDDC、私有云、桌面云等多种云场景。
在产品方面,信服云旗下的桌面云、安全运营、托管云、SDDC等产品,都融入了AI能力。
以托管云为例,托管云是一种集合了公有云和私有云特性的云服务,其中包含了云服务器和云资源管理。以前AI没有得到广泛应用的时候,只有当存储硬件损坏或服务器发生宕机时,运维工程师才能感知到,且无法实现提起预测或在故障引起重大事故前检测到。
而AI得到广泛应用后,利用深度学习模型,运维工程师能够提前感知到很多故障问题,比如磁盘故障预测,深信服目前的深度学习模型,已经具备很好的预测效果,精确率达100%,召回率93%。
桌面云AIOps的技术难点
今年11月,深信服AIOps技术凭借在人工智能领域的实力和优势,在OFweek第七届人工智能产业大会上,获得维科杯 · OFweek 2022 人工智能行业“技术突破奖”。深信服高级研发技术专家易佳受邀出席大会, 发表《桌面云场景下的AIOps技术实践》的演讲。
深信服高级研发技术专家 易佳
易佳指出,随着桌面云运维遇到第三方软件兼容性、蓝屏、木马等挑战,企业需要快速定位问题所在,如应用卡慢、响应延迟等,以及企业可能遇到私有云资源不足、硬件故障、网络等深层挑战,为此,深信服提出了桌面云智能运维一体化技术方案。
该方案包括数据服务和智能分析服务两大核心部分。易佳认为,运维工作第一个难点就是数据本身,数据是生命之本,所以深信服在数据方面花了很多功夫。
易佳介绍,深信服有一套非常完备的云计算场景下的数据采集引擎,采集引擎需要做很多精细化的设计,比如性能稳定性、调度体系、数据结构、多产线的兼容性,以及能够与深信服的计算平台较好的吻合。要做到这些是一个比较大的难点。
此外,易佳也指出,信服云桌面云AIOps也面临一些挑战。比如私有云场景下,因网络限制,很难获取大规模数据用以持续不断地进行AI学习,这导致整个AI算法更新迭代链路过长。其次,用户的业务场景很多,在医疗、金融等不同场景下,算法模型如何做到较高的覆盖率和精准的识别率,这也是当前比较棘手的一个问题。
价值与未来
易佳认为,缩短故障的平均定位与修复时间,是AIOps智能运维方案为企业客户带来的非常明显的价值。部署AIOps系统,可以减少企业IT运维的人力成本,同样的人力可以管理企业内部爆发式增长的设备和应用,提高运维效率。
此外,在运维质量方面,AIOps智能运维通过构建的运维“大脑”,实现异常检测、故障分析、故障预测、故障自愈,对运维事件进行及时的分析、决策和修复。
在算法效果上,桌面云卡慢/故障异常检测准确率达到87%。AIOps的智能诊断能力,可以覆盖桌面云超过65%的已知资源卡慢问题,减少或避免IT故障带来的损失。
提及未来的演进方向,易佳说,未来信服云桌面云AIOps系统会增加更多的反馈和模型的自更新机制,实现多业务场景的覆盖。同时,基于业务画像和知识图谱等技术,实现精细化故障诊断,打造让用户满意的产品体验。