【精选】广电网络综合业务智能网管的开发与实现

栏目:未来教育  时间:2023-07-29
手机版

  

  本文为论文精要,原文刊发于《广播与电视技术》2023年第6期。

  湖州华数公司现有中心机房及分机房60多个,机房分布在市区、吴兴、南浔各区域。随着业务发展、技术进步,机房在逐年添加和更新设备后,造成设备品牌类型杂、网管多、操作乱、日志与报警堆积且缺乏关联组织等多种问题。运维人员需要熟记各种账号密码,掌握多种业务网管操作配置,抄录技术数据,人工编写运维报告等,驱车1个多小时去机房现场也是常事,工作强度大,应急处置效率不高。基于此,亟需搭建一个运维管理系统来减轻技术人员的压力,提升工作效率。

  本文作者:

  肖慧娟 湖州华数广电网络有限公司

  第一作者简介:

  肖慧娟(1970—),女,高级工程师,主要从事广播电视技术研究。曾主持湖州市数字电视平台的建设、湖州华数电视中心机房改造、湖州华数数据中心机房建设、湖州华数IP城域网与OTN的建设等重大项目。

  NO.1

  平台架构

  系统采用分布式B/S结构,通过SNMP协议与被控设备完成业务数据交互。平台部署在私有云ECS上,应用和交互端采用Linux + Nginx + MySQL + JAVA + Python + PHP的架构进行开发,与中心机房的数字电视前端系统、分机房的光放和动力环境系统深度对接。

  根据数据获取、数据处理存储及人机交互三大板块形成6个层级的设计:一是运行环境层,包括支撑系统运行的基础软硬件以及各被控设备等。二是数据库层,完成数据的采集存储。三是数据层,对底层数据库层实时抽取数据,进行转换、分析、分类存储等。四是业务(应用)层,告警、资产管理、监测、日志统计和权限管理等各种功能模块。五是展示层,页面展示和数据交互。六是前端UI层。

  NO.2

  数据采集

  通过与机房各网管系统的对接,对各类设备运行数据库、B/S架构数据采集、SNMP协议网管数据进行采集汇聚,搭建了支持多协议采集的机房设备网管数据中台。

  2.1 SNMP + MIB Browser监测数据搜集

  为获取中心机房的卫星接收机、复用器、IPQAM和核心交换机的监测数据,系统以SNMP协议为基础,引入了SNMP管理站,导入了厂商提供的每一类机器的MIB库(记录了对机器监测的各项数据所代表的节点),来查找机器中需要监测的数据。由于很多数据使用的是厂家私有的OID值,这些OID的描述和解释又保存在厂家的私有MIB库中。因此方案使用MIB Browser工具对卫星接收机、复用器、IPQAM和核心交换机的MIB库文件进行扫描,找到tuner、CI、ASI、Gbe、Platform、Qam、输入、输出、光功率、端口状态、接口流量和POWER等需监测参数与相应的OID值之间的对应关系,再使用snmpwalk+ 设备IP地址 + OID值命令来获取所需监测设备的实时状态信息,然后结合设备端进行验证,经过验证的数据将自动上传至中心平台。

  2.2 基于Kettle工具的多平台数据抽取

  为解决分机房光放、动环的Sqlserver数据库迁移到新开发的Mysql数据库后存在数据结构和数据库类型不同无法使用的问题,通过基于Kettle的前置机将Sqlserver上的数据按照数据标准进行提取,然后使用Kettle中的Job工作流模块,设置START、DUMMY、Transformation、SQL等环节,工作流保障系统的搭建能自动执行整个数据抽取流程。最后将原有Sqlserver的数据同步到Mysql数据库中完成数据抽取。

  NO.3

  数据中心平台的建设

  系统根据中心机房数字电视前端、分机房动力环境和光放平台的报警数据,结合智能运维诊断算法快速生成故障点位、故障路由和故障处理等建议信息。同时卫星接收机、核心交换机、复用器、IPQAM、UPS、温度感应器和光放设备由Websocket实时通讯技术模块与中心平台进行接口对接,获取展示关键数据,分析汲取有用数据,进行归类整理,形成综合展示数据链,用于展示上屏模块处理,并呈现在大屏幕上,从而让运维人员及时掌握设备的运行情况、数据流量变化等情况,以提前做出判断和预警,达到综合分析评估和科学化管理。

  3.1 可视化的网管系统驾驶舱

  网管系统驾驶舱采用基于ECharts 的图形展现技术,屏幕两边通过scroll.js实现轮播方式,循环播放设备运行状态和实时告警信息。驾驶舱中央使用GIS数据可视化技术,从GIS数据图形平台获取到湖州市、区、县地图数据,搭建矢量地图。然后在地图上放置以电视中心机房为中心,扩散出去的各个分机房,通过贝塞尔曲线进行连接。当在线设备出现异常时,通过Echarts组件对不同类型的数据添加不同的显示设置,出现异常警告的机房点和中心点的传输路径将会与其他机房点和中心点的传输路径呈现出不同的状态,异常机房点状态与其他机房点状态也会显示不一致。从地图上可以直观地看到异常机房点的名称、在湖州市的地理位置以及到中心点的传输路径等信息,运维人员可以通过点击这个机房查看该机房的实时数据、告警信息、机房出入记录和历史数据图表,从而实现可视化拓扑图和统一的集中告警监控。如图1所示。

  

  图1 智能运维监测系统

  3.2 WebGL三维渲染技术在机房运维的运用

  基于canvas 3d技术运用Three.js框架构建初始化3D场景,借助XYZ坐标轴,利用AxesHelper工具对机房、设备和机架完成WebGL三维渲染。在虚拟场景中组建了中心机房的所有设备,以及设备之间的关联关系。系统可以将出现问题的相关设备通过3D画面的形式显示出来,方便值班人员第一时间找到故障设备。

  NO.4

  智能运维机器人的开发

  智能运维机器人是采用CNN卷积神经网络,对采集到的数据集进行灰度模拟,构造二维数据,通过Tensorflow深度学习库自研开发DKBase广电设备故障预判知识库训练开发而成。主要有神经网络和分析决策管理两个主要模块。神经网络则由故障点链路分析和故障业务分析组成。

  机器人的整体流程如图2所示。当采集到一台设备数据时,机器人拿到了设备的告警信息,首先调用神经网络模块对信息进行故障点链路分析,如:采集到核心交换机有一个端口状态DOWN的告警,神经网络提取到的是核心交换机上**的业务端口断了,此时触发“**节目中断”的Idea,往下执行程序,机器人会返回如何解决**节目中断的建议。建议中会提问备路是否正常,如备路正常则返回主路故障的处理建议。当故障的节目套数不止一套的时候,则会根据“频点故障”“复用器端口故障”等等Idea往下执行,直到匹配成功为止,如匹配不成功则采取模糊匹配把最有可能故障的点位和路由呈现出来,同时也会调用故障业务分析。

  

  图2 机器人工作流程

  机器人每一次故障诊断都是基于Idea给出处理建议。前期必须编写足够多的 Idea思路集,才能满足绝大部分故障的真实处理场景。故障诊断类似于多叉树,从采集到一个故障开始,可能会匹配上n个Idea,因此机器人需要在生产环境之前,收集足够多的真实故障处理案例,才能达到精准匹配。也就是说每一次的故障诊断,都是在促进机器人的成长。

  对于机器人运维诊断的开发,前期需要有很多准备工作。

  1.采集的设备告警信息要转化为机器人所能理解的意思,比如采集到复用器1主的1-1口断了,会调用故障点线路分析和故障业务分析,将故障信息转化为机器人所能理解的意思是该复用器端口所带的哪些节目断了,涉及哪些业务,从而匹配解决这些节目中断所对应的Idea思路集。

  2.基于设备告警信息,创建Idea。Idea就是设备告警和机器人之间的诊断集合,设备出现相应的告警,而机器人的响应表示为相应的诊断名称。每个设备告警会对应机器人的响应,此时有三种情况。一种是固定的图文响应显示,比如:告警信息是**卫视卫星接收机断电了。机器人会返回固定的内容:3D画面显示卫星接收机所在的机柜和位置,建议检查电源情况。第二种是需要运维人员互动的响应。比如复用器的一个端口down了,需要运维人员确定是与它连接的设备问题,还是它们之间的链路问题。第三种是故障无法诊断,这就需要外部接口的响应,比如机器人通过微信联系求助技术人员解决相关问题。这样就实现了机器人的人机互动。

  3.添加足够多的思路集,来满足运维诊断需求。智能运维诊断机器人需要根据设备故障告警来判断故障原因,引导值班人员处理,若无法处理则自动通过微信求助技术人员解决。因此在神经网络中设置了直播电视和城域网两种类型设备、链路和业务的Idea思路集。

  利用Tensorflow深度学习库自研开发DKBase广电设备故障预判知识库,并对运维诊断机器人进行训练,如遇到新的故障,再进一步完善机器人,让机器人更加智能。

  NO.5

  系统总结

  系统按照集中监控、集中管理、集中告警、集中调度的原则进行开发,通过与各机房网络系统的对接,打通了中心机房和60个分机房的管理壁垒,搭建支持多协议采集的机房设备网管数据中台,实现了全市华数网络运行的统一监管。并自研开发DKBase广电设备故障预判知识库,通过训练运维诊断机器人,实现机器人快速诊断网管数据中台中的异常信息,方便技术人员第一时间定位设备和故障的具体位置、节点,快速对问题做出响应,大幅提高运维效率。主要解决以下问题:

  5.1 摆脱信息孤岛化、故障定位难现状

  机房的设备类型众多,各系统相对独立,无法集中管理,容易形成信息孤岛。当发生异常情况时,缺乏统一集中的告警平台,无法对告警的先后主次进行分析定位;定位故障和解决问题的效率基本依靠个人的经验和主观判断。特殊情况下,还需要厂家技术支持协助,沟通过程中还需正确描述故障详细情况,影响对故障的判断与定位,故障恢复时间不可控。事后的维护经验无法共享与推广。

  5.2 提升可视化管理水平

  基于3D技术,对机房、机柜以及机柜内的设备采用XYZ三轴立体展示,解决了复杂网络以及众多机房设施的可视化管理问题,在机柜资源管理、机房布局以及机柜内设备定位,具有传统的图纸和人工记忆不可比拟的优势。系统可以在每个设备节点上集成关键数据,实现更多的管控与实时显示。

  5.3 解决智能化程度低和告警分析难题

  驾驶舱的图形展现技术可循环播放设备运行状态和实时告警信息。通过实施统一网管系统,加入拥有深度学习算法的智能运维机器人,可实时监测各种设备、各种信号的状态,从而生成连续运行图表,研判各系统状态,解决以前只能监测中断状态和记录离散数据的问题,可以预知劣化风险;智能运维机器人可以形成可视化的拓扑图,通过深度学习算法将突发告警的相关设备显示出来,让运维人员迅速定位设备位置。

  5.4 解决远程协助问题

  分机房大部分分布在乡镇,由于各分公司技术人员的水平参差不齐,维护工作过于依赖上级技术部门,复杂的网络故障经常需要技术骨干去现场解决,造成运维工作量加大,也导致人力物力的浪费,迫切需要一个有效的可视化的故障定位手段和远程协助手段来远程排查故障。

  NO.6

  推广应用情况

  项目于2022年10月完成建设投入使用后,在全程监测数字电视信号安全、实时持续检测设备状态、提前发现安全隐患等方面发挥了突出作用。尤其在党的“二十大”重保期间,提前预判设备故障,消除了多个安播隐患,有力地保证了数字电视平台的安全播出、网络的平稳运行,运维保障能力明显得到提升。

  end

  

  参考文献

  [1] 崔冬梅. 济宁市广电网络统一网管信息系统建设[D]. 山东大学, 2017.

  [2] 宋立芳. 基于广电传输网的综合运维管理系统的应用[J]. 产业与科技论坛, 2013, 12(21).

  [3] 柯立新, 陈家琪, 吴开军. 基于web的智能网管系统设计与实现[J]. 上海海洋大学学报, 2010, 19(2).

  [4] 孙海波, 徐志强, 张亮,等. 智能变电站网管系统通信业务的自动发现的研究[J]. 电力系统保护与控制, 2018, 46(2).

  [5] 王海良, 李卓桓, 林旭鸣. 智能问答与深度学习[M]. 北京: 电子工业出版社. 2019(1).

  《广播与电视技术》、“广电猎酷”广告经营与商务合作代理:

  北京中广信通文化传媒有限公司

  联系人:李聪

  联系电话:18518221868

  好文共赏请转发 有话要说请留言

上一篇:聚力攻坚·方便看病就医⑤:临沂市积极开展全流程“一站式”服务,让群众就医有效率更
下一篇:暑假怎么过?来,这份攻略请查收

最近更新未来教育