知识图谱配网专家库建设方案2

栏目:教育活动  时间:2022-12-01
手机版

  原创:详细方案关注私信

  某地市地区配网主设备缺陷知识图谱建设,实现了某地市公司对配网主设备的整体管控,利用人工智能及知识图谱在电力行业的应用新技术,建立配网知识图谱标准化建设标准,从而形成典型设计、设计规范与标准,成为典型的人工智能与智能配网联合发展的示范工程,为今后配网缺陷知识图谱专家库建设提供有效的建设样本。

  1项目架构

  1.1总体架构

  整体满足南方电网信息化架构要求,遵从业务架构、应用架构、数据架构、技术架构、安全架构五大架构设计原则;平台在支持互联网协议第四版(IPv4)的基础上,支持互联网协议第六版(IPv6),同时支持Windows 7和Windows 10(政府采购版)桌面终端以及安卓版移动终端。总体架构如下图:

  知识图谱专家库总体架构平台需要接入的配网主设备相关的数据分散在生产管理系统数据库、缓存Redis、甚至是非结构化文件中,数据形态分为关系型数据库、非关系型数据库、word文档、Excel文档等,而平台则负责对上述数据进行采集感知、设备信息提取与融合,并将融合后的知识以搜索方式提供给电网运行检修工作人员,方便其快速完成设备数据的检索。整个平台分为我的图谱、图数据及可视化、配电网络分析、智能服务等功能。其中:

  (1) 我的图谱:对某地市地区配电网图谱管理,主要是按照“大馈线——线路——台区”层层划分,对新建台区图谱支持自动接口导入数据成图和手动选择导入成图两种方式,对设备相关数据中的要素信息及要素之间的关联关系进行提取,将其与设备台账信息进行融合,将融合后的设备台账数据、试验数据、检测数据、各类专题数据等数据存储到图谱数据库中,形成设备知识图谱。

  (2) 图数据及可视化:通过数据融合、分析、挖掘,形成知识图谱,可以通过时序进行图谱探索,可配置显示层级及显示要素,纵览某地市地区配网发展史,通过点击某个具体设备/缺陷事件,高亮显示以此为中心的图谱,展示和其相关的所有设备和所发生的缺陷,可查看设备知识卡片、统计分析等。通过可视化界面,清晰展示某地市地区配网主设备情况以及缺陷状况,可以再图上展示分析结果。

  (3) 配电网络分析:针对配网发生缺陷时,定位不及时、停电范围不准确等现象,平台提供了设备关联分析、供电范围分析、安全预警预测、设备全生命周期管理,四种分析方式支持快速消缺和精准停电。

  (4) 智能服务:利用人工智能技术提供问题搜索、一问一答、统计分析、配网事件检索等功能。

  (5) APP:App配有GIS功能、在线/离线查看功能、扫码功能等,运维人员可以通过手持终端快速定位故障,查看故障影响范围等。

  1.2应用架构

  根据配电主设备管理的相关要求,结合公司对设备管理业务的理解,并融合公司在电力行业的信息化建设经验,构思形成对应的需求解决方案,旨在满足某地市公司的配网主设备知识图谱建设要求,构建一套先进的包含配网图谱管理、图数据及可视化、配电网络分析及配网智能服务的平台,辅助公司配电设备管理业务引领行业潮流。

  本平台包括四大基础业务应用:配网图谱管理、图数据及可视化、配电网络分析、配网智能服务。并预留面向生产管理系统、生产分析平台等外部集成接口等。平台总体业务架构图如下:

  配网知识图谱专家库业务架构图1.3 技术架构

  根据总体业务需求和技术需求,设计平台技术架构,以大数据技术构建基础平台,技术架构如下图所示:

  配网知识图谱专家库技术架构1.4 安全设计

  (1)采用加密传输技术保证数据安全

  为了保证平台各种数据的安全性,平台采用服务器端和客户端双端安全验证技术,并且采用加密的网络传输技术,防止非法入侵。

  具体方案如下:

  1) 采用服务器端安全验证技术,防止网络入侵者搭建伪装平台、骗取合法用户的密码和有关信息;

  2) 采用加密的网络传输技术(HTTPS和SSL协议),防止网络入侵者从外部侦听敏感数据和用户信息;

  3) 采用客户端安全验证技术,将用户被冒名顶替的可能性减小到零。

  (2)用户密码以密文存储

  在数据库中,采用密文方式存储用户的密码。这样,能够保证只有用户本人知道自己的密码,彻底杜绝其他人(包括平台管理员和超级用户)假冒自己的身份。

  (3)数据访问中的用户身份检查

  在敏感数据及关键业务流程的访问过程中,平台对用户的身份随时进行检查,以防止任何可能的网络入侵。具体策略如下:

  1) 特定的用户登录后,只能访问规定的网页,如果试图直接输入,则拒绝访问;

  2) 特定的用户只允许查询到与该用户有关的私有数据以及公共数据;

  通过以上策略,再加上严密的应用服务器和数据库服务器防护措施,能够防止网络入侵和内部违规。

  (4)时间控制

  在平台中,内置的流程控制逻辑,能够保证:特定的用户只能在规定的时间范围内才能访问或修改有关数据。

  这样,对机密数据在不同时段的机密程度进行了控制,进一步保证了数据的安全性。

  (5)严格的内网防护

  在平台运行过程中,对服务器进行严密保护。通过制定严密的服务器保护和平台维护制度,确保:

  1) 正常运行时刻,任何人不得接近服务器;

  2) 若服务器出现不可预料的故障,需根据严格的维护操作规程进行;

  3) 在任何时刻,只能从机房才能维护;

  数据库只有通过应用服务器才能访问,杜绝直接通过数据库后台非法获取数据资料。

  1.5 数据架构

  本项目数据架构如下图所示:

  配网知识图谱专家库数据架构平台需要接入的主设备相关的数据分散在生产管理系统数据库及员工电脑中,数据形态分为关系型数据库、word文档、Excel文档,平台则负责对上述数据进行采集感知、设备信息提取与融合。整个平台分为生产管理系统数据感知、文档知识挖掘、设备状态知识图谱数据库、设备知识服务等功能。

  目的是将相关的变电设备基础台账、线路、单位、批次采购信息(批次、采购价格等)、GIS信息、故障信息,评价信息、异常信息、缺陷信息、试验信息以及带电检测等信息进行整合,解决公司范围内的设备厂商名称不统一、设备名称存在差异等问题。构建家族型缺陷数据源以及故障案例库。

  2 项目建设内容

  2.1 基础平台

  知识图谱生产是一整套平台工程,涉及到结构化、半结构化和非结构化数据生产,以及在生产过程中需要大量的人工智能NLP算法的训练开发,将这些技术集中融合,需要一整套框架。所以需要基于商业组件知识图谱构建平台,作为PAAS知识图谱生产的通用底座,提供知识图谱构建基础框架,需要提供一个基础环境,可以提供基础部署环境、知识图谱本体构建管理、知识图谱抽取前端交互功能、知识图谱查询和计算服务、知识图谱存储,后台的平台管理和调度运维服务等组件提供工程化,提供知识图谱生产、存储和查询计算支撑能力。

  主要需要提供一套的面向设备缺陷数据知识图谱生产、存储和分析计算的基础工程化平台,可以将各个引擎和模块的数据生产进行交互,并提供算法的上架、部署运行和编排等能力需求。

  (1)基础部署环境。是整套平台架构的部署底座,按照部署策略不同,可支持物理机、Hadoop物理机部署底座和云平台部署底座两种,适应未来多种基础设施的变化;

  (2)知识图谱融合处理服务:实现知识融合、消歧、映射等功能等,将新的知识数据融入到已有的知识图谱中;

  (3)算法部署基础框架:算法引擎,集成如NLP、信息抽取、事件抽取等多种算法,为信息抽取、事件抽取、知识推理等提供算法服务;

  (4)算法编排服务框架:提供上架算法的输入输出的编排管理,实现一个知识三元组生产过程中多个算法之间的数据传递;

  (5)行业语料和词典定义管理:提供行业语料和词典定义,标注数据的后台存储管理。

  2.1. 某地市知识图谱建设

  平台负责对设备数据进行采集感知、设备信息提取与融合,并将融合后的知识以搜索方式提供给电网运行检修工作人员,方便其快速完成设备数据的检索,并通过对设备各类数据的分析统计。整个平台分为数据感知、文档知识挖掘、设备状态知识图谱数据库、设备知识服务等功能。其中:

  贴源层生产管理系统数据感知:负责采集贴源层生产管理系统平台数据,由物管平台推送。

  文档知识挖掘:对设备相关的Word文档、Excel文件中的要素信息及要素之间的关联关系进行提取,将其与设备台账信息进行融合,将融合后的数据存储到设备状态知识图谱数据库中。

  设备状态知识图谱数据库:提供公司存在家族性缺陷的设备图谱数据,包括融合后的设备台账数据、试验数据、检测数据、各类专题数据等。

  设备知识服务:面向设备管理部门,提供智能搜索、数据分析、智能问答等功能。

  将设备台账、运行维护数据以及专项重点工作方面的数据汇总,其中生产管理系统平台中的数据是通过数据集成获取,其他文档上传平台。然后,通过D2R转换、文本自然语言处理等技术从主变压器设备结构化以及非结构化数据中完成实体、属性、关系等知识要素抽取,并进行知识融合,构建知识图谱。最后,在知识图谱基础上,应用相关知识计算规则,提供设备知识智能检索、设备数据分析服务,技术实现流程如下图:

  技术服务实现方式根据该实现流程,整个功能的分层架构如下图所示

  整个平台从下往上可以分为源数据层、感知层、存储层、服务层、展示层。其中:

  源数据层指的是本平台需要接入的数据源,分为平台API、数据库DB、各类Word文档、Excel文档、其他数据(比如图片等)。

  感知层:从源数据层采集数据,并解析数据结构,将数据转换为图谱数据模型,针对不同类型的数据所采用的各不相同,包括:

  -----针对数据库来源的数据,通过SD2G功能模块进行模型转换

  -----针对各类Word跟Excel,通过文档要素与关系提取、语义标签等对文档内容进行提取对其他类型的文件,可以通过语义标签等对其应用进行标签标记

  2.2人工标注

  知识图谱的生产是一个知识碎片化过程,数据标注就是对信息的分类、分词等打标过程,设备缺陷数据的数据标注得越精准、对知识图谱用到的算法模型训练的效果就越好。与传统的互联网知识图谱的标注模式相比,电力行业每一本设备文档描述的业务内容都不一样、专业性更强,进行精准的人工标注(标注内容包含:实体、属性、关系、属性值标注,词性的标注,包括动词、名词等),同时标注后作为训练数据,对NLP算法进行训练,最后才可以通过NLP等算法进行精准的知识图谱三元组的抽取。

  主要是对每一本文档进行人工标注,主要由专业的NLP标注工程师,通过学习每一本设备文档的专业领域知识,并在标注过程中找电力业务专家答疑,对文档中的专业描述内容进行词性、实体、关系和属性等内容进行标注。

  (1)文档人工标注:针对非结构的设备文档,需要对文本进行精准的标注,标注后的数据用于训练NLP各类算法。标注内容包括:实体、属性、关系、属性值标注,词性的标注,包括动词、名词等。

  (2)文档补标:考虑到电网业务的专业性,以及本次项目涉及设备缺陷数据的多样性,传统的NLP标注工程师往往无法直接对文档数据进行理解,从而进行数据标注。所以,针对每一本文档进行数据标准学习、首轮标准、交叉质检和质检反馈的补标。

  2.3 事实本体类知识图谱结构设计和构建

  图谱结构设计的目的是对设备缺陷数据根据定义的图谱结构进行信息抽取并入库。这里的事实本体类知识图谱结构设计与构建是指对每一本制度或标准所描述的静态事实本体进行知识图谱设计与构建,例如变压器制度中的事实类本体是变压器。(事实本体解释:针对每本标准制度所描述的业务本体,例如设备检修规程的事实本体是设备本身的各级部门构成的部门图谱结构,检修工作票管理制度的事实本体是表达检修工作票信息构成的知识图谱结构,而一个基建合同管理规范的事实本体是各类基建设施设备构成的基建设施设备图谱结构,均以三元组结构的模式进行的表达。好比一个办公大楼的事实类本体知识图谱结构构成,会包含中央空调、办公座椅、楼层、电梯等)。

  主要为实现每一本设备文档所描述的事实本体类知识图谱结构设计和构建,该工作主要由知识图谱架构师对专业知识进行一定的学习了解,进行知识图谱结构的设计,过程中需要电力业务专家进行协助答疑,以及图谱结构的审核校验。

  (1)物理结构图纸学习和专家知识的补录:对每一本设计的事实类本体的图纸进行学习,了解事实类本体结构。例如高压(35-750kV)油浸式变压器图例型号、器件等学习,掌握油浸式变压器构造。

  (2)事实本体相关资料阅读分析:针对每一本设备文档,对事实本体相关的数据资料进行阅读分析,例如,对设备类资产,通过阅读厂家说明书、对应设备缺陷数据文档、专家知识输入、图谱结构核查等步骤完成相关资料的阅读、梳理与分析。

  (3)事实本体类知识图谱结构构建:对每一本的事实本体知识图谱进行设计,然后采用本体构建进行结构录入、编辑修改,完成事实本体类知识图谱在知识图谱管理平台中进行结构设计、构建与展示。

  2.4 业务本体类知识图谱结构设计和构建

  业务本体类知识图谱结构设计与构建是指对每一本制度或标准所描述的业务本体进行知识图谱设计与构建。(定义解释:业务本体类知识图谱是描述一个流程或者制度中的某一个业务场景的知识信息,例如变压器故障原因诊断图谱、变压器故障原因的处置图谱等,都是业务本体类图谱,描述的是一个事务/业务如何开展,将相关的处理方式/流程/岗位/标准等以三元组结构的模式进行的表达,这个表达的集合,就是业务本体类知识图谱结构)。

  主要对业务本体类知识图谱构建新增的需求,该工作主要由知识图谱架构师对专业知识进行一定的学习了解,进行知识图谱结构的设计,过程中需要电力业务专家进行协助答疑,以及图谱结构的审核校验。

  (1)业务本体类知识图谱结构设计:每一本设备文档的业务本体都有描述具体电力业务的专业业务(例如变压器故障检修规程制度,描述的是故障的原因诊断业务、故障处置业务等),需要针对业务本体进行业务本体类知识图谱设计。例如变压器故障处置规程制度的业务本体类知识图谱结构包括变压器故障描述图谱结构、变压器故障诊断图谱结构和变压器故障处置图谱结构三大图谱结构。

  (2)业务本体类知识图谱结构构建:每一本设备文档中的业务本体类图谱的构建,采用构建完成业务类知识图谱在知识图谱管理平台中的图谱结构设计、构建与展示。

  2.5知识图谱结构关联分析和融合构建

  上述完成了针对不同的设备缺陷数据单领域或单标准制度的知识图谱构建,本环节需要人力对跨文档的知识图谱结构进行关联性分析,形成更多的知识关系,为后续的知识推理和知识搜索提供支持。(定义解释:知识图谱的事实本体、业务本体主要都是按照每一份讲述不同设备文档的文档来进行设计的,但是往往很多业务具有关联性,这种关联性,需要对相关子领域的知识和文档数据进行识别学习,才能建立他们之间更多图关联。例如:《Q_GDW_11247-2014 油浸式.变压器(电抗器)检修决策导则》和《Q/GDW 10207.1—2016 1000kV变电设备检修导则 第1部分:油浸式变压器、并联电抗器》中关于油浸式变压器相关的很多检修是有关联的,可以梳理出来更多的图结构关联,有助于后续在图谱搜索和推理计算中能够进行更精准或更智能的计算)。

  主要为支撑跨设备缺陷数据文档的知识构建新增需求,该工作主要由知识图谱架构师对专业知识进行一定的学习了解,以进行知识图谱结构的设计与构建,过程中需要电力业务专家进行协助答疑,以及图谱结构的审核校验。

  (1)图谱关联分析:针对具体一类变压器事实本体类知识图谱及相关的业务类知识图谱,进行复盘,确定哪些图谱是有关联的。

  (2)图谱融合构建:针对有关联的图谱的关联三元组进行配置组合。即将两个不同文档中的三元组的数据结构通过分析进行融合,总成一个融合的图谱结构。

  2.6语法结构挖掘分析

  对每一本设备缺陷数据标注得到的数据结果进行挖掘分析,以识别不同文档和不同陈述方式中的语法结构模式。模式挖掘分析后,提供给算法组件进行相关的抽取算法,并进行训练,让文本分析算法(NLP)在图谱加工时可以精准识别的三元组抽取关系。

  主要为语法结构模式识别分析需求,这部分工作主要由数据加工工程师进行数据加工。

  (1)标注数据词性结构数据特征处理:对于标准实体、属性和词性等数据,例如“名词-动词-名词”,或者“名词、动词”,与不同领域实体(例如变压器、杆塔、电缆等)相关联的数据进行特征工程预处理,为结构的探索挖掘做数据处理准备。

  (2)结构模式挖掘分析提取和校验:通过对每一本设备文档被人工标准得到的实体、属性和词性等信息,每一段文字都表达了不同的知识内容,对应具体的知识结构,例如“名词-动词-名词”,这些模式通过预处理数据,进行算法挖掘和分析,提炼出对不同电力业务属性的知识结构的模式,并对模式进行应用场景的梳理和审核。

  2.7数据抽取入库

  每一本设备文档通过调用信息抽取算法,抽取出相关三元组的元素信息,包括实体抽取、属性抽取和关系抽取。例如抽取到变压器、套管、破裂(关系:有)等。接下来,需要对这些元素级信息进行一定的数据加工工作,才会进入到知识图谱数据库,处理的工作包括数据映射导入(包含实体对齐、属性对齐)、知识消歧和数据入库工程化加工。其中实体对齐和属性对齐,是进行同义词,以及实体和属性配对的过程。在进行信息抽取的过程中,往往某些实体或属性,具备同义词,而要将这些同义词进行归并,另一方面,有一些同义词,在不同的场景下,代表的含义不同,需要进行区分。

  主要为数据导入的新增需求,这部分工作主要由数据加工工程师进行加工。

  (1)数据抽取模型调用:调用算法组件中提供的数据抽取算法,包括事件抽取、信息抽取等算法,将抽取到相关数据进入暂存区,待下一步处理。

  (2)数据映射导入:每一本不同的设备缺陷数据文档,对同样一个实体、不同的知识属性和关系可能会有不同的描述用词等情况,需要通过将抽取到的实体和属性跟已经存储在知识图谱库表的实体进行对齐,避免入库数据的冗余和二义性。完成同义词的梳理、上传和管理,用于实体消歧算法识别。

  (3)知识消歧:通过信息抽取能够获得海量原始的知识数据,而这些数据在进入图谱完成实例化之前,还需要对数据进行一轮的清洗,去除脏数据、歧义数据等不符合规范的数据,以保证数据的有效性。

  (4)知识数据入库:完成数据加工工作流处理、部署和调度运行,完成数据流程的数据入库工程化工作,完成数据正确入库。

  2.8图谱数据审核

  对每一本设备缺陷数据入库的知识图谱数据进行审核,审核的过程是需要对每一本中的每一个子图通过提供的审核,显示每一本文档对应的子图清单,点击每个子图,然后调出文档原文描述,与所显示的子图进行信息匹配核对,包括实体名称、实体关系、实体属性和挖掘到的信息关系等多维度的数据校验工作。

  对每一本设备缺陷数据入库的知识图谱数据进行审核,主要由电力业务专家审核。

  (1)单子图审查:知识图谱入库后,对入库待审核的单业务子图进行业务审查,审查过程中需要对原文档阅读和知识理解,然后通过可视化界面对抽取得到的子图数据内容进行审核,确保入库知识的准确性。

  (2)跨子图关联审查:对于跨子图的知识关联,结合对跨细分领域知识的专业知识,需要专业人员对子图的关联性关系进行审查,对存在的知识元组关系进行判断,以及对新的可能关系的探索识别。

  2.9电力词汇图谱设计

  开展知识图谱的初期工作,构建电力主题词表。

  基于电力主题词表、电力名词等词典完成电力词汇库图谱建设。

  (1)电力主题词表:针对电力主题词表这本书开展图谱设计,将非结构化数据加工成结构化数据,形成电力词汇库。完成13000余条电力主题词的选取编制,并标注6类语义关系的参照项,即用项、代项、分项、属项、族项和参项,使机器初步掌握电力语言。

  (2)电力名词:针对电力名词这本书开展图谱设计,将非结构化数据加工成结构化数据,形成电力词汇库。完成电力专业名词加工,涉及103类设备,上万个名词的名词中文、名词英文、名词释义等,支撑电力词汇图谱设计。

  3 图数据及可视化

  3.1 数据模型构建

  根据国标、行业标准等搭建某地市地区的基础数据参考模型,采用规范的行业术语、行业数据自上而下的方式建设知识图谱,先确定知识图谱的数据模型,然后根据数据模型约定的框架,结合某地市地区图谱建设需求配电主设备(主网变压器,断路器,配网开关,配变)再补充数据,完成知识图谱的建设。

  3.2 知识推理

  根据国标和行业标准构建的基础模型结合某地市地区配网运行数据形成的最终图谱,以及推理规则获取新的知识或结论,新的知识或结论应该是满足语义的。知识推理,依据描述逻辑平台实现。描述逻辑是基于对象的知识表示的形式化,也叫概念表示语言或术语逻辑,是一阶谓词逻辑的一个可判定子集。

  例如:当配变断路器发生故障时,通过配变所和断路器的附属关系,可以推理出配变可能存在隐患,停电影响范围、同类型断路器家族缺陷史以及常规解决方法等

  3.3算法融合

  社区发现算法:在一个网络之中,通过社区内部的边的最短路径相对较少,而通过社区之间的边的最短路径的数目则相对较多。下图中展示了变得强度以及边界数在现实网络中的分布情况。社区发现算法是一个基于删除边的算法,本质是基于聚类中的分裂思想,在原理上是使用边界数作为相似度的度量方法。在社区发现算法中,每次都会选择边界数高的边删除,进而网络分裂速度远快于随机删除边时的网络分裂。

  算法模型例如:通过某一个点设备/事件为中心,就可以发现和这个中心相关的所有的、有关联的设备/事件点,并在图上展示出来。

  遍历发现算法:首先选定一个未被访问过的设备A作为起始顶点,然后搜索与设备A邻接的所有顶点,判断这些顶点是否被访问过,如果有未被访问过的顶点,则任选一个设备W进行访问;再选取与设备W邻接的未被访问过的任一个顶点并进行访问,依次重复进行。当一个顶点的所有的邻接顶点都被访问过时,则依次回退到最近被访问的顶点。若该顶点还有其他邻接顶点未被访问,则从这些未被访问的顶点中取出一个并重复上述过程,直到与起始设备A相通的所有顶点都被访问过为止。

  3.4可视化展示

  配网主设备数据通过关系预处理程序处理为图数据库可以查询的数据,通过算法融合将配网主设备关系网络可视化表示。

  配网主设备知识图谱建设,通过对多结构化数据、非结构化数据、半结构化数据识别、统一标准及数据融合,结合大数据可视化技术,从配网主设备海量的数据中筛选、抽取想要得到的数据,并以思维发散的形式抽取每个节点相连接的二级数据/多级数据,在矢量背景下多维度高效展示配网状态,用户可以通过设定过滤条件来自行筛选。

  配网主设备知识图谱可视化展示,有效的支撑配网精准停电、范围分析、故障预警等业务,有利于配网精益化运维,提升业务、服务水平

  举报/反馈

上一篇:新东方2016年考研网上报名系统及入口公布
下一篇:推荐|MDSAP五国审核体系系列课程精讲(10节)

最近更新教育活动