广义地名及其本体研究

栏目:素质教育  时间:2023-03-28
手机版

  江西地名研究

  关注我们,获取更多地名资讯

  摘要:提出广义地名的概念(指可以与地球表面特定位置或范围相关联的一段文本), 基于广义地名组织的文本形式的空间信息通常更符合人们对于地理空间知识的表达。探讨广义地名的本体,并给出相应的概念模型和逻辑模型,从而有助于广义地名数据库以及智能化广义地名服务的实现。该研究主要从广义地名的发生学、描述对象、地理范围、信息团体和语境引起的二义性等方面描述广义地名本体,并用UML语言建立便于在信息系统中实现的逻辑模型。

  关键词:广义地名;本体;地理信息科学

  0 引言

  现实世界中70%~80%的信息具有地理空间特性,这些信息除通过纸质或电子地图方式表达外,还可以文本的方式存储于结构化的数据库、半结构化的XML(Extensible Markup Language, 可扩展标记语言)文档以及非结构化的文本文档中,因其通常被认为是非空间信息而在GIS中被忽视。近年随着信息技术的发展,人们逐渐认识到这种通过文本表达的带有地理空间语义信息的重要性,原因有两方面:1)日常生活中接受和表达空间知识多通过文本方式进行,而人们往往关注其中的空间信息。例如,在信息检索领域,WWW中约有18.78%的网页描述是本地化信息, 而在信息检索中约有18.6%的检索查询中包含地理空间定位信息。如果不能正确处理其中所蕴含的地理空间语义,就会出现查不准或查不全的现象,因此,地理信息检索成为目前学界的研究热点。2)大量社会经济乃至自然观测数据中,其空间位置的描述也是通过文本途径。如果能够从以文本方式组织的带有地理语义的信息乃至知识中获得地理坐标,就可以分析其位置或分布范围,进而发现空间分布模式,服务于空间决策。

  数字地名辞典(Digital Gazetteers)可以将地名与地理位置联系起来,从而支持地理参照(Georeferencing)和地理信息检索(GeographicalInformation Retrieval, GIR)。关于数字地名辞典的研究,主要包括地名词典的互操作、地名辞典中的不确定性、地名的自动检测与获取、地名的空间覆盖区(Footprint)等问题。但传统地名辞典存在如下不足:1)尽管其可以通过记录的覆盖区实现空间关系推理,但效率太低,不能满足信息检索的需求;对地点的空间关系和语义关系编码过于简单,不能支持空间推理。2)在格式、内容和服务接口上没有统一标准,其数据不能有效共享。因此,将本体(Ontology)引人数字地名辞典,实现地名的精确表达,已经成为学界一个重要研究方向,而基于本体的地名辞典有助于解决上述问题。

  随着地理信息检索技术的发展,除普通的地名外,还有一些文本标识了地球表面特定的位置或范围,如IP地址、电话号码等。因此,本文提出广义地名(Generalized Place Name, GPN)的概念。广义地名是指与地球表面特定位置或范围相关联的一段文本,这种关联可分为紧耦合(Tightly—coupled)、松耦合(Loosely—coupled)和临时耦合(Adhoc—coupled)。

  紧耦合指人们创造该文本串的主要目的是为了标识地球表面特定的空间范围或地物。紧耦合广义地名、相关地理要素及其间的关联都具有相对稳定的特点,这种特点使得紧耦合广义地名成为表述其他类型地名的基础。松耦合广义地名的主要目的不是为了对范围或地物命名,而是由于某些原因(通讯、活动等)与地球表面特定的空间范围或地物发生联系,从而可以标识,典型的松耦合广义地名包括组织机构、IP地址等。临时耦合广义地名则是人们为了沟通方便,临时创建的一些短句用以说明一个位置或范围,具有不固定、形式多样等特点。通讯中只要具备一定的上下文知识,就可以正确对其进行地理参照。

  实践中存在大量基于广义地名表达的地理空间信息,为了能够对这些信息进行地理参照,需要研究广义地名的本体,从而确定其在地理参照中所扮演的角色;而在数字地名辞典的建立和管理中,需要基于广义地名的本体确定其逻辑模型。因此,本文在中文语境下对实践中的广义地名进行总结,并从发生学角度进行分类。进而从广义地名的空间分布特征、模糊性、二义性、动态性、尺度等方面考察不同类别广义地名的特征,从而建立广义地名的本体表达,它可以服务于广义地名库的管理和相关服务,如信息检索、文本挖掘、自然语言处理等。

  1 广义地名的分类

  1.1广义地名的发生学分类

  如上所述,广义地名包括很多实例,所有与地球表面位置相关联的文本都归于其范畴。因此,可以从多个角度对广义地名进行分类。表1从发生学的角度给出了广义地名的分类,该分类表明一个广义地名的产生缘由,或者人们定义该广义地名的目的。其中主要包括3个类别:1)为了测绘或管理的目的,为地球表面特定位置或范围命名(A, B);2)为了知识表达与沟通的目的,而对一些地物或景观区命名(C, D, E, F, G, H);3)为了通讯的目的,为特定区域以及与特定地域相关联的设备编码(I)。上述各个类别的广义地名,尤其是管理目的地名,由于时间的原因可能消失或者描述范围发生变化,称其为古地名(J)。其中,第一类中的广义地名均属于紧耦合类型,具有定义精确的特点;第二类中既包括紧耦合广义地名(C, D, G), 也包括松耦合广义地名(E), 而大部分F类地名和全部H类地名都是临时耦合的;而第三类广义地名都归属于松耦合广义地名。上述发生学角度的分类主要考虑地名定义的主要目的,而在其间存在交叉,例如,“北京市”是由于管理目的而定义的行政单元,但并不妨碍它成为人们在空间知识表达中用于描述位置的词汇。

  

  1.2广义地名的描述对象分类

  从广义地名的描述对象看,紧耦合广义地名通过命名相对稳定的地理要素(Geographic Feature)直接描述地理位置或范围;而松耦合广义地名以及临时耦合广义地名的地理范围往往依赖一个紧耦合广义地名对应的要素而建立。紧耦合广义地名所描述的地理要素可进一步分为不可知觉要素(Perceivable Feature)和可知觉要素(Unperceivable Feature)。前者主要指基于人类的常识性地理空间认知可以识别的地理要素,如山脉、河流等自然要素以及建筑、城镇等人造要素;后者则包括由于行政管理等原因而划定的区域。

  在地球表面的地理要素中,除部分抽象实体外(如轨迹、等高线等), 大部分是面状对象,根据地理对象的边界,可分为Fiat对象和BonaFide对象, 前者边界是可认知(如沙丘和林地等)或基于法令等规定的(行政区划), 后者则具有明确的物理边界(如建筑和湖泊)。不同类别的地物,其边界的确定性也存在差异,认知边界对象由于相关概念的模糊性(Vagueness), 其边界通常是不确定的。例如,高原的概念是模糊的,其海拔高度并没有一个绝对的界限,这使得难以准确划定高原的边界,如对于青藏高原范围的界定。虽然自然要素和人造要素都存在边界的模糊性,但却有不同的特征。人造要素中的楼房和道路,其边界往往是确定的,并且具有空间范围较小的特点。间接人造要素是由较小要素在空间上聚集形成的,其尺度可以更大,并且具有模糊性。典型的间接人造要素是城市及其相关地理景观范围,如中心商务区和城乡交错带。人们创建人造地物而认知和归纳自然要素,自然要素形成的根本原因是由于具有相似语义特征的“地理原子(Geo一atom)”在空间上聚集方式不同造成的。因此,在对地物进行概念化过程中,对上述相似性和聚集方式的认知造成了要素的模糊性和边界的不确定性。由于地物本体的差异,自然要素边界的模糊性也更为多样化。其中一些较为简单,如由于温度指标边界的不确定性,造成相关温度带空间边界的模糊。而对于林地、高原等自然要素,其模糊性机理则更为复杂。对于模糊地物,目前有学者从不同角度对其进行建模,如空间认知、Web信息检索、遥感图像分类等。

  2 广义地名的本体

  2.1广义地名的属性

  上述分类体系已经考虑了广义地名对应地理要素的某些特征,如自然的、人造的、边界模糊的和边界确定的。此外,还可从空间分布特征、二义性和时态特征等角度对其进行描述。

  2.1.1空间分布特征

  在地名库建设中,最重要的两个要素是以字符串形式表达的广义地名及其对应的地球表面空间内的位置和范围(Footprint), 从Footprint的拓扑维度看,可以分为点、线、面3种。可从3方面考察与广义地名Footprint相关联的拓扑维度,即真实拓扑维度、认知拓扑维度和制图拓扑维度。真实拓扑维度是指Footprint在地球表面分布所拥有的真实维度,如前所述,很少有纯粹的点或线广义地名。根据表1, A类广义地名和I类广义地名中的IP地址和电话号码所对应的Footprint拓扑维度为零。I类地名中的轨迹属于一维线地物,在H类广义地名中的高程点和等高线等也分别属于零维和一维地物。其他类别的大部分广义地名的Footprint对应于二维面状地物。制图拓扑维度主要与地理要素的尺寸及制图比例尺有关,大比例尺地图的制图拓扑维度等于真实拓扑维度,而在小比例尺地图上,则由于概括的原因,分别被表示为零维点地物(建筑物、城市)和一维线地物(道路、河流)。认知拓扑维度则更为复杂,它与个体认知对象地物的方式有关。典型的如对于一个城市,如果个体在该城市中生活,能够通过日常生活体验认知城市的内部空间结构,从而该城市被认知为二维面地物;反之,对于不熟悉的城市则通过读图(或文字)获取相关知识,容易将其认知为点。类似情形在更小尺度的空间中也存在,如校园、建筑等。在通过地图获取的空间知识中,地物的认知拓扑维度等同于相应的制图拓扑维度。而在环境尺度的认知空间中,根据Lynch的论述, 城市的地理要素可分为路径、边界、区域、节点和地标5类,其中节点和地标、路径和边界、区域分别属于零维、一维和二维地物。该分类体系可以推广到自然地理要素,因此,从认知拓扑维度的角度,地标(包括人造地标和自然地标)为零维,道路、河流等要素为一维,而自然或人文的景观单元为二维地理要素。

  2.1.2信息团体、语境和二义性

  由于广义地名的定义是以自然语言为基础,并服务于人们日常生活中的地理空间知识交流,因此,在广义地名的研究中,需关注哪些人群在哪种情形下表述一个地名。现实世界中,几乎不存在人人尽知的地名,一个地名只有在特定信息团体(Information Community)中,才具有相同或相近的Footprint。此外,每个广义地名的表达需要有特定的语境(Context), 语境的差异使得相同地名具有不同的含义。广义地名相关联的信息团体和语境带来了二义性。综合这两个因素,广义地名的二义性主要包括如下方面:

  (1)地理范围引起的二义性(地名重名现象)。基于管理目的或地理空间知识表达和交流的目的所定义的地名,其唯一性往往只局限于特定范围。如除英国首都London外,在加拿大安大略省也有London市;在美国则有30多个称为Springfield的市或镇,为了通讯方便,美国规定每个州不能出现同名城市,因此其唯一性范围仅局限于州。这种情形在中国也存在,尽管县一级行政单元已经在20世纪初进行了重名处理,但在更小粒度的地名中却依然存在着重复。

  (2)文化差异引起的二义性。地名总是蕴含丰富的文化含义,据此可以探讨历史上人类活动轨迹。文化差异带来的地名二义性并不明显,但在地物类别的表述中,不同的文化背景却会引起二义性,如文献针对水体的诸多类别的讨论。当地名库包含多种语言的地名时,则需要考虑该因素。

  (3)类型引起的二义性。实践中经常会出现两个不同类型的地理要素,由于地理位置的邻近或包含,而采用相同的名称,如山和城市(黄山)、湖泊和城市(Lake Tahoe)、州和城市(New York)等。

  (4)时间引起的二义性。随着时间的演变,地名对应的Footprint会发生变化,这在B类广义地名(管理目的)上体现尤为明显。如三国时代南阳和荆州等地名所辖地理范围与现在有明显差异。

  (5)松耦合地名引起的二义性。在E类地名中,基于组织机构确定的松耦合地名比重很大。这类广义地名具有天然的二义性,在应用中,需要根据不同的上下文进行分析。例如,在“到科技部去”和“科技部规定······”两个短句中,很明显前者表达了地理空间位置的语义;而对于后者,表达者和受众都不必关注该广义地名的位置。在地理信息检索中,需要区分这两种情形,从而避免查不准的情形。此外,与松耦合地名引起的二义性相似,一些紧耦合地名也常用于不具有地理语义的场合,如“华盛顿认为······”, 实际上是指美国政府。

  (6)缩写引起的二义性。在汉语表达中,为了简便,在不引发歧义的前提下经常对地名进行缩写,如以“北大”代替北京大学。这种缩写往往仅局限于特定的信息团体,如“山大”对于不同地域的受众而言,分别代表着不同的大学(山东大学或山西大学)。

  2.1.3时态特征

  不同的广义地名具有不同的时态特征,一些地名具有稳定性(如山峰), 而另一些则较易变化(如建筑物)。本文提出的时态特征包括3方面:1)每个地物具有特定的生命周期,如山脉在地质年代的尺度下,有其产生和消亡的过程;2)地物的Footprint也可能发生变化,如行政区划的变更、城市的蔓延等;3)地物的非空间属性也在随时间变化。在地名库管理中,主要关注前两种情形,并且在地理空间认知相关的时间尺度下考察其稳定性。因此,可以认为大部分自然要素是稳定的,而人造要素的稳定性则相对较低。地理要素的时态特征使得它们在地理空间推理中发挥了不同的作用——稳定的地名意味着更为可靠的推理结果。B类和H类广义地名由于管理和通讯的目的,其稳定性也较低。我国仅省级行政单元在五六十年内就发生了许多变化,而更低一级行政单元的更名、撤并、新设等情形更为普遍。这些变化的时间尺度都不大,因此需要在地名库中加以标识。

  2.2广义地名之间的联系

  地名之间蕴含了不同的联系,这些联系可以是空间的,如拓扑关系、方位关系和度量关系。关于空间关系的研究很多,本文不再赘述。非空间联系有城市之间的规模顺序、城市和腹地的关联等。地名之间的联系形成了人们对于空间知识表达的框架。根据文献, 对于空间知识的表达,对象之间的类别联系以及整体与部分的联系是重点。对于类别联系,通常是建立分类树,该分类树可以在图1的基础上进一步增加子类进行扩展,如在人造要素下可以有道路、房屋等子类型,而道路又可以进一步细分为不同等级的公路和铁路等。每个广义地名可以关联到分类树的相应叶子节点上。进而,基于分类树进行遍历,可以评估两个广义地名的相似度。

  

  在空间知识表达和推理的研究中,空间关系得到广泛重视,其中整体部分联系是建立符合空间认知的分层和分片结构的空间知识表达的基础。基于整体部分联系,同样可形成一个支持层次推理的树状结构。广义地名之间联系的表达以及在其基础之上的推理,使得地名库具有智能性,例如,在查询“北京市”时,允许“海淀区”的相关信息也被检索到。

  2.3广义地名的本体模型

  在本体建模工具中,Protégé是由Stanford大学开发的用于本体表达的工具。它很好地支持OWL(Web Ontology Language), 并且能够进行推理。根据上述探讨,笔者采用Protégé对广义地名进行建模,其部分内容的可视化如图2所示。其中包含广义地名的分类及其3个重要属性:表达空间范围的Footprint、为了去除广义地名二义性所需的语境Context以及表达广义地名之间联系的Association。

  

  2.4广义地名的逻辑模型

  在广义地名的逻辑模型中,需要根据其概念模型,建立便于信息系统实现的表达模型。主要包括以下几方面。

  2.4.1Footprint以及尺度特征

  如前所述,广义地名Footprint具有丰富的形状特征。但是在实际地名库管理中,为简便起见,往往需要对其进行抽象,通常的表达方式有质心点、点圆、外包矩形和凸包等形式, 尽管它们不够精确,但具有数据量小、便于在数据库中管理的优点,并且在多数情形下,可以满足地理参照应用的需求。在极端情形中,可以对线状和面状Footprint记录其实际形状,这样地名库将在功能上完全等同于一个普通的空间数据库;其区别在于:普通GIS是按照地理要素对应的几何体组织数据,而在地名库中,则基于文本形式的广义地名组织数据。最后,考虑到Footprint的模糊性,可采用“鸡蛋一蛋黄”模型或引入模糊集对模糊边界进行表达。

  所有地理现象都有尺度特征,地名也不例外。尺度对于地名最直接的影响就是它决定了地名的空间表达。如在大尺度上,城市可用点来表达;而在小尺度上,通常意味着一个范围。这需要在管理中对同一地名针对不同尺度,定义多重的Footprint表达,并且在检索中根据检索语境返回相应结果。

  2.4.2二义性地名

  如前所述,地名的二义性主要由地名表述时的信息团体和语境引起,即对于不同的信息团体,在不同的语境中,地名具有不同的含义,尤其是具有不同的Footprint。信息团体的差异主要由地理范围和领域造成,而语境的不同可能是由类型、时态、地理范围等引起。因此在逻辑模型中,Domain描述一个地名对应的领域(如军事、生态等), Type表明了广义地名的类型,Spatial Context指明了该地名的唯一性空间范围。例如,在美国需要为每个Springfield指定相应的州名作为其SpatialContext;而在中国,针对乡镇名称重复较多现象,一个解决方法就是将所在县(市)名作为其SpatialContext。很明显,一个地名和其SpatialContext构成了整体/部分关系。

  2.4.3松耦合和临时耦合地名

  如前所述,对于紧耦合广义地名,地名与其对应的地理要素可以认为是等价的,在管理中完全可以在数据库中直接对每个记录存储其Footprint, 建立主地名库。松耦合广义地名则可以关联到一个紧耦合广义地名上,实现地理参照,如邮政编码、电话区号的管理可采用此方式。临时耦合广义地名因为形式多样而难以被直接管理,需要借助特定的解释机制计算其地理范围。在该计算过程中,需要既有信息的参与。例如,为了计算“北京大学和清华大学之间”这样一个广义地名所对应的区域,北京大学和清华大学这两个地名的Footprint是必需的。值得指出的是,属于松耦合广义地名的通讯地址,表达方式通常基于街道及门牌号,在实现中也可采取类似临时耦合广义地名的处理,其实现技术即为地理编码(Geocoding)。

  2.4.4时态不稳定地名

  对于在表达时间尺度内不关注其动态变化的广义地名,可以直接记录其当前Footprint;而对于时态不稳定地名,通常可以有两种管理途径。首先,每个地名可以对应到多个Footprint, 而每个Footprint则增加时间戳。此外,还可采取与松耦合广义地名相似的方式,将不稳定地名(尤其是不需要记录其Footprint随时间变化的广义地名)关联到主地名库上。为实现这种索引机制,需为每个广义地名定义一个全局唯一的ID。

  2.4.5广义地名联系

  广义地名之间的空间关系可以通过其关联的Footprint计算得到,但由于Footprint的表达通常进行了简化和抽象,从而不能得到正确的空间关系,因此通常需要在地名库中显式表达空间关系和不带有空间语义的关系。

  2.4.6广义地名的UML类图

  综上所述,可以得到广义地名UML类图(图3)。在该类图中,一个GeneralizedLplacename对象表达了一个广义地名实例,它具有一个唯一标识以及字符串类型的名称(Name)和别名(Alias)。广义地名之间的联系通过Association对象表达,后者可以是空间关系(SpatialRelation), 也可以是非空间关系(AspatialRelation)。如前所述,在很多应用中,由于时间和空间尺度变化的原因,一个广义地名需要多重的Footprint表达。因此,在广义地名和Footprint之间定义了一对多的联系,每个Footprint实例都需要指定其对应时间段(TimeInterval)和比例尺范围(ScaleRange), 而Footprint的表达可以是普通几何体(Geometry), 也可以是模糊对象(FuzzyObject)。每个广义地名通过SpatialContext和Type指定其无二义性的语境,其中Type可以从表1取值。值得指出的是,在本文提出的类图中,是以GPN为核心组织,这与其他研究(如文献)并不一致,后者是基于Feature来组织类图。这样设计的原因,除突出地名的重要性外,还由于其他研究主要针对紧耦合广义地名,地理要素和地名可以认为是等价的,而本文由于对地名概念进行了扩展,这种等价不再成立。

  

  3 结论

  随着空间信息技术的发展,目前已经积累了大量空间数据。其中,以下3类数据构成了现代空间信息的重要基石:来自于各种对地观测系统的多分辨率遥感影像、直接或间接源于纸质地图的空间数据库和基于广义地名的文本形式地理空间信息,其管理形式通常分别为栅格、矢量和文本。在信息科学研究中,数据、信息和知识是3个核心概念,它们反映了对原始数据不断加工,从而辅助于人们行为决策的过程。从数据、信息和知识的角度分析上述3类数据,遥感数据更像是未经处理的原始数据,基于地名的文本则往往直接表达了更为抽象的人类知识,矢量空间数据库则介于两者之间。

  目前在GIS应用和地理信息科学研究中,对于前两类地理空间信息的研究较多,而对于第三类信息则相对关注较少。Internet的发展使万维网成为一个庞大的、主要基于文本方式组织的知识库,并且可以从中进行信息的提取和加工;此外,为了提供更为人性化的地理信息服务,需要从认知的角度研究人类的地理空间知识表达。这两方面需求使得基于场所的定性GIS成为当前研究的重点。在定性GIS中,其关键技术之一是对地名进行形式化定义,从而支持地名库管理系统的实现。本文对传统的地名进行了扩展,将能够起到地理参照作用的文本归属于广义地名的范畴,进而探讨其本体表达,并且给出了相应逻辑模型。基于本文提出的模型,可以实现广义地名数据库以及智能化的广义地名服务。

  作者:刘瑜,张毅,田原,薛露露

  来源:《地理与地理信息科学》2007年第6期

  选稿:黎淑琪

  编辑:吴雪菲

  校对:汪依婷

  审订:宋柄燃

  责编:黄海红

  (由于版面有限,文章注释内容请参照原文)

  微信扫码加入

  中国地名研究交流群

  QQ扫码加入

  江西地名研究交流群

  欢迎来稿!欢迎交流!

  转载请注明来源:“江西地名研究”微信公众号

上一篇:林西部内陆盐碱湿地控制地表水和地下水盐度的水文地球化学过程
下一篇:媒体聚焦 | 上海教育人才“组团式”援滇:智力帮扶、输血与造血并重

最近更新素质教育