论本体与本体语言及其在信息检索领域的应用

全文总计 12038 字,阅读时间 31 分钟,快速浏览仅需 7 分钟。

内容摘要:本体(Ontology)是近年来计算机及相关领域普遍关注的一个研究热点,作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已被广泛应用于知识工程、系统建模、信息处理、数字图书馆、自然语言理解、语义Web等领域之中。20世纪90年代以来,研究人员从各自的专业角度出发对

GB/T 7714-2015 格式引文:[1].论本体与本体语言及其在信息检索领域的应用.[J]或者报纸[N].情报理论与实践,(06):632-637

正文内容

  本体(Ontology)是近年来计算机及相关领域普遍关注的一个研究热点,作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已被广泛应用于知识工程、系统建模、信息处理、数字图书馆、自然语言理解、语义Web等领域之中。20世纪90年代以来,研究人员从各自的专业角度出发对本体的理论和应用进行了深入研究,取得了丰富的研究成果,本体理论与技术也随之日趋成熟。

  1 本体理论及应用研究

  本体理论研究主要包括本体的概念、分类、本体上的代数等问题。意大利应用本体实验室(The Laboratory for Applied Ontology,LAO)的古里诺(N.Guarino)等人对于本体基础理论进行了深入研究,从一般意义上对概念、概念特性、概念之间的关系以及概念的分类进行了分析,并提出了用于指导概念分类的可行理论。索沃(J.Sowa)提出了用概念图来表示本体的方法。这些都对本体领域的基础理论研究起到了推动作用。

  关于本体的理论和应用,北京大学的邓志鸿等人对于目前本体的研究现状进行了详细而系统的阐述[1],这里仅简要介绍一下本体的定义、组成、作用及其在信息检索与分类领域中的应用。

  1.1 本体的定义与组成

  本体最初是一个哲学上的概念,是指存在的本质抽象,是客观存在的一个系统的解释或说明,本体论就是关于存在及其本质的理论。引入人工智能领域之后,最初将本体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。目前,得到普遍认同的本体定义是——本体是共享概念模型的明确的形式化规范说明。这个定义包含了概念模型、形式化、明确、共享4层含义,即本体是通过抽象出客观世界中一些现象的相关概念而得到的模型,而这些概念和使用这些概念的约束都有明确的定义,本体所体现的是相关领域共同认可的知识,且能够应用计算机进行处理。

  从形式上来说,本体由概念、关系、函数、公理和实例5种元素组成。本体中的概念可以是一般意义上的概念,也可以是任务、功能、行为、策略推理过程等;关系表示概念之间的关联;函数则是一种特殊的关系,其中的第n个元素相对于前面n-1个元素是唯一的;公理用于表示一些永真式;实例是指属于某概念类的基本元素,即某概念类所指的具体实体[2]。

  1.2 本体的作用

  建立本体的目标就是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义。

  乌萨丘德(M.Uschold)等人认为本体的作用主要有以下3个方面:信息交换、互操作和系统工程[3]。具体说来,本体为人们或者组织之间的交流提供了通用术语;使领域内不同系统、不同模型之间能够实现互操作和集成;帮助系统工程实现重用、可靠性和规范描述。重用是指在系统工程中,本体是领域内重要实体、属性、过程及其相互关系的形式化描述的基础,而这种形式化描述可以成为软件系统中可重用和共享的组件;可靠性是指本体的形式化表达使自动进行一致性检查成为可能,提高了软件的可靠性;规范描述是指本体对于确定系统需求和规范也提供了帮助。

  1.3 本体应用研究

  随着本体理论和技术的不断成熟,本体己广泛应用于知识工程、信息处理、语义Web等领域,本文仅就本体在信息检索与集成领域以及本体在网页主题分类中的应用做简要论述。

  1.3.1 本体在信息检索与集成领域的应用 多信息源的信息检索和信息集成是本体的一个重要应用领域。多数据源面临的主要问题就是不同信息源在信息的表示上不一致,应用本体,建立一套共享的术语和信息表示结构,不仅可以减少信息转换的难度和工作量,还为信息集成提供了一个统一的模式。此外,基于关键词的信息检索已不能满足当前用户对于信息和知识的深度需求,本体由于具有良好的概念层次结构和对逻辑推理的支持而在信息检索(特别是在基于知识的检索)中得到了广泛的应用。

  在信息检索与集成领域,目前国际上应用本体的著名项目主要有:(Onto)[2]Agent(——An Ontology Based WWW Broker to Select Ontologies,基于网络代理搜索本体的本体)、Ontobroker(——Ontology Based Access to Distributed and Semi Structured Information,基于本体的分布式半结构化信息获取)和可升级知识合成(The Scalable Knowledge Composition Project,SKC),这3个项目的研究各有侧重。(Onto)[2]Agent的目的是帮助用户检索网上已有的本体,主要采用了参照本体,利用它保存网上现有本体的元数据[4]。而Ontobroker目的是为用户检索到所需要的网页。Ontobroker是德国卡尔斯鲁厄大学应用信息学与形式描述方法学院(AIFB)的一个研究项目,该项目建立了一个用来处理HTML、XML和RDF格式的信息源和信息源语义描述的系统,其核心是用形式化本体描述背景知识,并明确网页的语义,以便综合利用本体的表达能力和推理机制[5]。SKC是斯坦福大学目前正在进行的一个项目,主要研究如何用代数学方法来合成不同领域的主体,解决信息系统语义异构的问题,实现异构的自治系统之间的互操作[6]。

  国内也有许多学者对于将本体应用于信息检索领域进行了深入的研究。万捷等人提出基于内容的信息检索系统,利用本体对检索需求进行语义扩充,并用文档分析器对检索文档进行过滤,因此增加了检索结果的准确性,更加符合用户的检索需求[7]。徐振宁等人则把本体作为信息检索系统的核心,通过构造形式化的领域本体,提出了一种将知识表示和知识处理引入互联网信息处理的方法,为互联网上半结构化数据和关系数据库提供了统一的语义模型[8]。武成岗等人也提出了基于本体和多智能主体的信息检索服务器,该系统利用本体协助智能主体对网络上的各类信息进行领域分类,并规范用户信息检索的模式,由于仅提供给用户所关注领域的资源索引,因而检准率较高[9]。

  1.3.2 本体在网页自动分类中的应用 目前应用本体进行信息组织与分类的研究较少。普拉博沃(R.Prabowo)等人提出了基于本体的网页自动分类系统,该系统基本上是从杜威十进分类法和美国国会图书馆分类法中抽取概念形成领域本体,并建立本体与分类法之间的映射,然后应用本体来辅助分类[10]。刘娇蛟等在其《基于本体实现对网页文本的自动主题分类》一文中探讨了利用本体中主题概念的层次结构和主题词、特征项的各种语义关系来实现多层次文本主题分类的方法,主要是在对特征项进行匹配的过程中,应用本体中描述的各种语义关系对特征词进行扩展,可以提高匹配的效率,从而提高分类的准确性[11]。当然,利用本体的层次结构和语义关系进行主题分析取决于本体中对各种概念和关系的描述是否准确。

  2 本体语言

  在具体的应用中,本体的表示方式可以分为4大类:非形式化、半非形式化、半形式化、形式化语言。也就是说本体可以采用自然语言来描述,也可以用框架、语义网络或逻辑语言等来描述。若要实现较强的推理能力,本体一般要用描述语言进行表示。关于本体描述语言的需求分析与设计是目前众多研究项目关注的焦点。

  由欧洲信息社会技术(EUIST)支持的Onto Web(Ontology-based Information Exchange for Knowledge Management and Electronic Commerce,知识管理和电子商务领域中基于本体的信息交换)项目组的比奇霍弗(S.Bechhofer)等人在分析了本体设计目标和应用实例的基础上,提出本体语言应具备:①明确本体的外延;②必须为每一个本体提供元数据;③本体语言应包含类定义原语;④本体语言应包含属性定义原语;⑤说明类与性质之间的等价关系;⑥对特殊的等价关系的说明;⑦特定领域的公理与假设;⑧必须给出类实例;⑨集的势约束;⑩支持字符模型等20个方面的条件[12]。

  概括说来,从本体的特点与本体应用的需求出发,本体语言必须满足以下几个基本条件:首先,本体语言应该基于某种形式的逻辑,这样才能进行推理。目前的大部分本体语言都是基于一阶谓词逻辑和描述逻辑的。其次,由于本体是共享概念模型的明确的形式化规范说明,因此,本体语言必须是机器可读的。再次,本体语言还必须具备编码语言的表达性,编码的精确性和语言的语义性。此外,为实现本体间的交流和共享,本体语言还必须支持语法和语义的互操作性。

  此外,从构成上来看,本体语言作为一种知识表示语言,应至少提供以下语言工具:

  1)本体语言的版本、名称域、本体描述性元数据等的定义语句和语法形式;

  2)类的定义语句和语法形式;

  3)类属性的定义语句和语法形式;

  4)本体顶层类及其属性;

  5)本体文件的封装方式等等。

  只有具备了这些基本组成部分,才可以用计算机来识别和处理本体[13]。

  2.1 本体语言基础

  本体语言不仅要有描述能力,同时也应具备推理能力,因此它一般都是基于某种逻辑语言的,目前开发的本体语言主要是基于一阶逻辑和描述逻辑的。虽然高阶逻辑是所有已知逻辑中表达能力最强的,但是它没有好的计算性,虽存在真命题,但不可证明。因此,一般情况下如果不需要高阶语义,二阶逻辑可以转换为一阶逻辑。

  2.1.1 一阶逻辑 一阶逻辑是一种形式语言系统,研究的是假设与结论之间的蕴含关系,即用逻辑的方法研究推理的规律。它可以看作是自然语言的一种简化形式。由于其精确、无二义性,所以容易被计算机理解并进行处理,同时又与自然语言相似,具有很强的表达能力,因此一阶谓词逻辑系统可以用来表示人类的某些知识。但是一阶逻辑作为一种形式语言,还远远不能表示人类自然语言所能表达的全部知识[14]。

  用一阶逻辑表达某一领域有关问题的知识,实际上就是如何用一阶逻辑对自然语言命题进行符号化的问题。首先要将一个原子命题分解为个体词和谓词两个部分,接着找出原于命题中所包含的量词(存在量词()或所有量词()),然后用符号表示原于命题中个体词(如x)与谓词的关系。例如,“所有的人都要呼吸”这样一个全称命题,可用一阶逻辑表示为:(x)[Human(x)→Breath(x)]。

  目前开发的基于一阶逻辑的本体语言主要有:Cycl,Ontolingua和Loom。

  2.1.2 描述逻辑 描述逻辑是一种基于对象的知识表示的形式化,也叫概念表示语言或术语逻辑。它建立在概念和关系之上,其中概念解释为对象的集合,关系解释为对象之间的二元关系。描述逻辑是一阶逻辑的一个可判定的子集,具有合适定义的语义,并且具有很强的表达能力。一般地,描述逻辑依据提供的构造算子,在简单的概念和关系上构造出复杂的概念和关系,通常描述逻辑至少包含以下算子:交(∩),并(∪),非([┐]),存在量词(),全称量词()。例如,“Happy Father”用描述逻辑可表示为:Man ∩( has-child:human)∩(has-child:Happy)。在这种最基本的描述逻辑的基础上再添加不同的构造算子,则构成不同表达能力的描述逻辑[15]。

  与一阶谓词逻辑不同的是,描述逻辑系统能提供可判定的推理服务,它保证推理算法总能停止,并返回正确的结果。一阶逻辑虽然具有很强的表达能力,但其推理过程复杂,不利于本体的检验;而描述逻辑的推理复杂度可知,更适用于本体检验。并且,描述逻辑的语法容易转换成XML/RDF形式,因此基于描述逻辑的本体模型更适合于网络环境下的概念建模与知识共享。

  2.1.3 知识交换格式(Knowledge Interchange Format,KIF)

  知识交换格式是由斯坦福大学开发的一种基于一阶逻辑的形式语言,用于各种不同计算机程序和系统之间进行知识交换。当一个计算机系统需要和其他的系统通信时,可通过将其内部的数据结构转换成KIF来实现。KIF对一阶逻辑进行了扩展和限制,其核心语义(即没有规则和定义的KIF)与一阶逻辑语义相似,也保持了一阶逻辑的简洁性和半决定性,但增加了处理非标准运算符的功能和对非单调推理和定义的支持。KIF的主要特点在于:①KIF语言具有语义宣布性,即KIF表达式的语义是可以理解的,不需要求助解释程序;②KIF语言在逻辑上是可理解的,可以谓词演算的形式提供任意句子的表达式;③KIF语言提供元知识支持,这样就可以在不修改语言的情况下引进新的知识表示结构[16]。

  2.2 基于一阶逻辑的本体语言

  2.2.1 CycL Cyc是美国的微电子与计算机技术有限公司的研究项目,其目标是开发本体,进行常识推理,Cyc系统目前已发展成为一个庞大的常识系统,其部分知识本体提供免费使用。CycL是Cyc系统的描述语言,它是一种体系庞大而非常灵活的知识描述语言,具有很强的表达能力和推理能力。CycL中的词汇由常量、可分离项、变量、数字、字符串等组成,特定的项组合起来成为有一定含义的表达式,进而形成严密的CycL语句。CycL在一阶谓词演算的基础上,扩充了等价推理、缺省推理等功能,而且具备一些二阶谓词演算的能力。在该语言的环境中还配有功能很强的可进行逻辑推理的推理机。此外,CycL还具有具体化定义(用已有的声明来定义新的声明)、映射、模式化、操作符、上下文、分离、否定以及防止产生歧义等功能,可以用它很容易地分析复杂的句子[17]。

  2.2.2 Ontolingua Ontolingua是由美国斯坦福大学知识系统实验室(KSL)开发的一种基于KIF的本体语言,主要用于本体服务器上浏览、创建、编辑、修改和使用本体,也有一些项目用它作为实现本体的语言。Ontolingua定义框架本体作为知识表示的基础,支持3种本体定义方式:一是KIF表示;二是使用框架本体的词汇库;三是同时使用上述两种表示方式。Ontolingua包含KIF分析器、本体分析工具和一组Ontolingua转换器,通过Ontolingua转换器可以将用Ontolingua表示的本体转换成Prolog、IDL、CLIPS、Loom、Epikit、Algernon和标准的KIF等[18]。

  目前,美国斯坦福大学的本体服务器就是采用Ontolingua作为本体表示语言。

  2.2.3 Loom Loom是由美国南加利福尼亚大学信息科学学院人工智能研究小组开发的一种基于一阶谓词逻辑的知识表示语言,该项目的目标就是为人工智能领域的知识表示与推理提供一种先进的工具。现在,该研究小组推出了Loom的第二代知识表示语言Power Loom。

  Loom的描述性知识包括定义、规则、事实和缺省规则等,它利用向前推理、语义一致化和面向对象的真值维护等技术实现推理,通过多种技术的高度融合,使得逻辑范例、产生式规则范例和面向对象范例能集成在同一个应用中。

  在Loom基础上发展的Power Loom,具有更好的表达和推理能力,它采用前后链的推理机制,能够处理复杂的规则、否定、等价推理、包含以及部分高阶推理[19]。

  目前开发的基于一阶逻辑的本体描述语言都未能在描述资源方面得到广泛的应用。而描述逻辑有着精确的数学基础,支持较强的推理能力,更适合于网络环境下大量知识的描述和推理。

  2.3 基子描述逻辑的本体语言

  2.3.1 OIL、DAML与DAML+OIL 本体推论层(Ontology Inference Layer,OIL)是由On-To-Knowledge(基于本体演化的内容导向知识管理工具)项目开发的一种本体语言,其语义基于描述逻辑,语法建立在RDF之上。OIL提供本体工程中基于框架方法中广泛采用的建模原语,以及描述逻辑中的规范语义和推理支持。这是最早的基于RDF的本体描述语言。

  OIL采用分层的方法定义标准的领域模型语言,包括核心OIL、标准OIL、实例OIL和重OIL四层(见图1)。核心OIL包括直接映射到RDF原语的OIL原语;标准OIL是完整的OIL模型,采用RDF以外的原语,既提供足够的表达能力,又容易理解,因而允许语义的精确定义和推论;实例OIL将概念和任务增加到已有模型;重OIL用于将来的扩展,加入其他表达和推理能力。其中,上层在下层基础上增加了功能和复杂性,这样当领域模型按任何一层的语义进行描述,即使只能处理和理解低层语义的主体,也能够部分理解高层的领域模型描述。

  OIL的优势在于以描述逻辑为基础。如果两个本体在定义中使用相同的术语集,自动得出包含关系来合并本体。此外,丰富的模型结构允许一致性检验,为构建高质量本体提供方便。但是,OIL定义的逻辑运算虽可以描述逻辑公式、规则和公理,却只能表示一些代数属性而不支持广泛的公理描述。此外,OIL与RDF一样,没有明确的输入机制,不能充分支持本体的发展,不能表示类和属性的同义,不能表达同一概念的不同结构间的匹配[20]。

  

  图1 OIL分层结构

  代理标识语言(The DARPA Agent Markup Language, DAML)是美国国防部高级研究计划局(DARPA)于2000年8月启动的一个项目,目标就是使Agent能够动态地标识和理解信息资源,并为Agent之间的语义互操作提供支持,建立一种促进语义Web发展的语言和工具。DAML是XML和RDF的扩展,以描述逻辑为基础,结合了OIL的优点。同时,由于建立在RDF的基础上,所以DAML也受到RDF缺陷的限制。DAML最早的版本称为DAML-ONT,现在与OIL结合形成DAML+OIL(DARPA代理标识语言+实体引入层)。目前,DAML研究项目正在探索创建一种具有足够的方法表达公理和规则的DAML逻辑[21]。

  DAML+OIL是由DARPA和欧盟合作进行的项目,是专门为语义Web设计的一种本体描述语言,采用面向对象的方法用类和属性来描述领域的结构,具有清晰的语义。比如,植物与种子植物的上下位关系可以表示为:

  〈daml:Class rdf:ID=植物〉

  〈daml:Class rdf:ID=种子植物〉

  〈rdfs:subclassof rdf:resource=植物〉

  〈/daml:Class〉

  DAML+OIL的不足之处主要体现在:①约束表达能力较弱,只能表示属性值的基数约束,不能表示属性值的区间约束;②不能表示任何规则,而无论是约束表示还是规则表示对本体都是非常重要的[5]。目前,正计划实现DAML-Logic语言,在其中加入规则表示,为DAML+OIL扩展一阶逻辑提高其表达能力[22]。

  2.3.2 网络本体语言(Web Ontology Language,OWL) OWL是由W3C网络本体工作组研究设计的一种以DAML+OIL为基础的网络本体描述语言,用于构造更加完备的本体信息以支持自动推理。OWL采用面向对象的方式来描述领域知识,即通过类和属性来描述对象,并通过公理(Axioms)来描述这些类和属性的特征和关系。

  OWL包括类、属性、类实例以及实例间的关系4种基本元素。首先,OWL语言的表述能力主要体现在对类和特性的描述上,它通过构造函数(Constructors)来构造类和特性。OWL继承了RDFS中的Rdfs:Class等一系列的构造函数,同时也新增了部分函数(见表1)。其次,为了能够进一步描述类和特性的特征和关系,OWL定义了如下公理(见表2)。通过这些公理,OWL对类和特性之间的关系代数、复合关系、划分关系、部分到整体的关系等进行了细致的定义。并且,对于类、特性及实例间相似性与不相似性进行约束,更好地支持本体间的推导和映射,增强本体信息的复用性[23]。

  表1 OWL部分构造函数

  ┌────────────────┬─────────────────┐

  │构造函数│含义 │

  ├────────────────┼─────────────────┤

  │intersection of │与│

  ├────────────────┼─────────────────┤

  │union of│或│

  ├────────────────┼─────────────────┤

  │complement of

  │非│

  ├────────────────┼─────────────────┤

  │one of │列举 │

  ├────────────────┼─────────────────┤

  ││表明一个类实例中如果具有某些指定的│

  │all values from │特性,那么这些特性的值都是指定的类│

  ││的实例│

  ├────────────────┼─────────────────┤

  ││表明一个类实例中指定的特性,且这个│

  │some values from│特性的值中至少有一个是指定的类的实│

  ││例│

  ├────────────────┼─────────────────┤

  ││确认一个类实例最多(少)具有多少个│

  │max cardinality、min cardinality│ │

  ││特性 │

  └────────────────┴─────────────────┘

  表2 OWL公里

  ┌──────────────┬─────────────────────┐

  │公理│含义 │

  ├──────────────┼─────────────────────┤

  │subclass of │类的层次关系 │

  ├──────────────┼─────────────────────┤

  │equivalent class│类的等价关系 │

  ├──────────────┼─────────────────────┤

  │disjoint with

  │类的互斥关系 │

  ├──────────────┼─────────────────────┤

  │same dividual as│相同的实例│

  ├──────────────┼─────────────────────┤

  │different from │不同的实例│

  ├──────────────┼─────────────────────┤

  │subproperty of │特性的层次关系│

  ├──────────────┼─────────────────────┤

  │equivalent property │特性的等价关系│

  ├──────────────┼─────────────────────┤

  │inverse of │特性的相反关系│

  ├──────────────┼─────────────────────┤

  │transitive property │特性之间的传递性 │

  ├──────────────┼─────────────────────┤

  ││特性之间的功能性,即如果一个特性P │

  │functional property、inverse│具有functional property,P(x,y)and P

  │

  ││(x,z)-〉y=z;如果一个特性P具有 │

  │functional property │inverse functional property,那么P(y,x)│

  ││amd P(z,x)-〉y=x

  │

  └──────────────┴─────────────────────┘

  下面以飞机场的经纬度为例,应用OWL的基本元素表示为:

  〈rdfs:Class rdf:ID=“飞机场”〉

  〈rdfs:subClassOf〉

  〈owl:Restriction〉

  〈owl:onProperty rdf:rescurce=“#纬度”/〉

  〈/owl:Restriction〉

  〈/rdfs:subClassOf〉

  〈rdfs:subClassOf〉

  〈owl:Restriction〉

  〈owl:onProperty rdf:resource=“#经度”/〉

  〈/owl:Restriction〉

  〈/rdfs:subClassOf〉

  〈/rdfs:Class〉

  〈owl:DatatypeProperty rdf:ID=“纬度”/〉

  〈owl:DatatyPeProperty rdf:ID=“经度”/〉

  OWL包括3个子语言:OWL Full,OWL DL和OWL Lite。OWL Full包括所有的OWL词汇和RDF3提供的原语,能够提供最大程度的知识描述能力,但是没有计算上的保证。它还允许本体增加预定义词表的含义,OWL Full可以看作是RDF的扩展,而OWL Lite和OWL DL可以看作是受控RDF的扩展。OWL Full由于过于复杂,且还不成熟,因此还在不断地更新中。OWL DL提供大部分OWL词汇支持和RDFS支持,并在语义上等同于描述逻辑,它在保证计算的完整性和可判定性的前提下,对本体进行描述。OWL Lite用于提供分类结构和简单约束,是OWL DL中相对容易实现部分的子集合,在形式上也没有OWL DL那么复杂。

  这3个子语言的关系如下:每一个合法的OWL Lite都是一个合法的OWL DL本体;每一个合法的OWL DL本体都是一个合法的OWL Full本体;每一个有效的OWL Lite结论都是一个有效的OWL DL结论;每一个有效的OWL DL结论都是一个有效的OWL Full结论。反之,则不成立。

  3 本体研究方向与应用前景

  本体论是近年来随着计算机信息处理、人工智能、知识工程等学科的发展而迅速兴起的一个十分具有活力的研究领域,研究人员们从各自的专业领域出发对本体工程、本体的表示、转换、集成以及本体应用等进行了深入的研究和探讨。目前,本体领域的研究重点主要集中于以下几点:本体方法学的问题;如何建立本体评价标准;如何集成本体;如何不断扩大本体应用领域。

  本体理论在我国学术界引起普遍关注是在最近几年,虽然目前对于本体理论和应用的研究都不深入,但各专业领域都已认识到本体的应用潜力。在图书情报领域,本体同样有着广阔的应用前景。本体能够准确地描述概念含义以及概念之间的内在关联,并能通过逻辑推理获取概念之间蕴涵的关系,具有很强的表达概念语义和推理的能力,更适用于数字化时代的信息组织和检索;在信息标引方面,由于本体可以更好地表达词语之间的概念关系,可以应用本体辅助主题分析。首先应用主题识别等技术将文本中的概念提取出来,然后应用领域本体中概念之间的语义关系和层次关系进行综合匹配,进而确定主题概念。这样可以大大提高主题分析的准确性和科学性,同时也可以避免使用句子分析、语段分析等目前尚不完善的分析技术。在信息检索方面,可以利用本体对概念以及概念之间的关系进行精确的描述,也可以利用本体对用户需求进行语义扩展。传统的基于关键词或分类目录的检索方法由于难以表达概念的深层次语义及内在关系,导致了大量没有意义的检索结果出现。而本体则全面、细致地描述了概念之间的语义关系,并可实现一定程度的推理,建立本体与主题词或分类类目的映射,利用本体所反映的领域知识可以实现初步分类,同时也能更准确地分析出主题。另一方面,在某些情况下,用户难以简单地用关键词来表达其检索需求,或产生表达差异等问题,也可以应用本体对用户给出的词语进行语义扩展,实现基于语义的检索。

  由此可见,本体与传统的叙词表一样,都反映了某一领域的语义相关概念,具有知识性、科学性和层次性,而本体比叙词表更适用于网络环境下的信息资源组织,其优势主要体现在以下几点:首先,本体更加深入、全面、细致地反映了概念之间的关系,而叙词表中的语义关系则只有“用、代、属、分、参”等;同时在组织结构上,本体中的概念构成了一个语义网络,而叙词表的知识点则只是线性的。其次,本体中的概念用自然语言或半自然语言表达,比叙词表的应用更广,可以实现基于本体的语义检索或自然语言检索。再次。叙词表建好以后就相对稳定,不可能经常修订;而本体则是一个开放的体系,其概念集可以随着学科领域的发展进行动态更新,更适应于信息频繁更新与变化的网络环境。本体的建立是一项浩大的工程,具体某一领域本体的建立也需要投入大量的人力、物力,在建立过程中可以借鉴该学科叙词表的成果,在叙词表的基础上完善概念间的语义关系,扩展语义结构,然后运用本体语言对概念及其关系进行形式化的表达,使其能够为计算机所理解和处理。

  目前,本体在图书情报领域的应用已引起了国内学者们的关注和重视。2003年10月31日至11月2日在南京召开的“信息构建(IA)与情报学理论方法的新发展”学术研讨会上,与会学者们将本体作为核心主题,对于本体的概念、作用,本体在信息检索领域的应用以及本体在情报学理论研究、情报系统和情报研究中的应用进行了探讨。同时,也有研究人员尝试将本体应用于信息检索、自动分类、信息集成[24]、数字图书馆的智能导航、信息过滤[25]等,但目前这些技术都还不成熟,基本处于实验或小范围的验证阶段,尚未有研究成果投入实际应用。

参考文献

1 邓志鸿等.Ontology研究综述.北京大学学报(自然科学版),2002(5)

2 陆汝钤.世纪之交的知识工程与知识科学.北京:清华大学出版社,2001

3 Uschold M.Knowledge Level Modelling:Concepts and Terminology.The Knowledge Engineering Review,1998,13(1):5~29

4 (Onto)[2]Agent:Ontology Based WWW Broker to Select Ontologies.http://gunther.smeal.psu.edu/cachedpage/14423/7

5 Ontobroker.http://ontobroker.aifb.unikarlsruhe.de

6 SKC.http://www-db.stanford.edu/SKC/

7 万捷,滕至阳.本体论在基于内容信息检索中的应用.计算机工程,2003(3)

8 徐振宁等.基于本体的语义信息查询系统的研究与实现.计算机工程,2002(12)

9 武成岗等.基于本体论和多主体的信息检索服务器.计算机研究与发展,2001(6)

10 Prabowo R,et al.Ontology-based Automatic Classification for the Wed Pages:Design,Implementation and Evaluation.http://csdl.computer.org/comp/proceedings/wise/2002/1766/00/17660182abs.htm

11 刘娇蛟,龚丽,李建华.基于本体实现对网页文本的自动主题分类.计算机工程,2003(7)

12 Bechhofer S,et al.Requirements of Ontology Languages.http:// ontoweb.aifb.uni-karlsruhe.de/About/Deliverables/d4.1.pdf

13 张晓林.Semantic Web与基于语义的网络信息检索.情报学报,2002(4)

14 刘遵雄,郑淑娟.基于一阶逻辑FOL的知识交换格式KIF.情报杂志,2003(8)

15 董明楷,蒋运承,史忠植.一种带缺省推理的描述逻辑.计算机学报,2003(6)

16 Knowledge Interchange Format.http://logic.stanford.edu/kif/ dpans.html # Scope

17 CycL:the Cyc Representation Language.http://www.cyc.com/ cyc/technology/technology/whatiscyc_dir/howdoescycreason # cycl

18 Ontolingua.http://www.ksl.stanford.edu/software/ontolingua/

19 Loom.http://www.isi.edu/isd/LOOM/LOOM-HOME.html

20 OIL.http://www.ontoknowledge.org/oil/

21 DAML.http://www.daml.org/

22 李守丽等.CRL:对语义Web上的Ontology表示语言DAML+OIL的一种扩充方案.计算机工程与应用,2003(23)

23 周武,金远平.构建XML本体信息研究.微机发展,2003 (10)

24 邓志鸿,唐世渭,杨冬青.面向语义集成——本体在Web信息集成中的研究进展.计算机应用,2002(1)

25 刘柏嵩.基于本体的数图书馆信息过滤研究.上海交通大学学报,2003(9)

推荐10篇