이 문서는 전산학과 정보 과학에서의 온톨로지에 관한 것입니다. 철학의 존재론에 대해서는 존재론 문서를 참조하십시오. |
온톨로지(Ontology)란 사람들이 세상에 대하여 보고 듣고 느끼고 생각하는 것에 대하여 서로 간의 토론을 통하여 합의를 이룬 바를 개념적이고 컴퓨터에서 다룰 수 있는 형태로 표현한 모델로, 개념의 타입이나 사용상의 제약조건들을 명시적으로 정의한 기술이다. 온톨로지는 일단 합의된 지식을 나타내므로 어느 개인에게 국한되는 것이 아니라 그룹 구성원이 모두 동의하는 개념이다. 그리고 프로그램이 이해할 수 있어야 하므로 여러 가지 정형화가 존재한다.
목차 |
온톨로지는 전산학과 정보 과학에서, 특정한 영역을 표현하는 데이터 모델로서 특정한 영역(Domain)에 속하는 개념과, 개념 사이의 관계를 기술하는 정형(Formal) 어휘의 집합으로 정의된다. 예를 들어 "종-속-과-목-강-문-계"로 분류되는 생물과 생물 사이의 종의 관계, 영어 단어 사이의 관계 같은 것을 정형 어휘로 기술하면 각각 온톨로지라고 할 수 있다. 정형 언어(Formal Language)로 기술된 어휘의 집합인 온톨로지는 추론(Reasoning, Inference)을 하는 데에 사용된다. 웹의 등장은 전통적인 정보검색을 비롯하여 지식관리와 일반 상거래 등 사회 전 분야의 변혁을 초래하였다. 특히 웹 정보 검색은 소장 자료를 대상으로 하는 제한된 검색에서 웹을 통해 접근할 수 있는 전자자원을 대상으로 하는 검색을 가능하게 하였다. 웹의 급속한 발달로 인해 검색 대상 범위의 확대는 보다 정교한 검색을 필요로 하게 되었으며, 지능화된 정보 검색 시스템 개발을 촉진하는 계기가 되었다. 이런 계기를 바탕으로 웹자원을 효과적으로 관리할 수 있는 정보 검색의 새로운 도구의 필요성이 대두되었다. 온톨로지는 시맨틱 웹을 구현할 수 있는 도구로써 지식개념을 의미적으로 연결할 수 있는 도구이다.
온톨로지는 자연어의 기계 번역과 인공지능 분야에서 활용되며, 최근에는 특정 분야의 인터넷 자원과 그 사이의 관계를 기술하는 온톨로지를 사용하는 시맨틱 웹과 이것에서 파생된 시맨틱 웹 서비스 등의 핵심 요소로서 주목받고 있다.
주로 인용되는 온톨로지에 대한 정의는 '어떤 관심 분야를 개념화하기 위해 명시적으로 정형화한 명세서 (An ontology is an explicit and formal specification of a conceptualisation of a domain of interest. (c.f. Tom Gruber, 1993)' 이다. 즉, 각 사물에서 공통점을 찾아내고 이를 하나의 집합 또는 범주로 나타내기 위해 의미, 지식의 쓰임새 등을 분명하고 자세하게 설명하는 것을 말한다. 또 Borst는 온톨로지를 '공유된 개념의 정형화된 명세이다. (Ontologies are defined as a formal specification of a shared conceptualization.)'라고 정의하고 있다. 앞의 정의에 '공유'의 개념이 추가되었는데, 이는 하나의 잘 정의된 개념을 각 분야에서 공통적으로 사용한다는 의미로 볼 수 있다.
시맨틱 웹 기술은 사람의 머리 속에 있는 언어에 대한 이해를 컴퓨터 언어로 표현하고 이것을 컴퓨터가 사용할 수 있게 만드는 것인데, 특별한 분산환경을 갖춘 웹에 구현하자는 것이다. 이것은 기계가 정보검색과 같은 사람의 요구를 더 잘 이해하고 적절하게 반응하도록 만들기 위해서이다. 사람과 기계 사이에 진정한 커뮤니케이션이 가능하기 위해서는 사람이 이해하는 수준으로 기계도 언어를 이해할 수 있어야 한다. 그러나 HTML 형태의 문서들로 이뤄진 현재의 웹은 사람에게 정보를 주는 역할은 하고 있지만 컴퓨터 프로그램이 각 문서의 내용을 정확히 파악할 수 없다. 온톨로지는 이러한 문제의식에서 출발한다. 세상에 있는 각각의 사물이나 사건들을 경험하면서 이들 속에 들어있는 특징을 파악해서 이해하는 방식을 개념화라고 하는데, 온톨로지는 컴퓨터에서도 사람이 갖고 있는 개념과 같은 것을 일종의 데이터베이스와 같은 형태로 만드는 기술이라 할 수 있다. 프로그램과 인간이 지식을 공유하는데 도움을 주기 위한 온톨로지는, 정보시스템의 대상이 되는 자원의 개념을 명확하게 정의하고 상세하게 기술하여 보다 정확한 정보를 찾을 수 있도록 하는데 목적이 있다. 온톨로지 기반의 시스템은 정보 콘텐츠 구조에 대한 명세서로서의 역할, 해당 분야의 지식 공유와 재사용, 해당 영역의 제약과 가정에 대한 명시, 지식과 프로세스의 분리 등의 장점을 가진다.
온톨로지의 구성원소는 클래스(class), 인스턴스(instance), 관계(relation), 속성(property)으로 구분할 수 있다.
일반적으로 관계와 속성은 굳이 구분하여 칭하지 않는 경우가 많다. "isA(사람, 동물)", "cause(운동, 건강)", "hasSize(삼성 싱크마스터 Wide LCD, XX 인치)"와 같은 실제 클래스,인스턴스들 사이의 관계로 선언한 관계,속성을 관계,속성 인스턴스(relation/property instance)라고 부르기도 하는데, 이는 "isA", "cause", "hasSize" 등과 같이 정의하여 명명한 관계,속성과의 구분을 위하여서이다.
온톨로지에서 주로 사용하는 언어에는 RDF, OWL, SWRL 등이 있다. RDF는 XML에서 발전한 형태이며, subject, object, predicate으로 이루어지며, 단순하게 개념 혹은 인스턴스 사이의 관계를 나타낸다. 일반적으로 복잡한 제약조건이 필요없는 일반 응용을 산정할 경우에 RDF를 많이 사용한다. OWL은 관계들 간의 hierarchy, 관계 인스턴스 내에서의 논리적 제약조건 등을 포함한 언어이다. 정밀하고 논리적인 추론을 필요로 하는 경우에 사용한다. SWRL은 추론을 위한 규칙을 정의하기 위하여 사용한다.
가장 먼저 온톨로지 개념을 적용한 컴퓨터 분야는 역시 지식표현과 활용을 연구하는 인공지능 분야다. 특히 에이전트 분야는 이미 90년대 초부터 분산된 환경에서 에이전트들이 상호작용을 통해 의미있는 문제를 해결하기 위해서는 서로 공유할 수 있는 기본 지식기반의 필요하다는 것을 인식하여 일종의 온톨로지라 할 수 있는 개념 계층도(concept hierarchy) 등을 이용했으며, 지식과 정보를 교환하기 위한 질의어(예 KQML-Knowledge Query and Manipulation Language)와 지식교환형식(예 KIF-Knowledge Interchange Format) 등을 정의했다. 특히 미 국방연구처(DARPA)의 DAML-OIL(DARPA Agent Markup Language - Ontology Inference Layer)은 대표적인 온톨로지 표현언어 및 형식으로 받아들여지고 있다.
대표적 분야 중 하나인 정보검색 분야의 온톨로지는 용어모음이나 동의어사전 형태만으로도 불필요한 오류를 방지할 수 있고 검색효율을 높일 수 있다. 예를 들어 사용자가 잘못 기재한 ‘불공정 거래’라는 키워드는 온톨로지를 이용해 ‘불공정 거래’로 바로잡힐 것이며, ‘불공정 경쟁, 독점, 덤핑, 정부 보조금’과 같은 유사 또는 관련어를 이용해 더욱 풍부한 검색서비스를 제공할 수 있게 된다. 개방형 디렉터리 프로젝트[1]에서는 자발적으로 참여하는 사람들이 인터넷 정보의 분류체계를 만들고 있으며, 이 분류체계는 구글 등 상용검색사이트를 비롯한 수많은 사이트에서도 사용될 정도로 대표적인 웹정보 분류체계로 받아들여지고 있어 처음 방문하는 사이트에서도 익숙한 분류 카테고리를 이용할 수 있는 경우가 점점 많아지고 있다.
휴대형의 작은 무선기기들이 동적으로 임의 네트워크를 형성하는 환경에서 각 기기들이 서로의 서비스 기능을 광고하고 또 인식할 수 있어야 하는데, 서로 다른 시기에 상이한 업체에 의해 제조된 기기들 사이에서 이를 가능하게 하기 위해서는 동적으로 접근이 가능한 온톨로지의 사용이 타당한 대안으로 제시된다 .
온톨로지가 가장 널리 파급될 가능성이 있는 분야는 전자상거래 분야다. 컴퓨터 프로그램이 상거래의 일부 또는 전부를 맡아서 처리하는 것이므로 프로그램이 다양한 상거래 개념을 이해하고 처리해야 할 것이다. 로제타넷과 같은 전자상거래 프래임워크는 종합 온톨로지라 할 수 있는데, 예를 들어 로제타넷의 PIP(Partner Interface Process)는 거래 프로세스의 온톨로지로 볼 수 있고 로제타넷비즈니스사전(RNBD)과 로제타넷기술사전(RNTD)은 각각 비즈니스와 기술적인 개념들의 온톨로지로 볼 수 있다. 즉 표준화할 수 있고 일반화할 수 있는 개념들을 컴퓨터가 처리할 수 있는 형식으로 명시함으로써 공유할 수 있고 재사용이 가능한 틀을 제공할 수 있는 것이다.
이 글은 컴퓨터 과학에 관한 토막글입니다. 서로의 지식을 모아 알차게 문서를 완성해 갑시다. |
구글의 페이지 랭크에 대한 상식 (0) | 2011.04.21 |
---|---|
분류 classfication/taxonomy (0) | 2011.03.07 |
형태소, 어간, 어근, 어미, 체언, 용언, 접사, 접미사, 관형어에 대해 (4) | 2010.08.18 |
시맨틱 검색 (0) | 2010.02.22 |
[09.07.10] 와이즈넛, 전자정부 사절단 자격 ‘日 방문’ (0) | 2009.08.06 |