상세 컨텐츠

본문 제목

역 카테고리 빈도에 의한 계층적 분류체계에서의 문서의 자동 분류

IT 세상/검색이야기

by 이현민 (지후지율아빠) 2007. 12. 20. 23:08

본문

1.

역 카테고리 빈도에 의한

계층적 분류체계에서의 문서의 자동 분류

                                             

조광제, 김준태

동국대학교 컴퓨터공학과

 

Automatic Text Categorization on Hierarchical Category Structure

by using ICF(Inverted Category Frequency) Weighting

 

Kwangje Cho and Juntae Kim

Department of Computer Engineering, Dongguk University

 

 

 

   본 논문에서는 문서의 자동 분류를 위한 색인어 가중치 계산 방법으로 색인어의 카테고리 분리도를 반영하는 역카테고리빈도(Inverted Category Frequency, ICF)를 정의하고, 이를 이용한 계층적 분류체계에서의 문서 분류 방법을 제안한다. ICF는 카테고리간의 분리도가 높은 단어에 대해 높은 가중치를 주는 방법으로, 문서 분류의 경우 역문헌빈도(IDF)보다 의미 있는 가중치 계산 방법이 된다. 본 논문에서는 조선일보 경제기사와 KTSET을 대상으로 문서의 자동 분류 실험을 수행하였으며, 실험 결과 ICF를 가중치로 사용한 경우가 IDF를 사용한 경우에 비하여 높은 정확도를 나타냄을 보였다.

 

 서론

 

   문서의 분류란 정해진 분류체계 하에서 분류하고자 하는 각 문헌들을 가장 적합한 카테고리에 배정함으로써 문헌을 집단화하는 작업이다[2, 11]. 과거에는 다루어야할 정보의 양이 적었기 때문에 문서의 분류가 수작업으로 가능하였지만, 웹(WWW)에서와 같이 매일 대량의 정보들이 만들어지고 있는 현대의 상황에서 모든 문서의 수작업에 의한 분류는 불가능하다고 할 수 있으며, 따라서 문서의 자동 분류에 대한 연구가 활발하게 진행되고 있다 [3, 5, 6, 7, 8, 12].

   문서의 자동 분류에 사용되는 방법에는 단순한 단어의 매칭을 이용하는 방법에서부터, 확률을 이용한 방법[11], 벡터의 유사도를 이용한 방법[2, 12], 통계적인 기법에 인공지능적인 기법을 접목한 방법[1] 등이 있으며, 분류를 위해 색인어에 가중치를 줄 때 색인어의 문서내 상대빈도와 역문헌빈도(Inverted Document Frequency, IDF) 등을 이용하고 있다. 그러나 색인어의 가중치 계산을 위해 대표적으로 사용되고 있는 역문헌빈도는, 문서간의 분리도가 높은 색인어에 높은 가중치를 줌으로써 문서의 검색에는 매우 효과적이나, 카테고리간의 분리도가 더 중요한 문서의 분류에는 부적합한 면이 있다. 특히 문서의 분류체계가 계층적인 경우 전체 문서집단에 대한 역문헌빈도보다는 각 카테고리에서 하위 카테고리들을 대상으로한 카테고리간의 분리도를 색인어의 가중치 계산에 고려하는 것이 필요하다.

   본 논문에서는 문서의 자동 분류를 위한 색인어 가중치 계산 방법으로 카테고리간 분리도를 반영하는 역카테고리빈도(Inverted Category Frequency, ICF)를 정의하고, 이를 이용한 문서의 분류방법을 제안한다. 본 논문에서 제안한 방법으로 일간지의 경제기사와 정보검색 실험용 문서집단인 KTSET[10]을 대상으로 다양한 조건에서의 분류실험을 수행하여 역카테고리빈도를 사용한 경우가 일반적으로 역문헌빈도를 사용한 경우보다 분류 정확도가 높으며, 특히 계층적 분류체계에서의 문서 분류에 효과적임을 보인다.

 

2. 통계적 문서 분류

 

   통계적인 문서 분류 방법은 수작업에 의해 분류된 실험집단(training set) 문서에서의 단어 출현 빈도를 근거로 하여 새로운 문서가 분류될 가능성이 가장 높은 카테고리를 찾아내는 방법으로[2, 11], 일반적으로 많이 사용되는 통계적 문서 분류 방법에는 확률을 이용한 방법과 벡터 유사도를 이용한 방법이 있다.

 

2.1. Bayesian Probability를 이용한 분류

   이 방법은 분류하려는 문서에 색인어 W1,W2, ... ,Wn   나타났을 때 문서가 각 카테고리에 분류될 확률을 계산하여 가장 높은 확률값을 갖는 카테고리로 문서를 분류하는 방법이다[2, 3, 7, 11].

   사건 E Ci 가 있을 때 이들이 동시에 일어날 확률은

 

 

이므로, E 가 주어졌을 때, Ci 가 발생할 확률은

가 된다. 분류하려는 문서에 단어 W1,W2, ... ,Wn 나타난 경우를 사건 E, 문서가 카테고리 Cj 에 분류되는 것을 사건 Cj 라고 하고 각 단어가 나타나는 사건이 독립적이라고 가정하면, 이 문서가 카테고리 Cj 에 분류될 확률은 다음과 같다.

 

이때 k 는 모든 카테고리에 대한 계산에 공통으로 사용되는 비례상수이며, p(Cj)와 p(Wi|Cj)는 실험집단으로부터 다음과 같이 계산할 수 있다. 

 

   = 한 문서가 카테고리 Cj로 분류될 확률

         =

 = 카테고리 Cj의 한 문서에 단어 Wi         

            나타날 확률

         =

 

2.2 Vector similarity를 이용한 분류

   벡터 유사도(similarity)를 이용한 방법은, 분류하려는 문서와 분류 대상 카테고리들을 색인어들의 벡터로 구성하고, 두 벡터 사이의 유사한 정도를 비교하여 유사도가 가장 높은 카테고리로 문서를 분류하는 방법이다[2, 7, 11, 12].

   벡터 사이의 유사도는 두 벡터 사이의 각도를 계산하여 각도가 작은 경우가 높은 유사도를 갖도록 한다. 예를 들어 문서 DW1,W2,W3,W6의 색인어를 갖고, 카테고리 CjW1, W2,W6,W7,W8의 색인어를 갖는다고 하면 벡터 DCjD = (1,1,1,0,0,1,0,0), Cj = (1,1,0,0,0,1,1,1)이 되며 이 두 벡터의 유사도는 다음과 같이 계산된다.

Similarity(D, Cj) =

 

   문서와 카테고리의 벡터 표현에서 정확도를 높이기 위해 각 색인어에 가중치를 부여하기도 하는데, 일반적으로 많이 사용하는 가중치 계산 방법은 상대빈도와 역문헌빈도(IDF) [2, 11]를 이용하는 것이다. 역문헌빈도는 적은 수의 문서에 나타난 색인어에 대해 높은 가중치를 주는 것으로, 상대빈도와 역문헌빈도를 이용한 경우 색인어 Wi의 가중치는 다음과 같이 계산된다.

 

여기서 freqij 는 색인어 Wi 의 문서(혹은 카테고리) j 에서의 빈도수, N 은 총 문서의 개수, DFi 는 색인어 Wi를 포함하는 문서의 개수이다.

 

3. 역 카테고리 빈도를 이용한 계층적 분류

 

   앞장에서 설명한 두 방법은 중 IDF 가중치를 이용한 벡터 유사도 방법이 문서 분류에 많이 사용되고 있다. 그러나 일반적으로 정보 검색에서 사용하는 IDF 가중치를 문서 분류에 사용하는 경우 다음과 같은 문제가 있다. C1, C2를 분류 카테고리, D1, D2, D3, D4를 분류된 실험집단 문서, W1, W2를 색인어라 하고, 이들이 다음과 같이 분류되어 있다고 하자.

 

     C1 : D1, D3        W1 : D1, D2에 나타남

     C2 : D2, D4        W2 : D1, D3에 나타남

 

   문서의 분류를 위해서는 W2가 W1보다 카테고리의 구분에 도움이 되므로 더 중요한 색인어라고 볼 수 있으나, IDF를 이용한 경우 두 단어의 가중치는 같게 되어 이와 같은 색인어의 특성을 반영하지 못한다. 본 논문에서는 문서의 분류를 위해 위의 예에서와 같이 카테고리의 분리 능력이 우수한 색인어에 높은 가중치를 주는 역카테고리빈도(Inverted Category Frequency, ICF)를 정의하고 이를 이용한 계층적 분류체계에서의 분류 방법을 제안한다.

 

3.1 역카테고리빈도 (ICF)

   본 논문에서 정의하는 ICF는 총 카테고리의 개수를 M, 색인어 Wi를 포함하는 카테고리의 개수를 CFi 라고 할 때 다음과 같다.

 

   ICF를 이용하여 2.2장에서와 같이 색인어 Wi의 가중치를 계산하면 가 된다. 분류체계가 평면적인 경우(단일 레벨로 구성된 경우)에는 이러한 방법으로 각 색인어에 가중치를 준 다음 분류하려는 문서와 각 카테고리 벡터 사이의 유사도를 계산하여 가장 높은 값을 갖는 카테고리로 문서를 분류한다.

   ICF는 IDF와 기본 원리는 같지만, IDF는 문서간의 분리도가 높은 단어에 높은 가중치를 주는 것이고, ICF는 카테고리간의 분리도가 높은 단어에 높은 가중치를 주는 것이라는 차이점이 있다. 즉 소수의 카테고리에 많이 나온 단어에 대해 높은 가중치를 주고, 여러 카테고리에서 고르게 나오는 단어에 대해서는 낮은 가중치를 주는 것이다.

   문서 분류에 있어서는 카테고리간의 구분에 도움이 되는 색인어가 중요도가 높다고 할 수 있으므로, ICF가 IDF보다는 의미 있는 가중치 계산 방법이 된다. 특히 ICF는 카테고리들이 계층적 구조를 갖고 있을 경우, 어느 깊이까지 분류할 것인가를 결정하는데 있어서 현재까지 분류된 카테고리의 부속 카테고리(subcategory)들에 대해서만 ICF를 계산함으로서 분류의 정확도를 높일 수 있다.

 

3.2 계층적 분류체계에서의 문서 분류

   이 장에서는 분류체계가 평면적이지 않고 계층적인 경우에 대하여 문서의 분류 방법을 정의한다. 계층적 분류체계의 경우 평면적인 분류체계에서의 분류와 달리, 어느 정도 깊이까지 문서를 분류할 것인가 하는 문제가 발생한다. 다음과 같은 계층적 구조를 갖는 분류체계가 있다고 가정하자.

 

그림 1. 계층적 카테고리

 

   그림 1에서 만일 어떤 문서 D가 level 1(A, B, C로 구성)에서는 A, level 2에서는 A.3, level 3에서는 A.3.2와의 유사도가 가장 높다고 한다면 이 문서를 이 세 단계 중 어떤 깊이의 카테고리로 분류할 것인가를 결정해야 한다. 본 논문에서는 이와 같은 경우 임계값(threshold)을 사용하여 다음과 같이 분류를 수행하는 방법을 제안한다.

   Cresult = T, i = 1

   WHILE (i ≤ max level)

      Compute ICF for all Wk against

                            subcategories Ck of Cresult

      Compute Sk = similarity(D, Ck) for

                            subcategories Ck of Cresult

      IF (all Sk < θ) RETURN (Cresult)

      Cresult = Ck with max Sk

      i = i + 1

 

   위의 알고리즘에서 θ는 임계값을, T는 top level 카테고리를 의미하며, Cresult = T 이면 분류에 실패한 경우가 된다. 즉 최상위 level에서부터 subcategory들에 대해 유사도를 계산하여 가장 높은 결과를 갖는 subcategory를 선택하되 유사도가 임계값 이상일 때만 선택하도록 하며, 만약 subcategory들의 유사도가 임계값을 넘는 것이 하나도 없다면, 그 상태에서 분류를 멈추고 현재의 category를 결과로 채택한다. 여기서 subcategory들에 대해 유사도 계산을 할 때는 현재 category의 subcategory들만을 가지고 다시 ICF를 계산하게 된다, 즉 ICF 값이 항상 고정된 것이 아니라 level을 내려감에 따라 대상 그 subcategory들에 맞추어서 동적으로 계산되는 것이다.

 

3.3 계층적 분류에서의 실험집단 구성

   계층적 분류체계에서는 실험집단을 구성할 때에도 평면적인 분류체계와는 다른 방법이 필요하다. 본 논문에서는 문서 D가 특정 카테고리로 분류되어 있는 경우 D를 해당 카테고리뿐 아니라 그 상위 카테고리에도 모두 포함시키도록 하였다. 예를 들어, 문서 D가 A.1.2와 C.3로 분류되어 있다면, 이 문서는 계층적인 구조의 특성상 그 상위 노드의 성격도 포함한다고 가정하고, 분류를 위한 실험 데이터를 구성할 때 A, A.1, A.1.2, C, C.3 등의 카테고리에 모두 포함시킨다.

 

4. 실험 및 결과

 

4.1 실험 환경 및 실험 방법

   본 논문에서는 2장에서 설명한 확률을 이용한 방법과 IDF 가중치를 준 벡터 유사도에 의한 방법, 그리고 3장에서 제안한 ICF 가중치와 벡터 유사도에 의한 방법을 평면적인 구조를 갖는 분류체계와 계층적 분류체계 두 경우를 대상으로 하여 분류 실험을 수행하였다.

   실험 대상 문서 집단으로는, 평면적 분류체계에 대한 실험을 위해 94년 조선일보 CD-ROM으로부터 수집한 400개의 경제기사를 이용하였으며, 계층적 분류체계에 대한 실험을 위해 KTSET에서 1000개의 문서를 사용하였다. KTSET은 한국어 정보검색 연구를 위해 만들어진 실험용 문서집단으로, 내용은 논문의 요약이고, 제목, 저자, 분류 항목 등이 명시된 양식화된 문서들이다[10].

   경제기사의 경우 분류체계는 26개의 평면적인 카테고리로 나뉘어 있으며, 실험집단의 분류는 수작업으로 하였다. 문서의 크기는 약 50 - 200 단어 정도로 다양하다. KTSET의 경우는 level 1에 10개, level 2에 57개, level 3에 201개의 카테고리가 있는 계층적인 카테고리 구조로 분류되며, 실험집단의 분류는 각 문서에 이미 명시된 분류들을 이용하였다. 문서의 크기는 요약 부분이 약 100 단어 정도이다. KTSET에서는 제목과 요약 부분만을 실험대상 문서로 하였다.

   경제기사를 대상으로한 실험에서는 400개의 문서 중 300개(75%)를 실험집단(training set)으로, 나머지 100개(25%)를 검증집단(test set)으로 하였고, KTSET을 대상으로한 실험에서는 1000개의 문서 중 750개(75%)를 실험집단으로, 나머지 250(25%)개를 검증집단으로 하였다.

   문서에서의 색인어 추출에는 한성대학교에서 개발한 형태소 분석기 HAM[9]을 사용하였다.

 

4.2 실험 결과

   경제기사를 대상으로한 평면적인 분류체계에서의 분류실험 결과를 표 1에 나타내었다. 이 실험에서는 확률을 이용한 방법, IDF와 벡터 유사도를 이용한 방법, 그리고 ICF와 벡터 유사도를 이용한 방법의 분류 정확도를 구하였으며, 각 실험결과는 실험집단과 검증집단으로 나누어 측정하였고, 다시 검증집단은 분류 결과의 상위 1번째 것이 올바른 분류였을 경우, 상위 2번째까지의 결과 중에서 올바른 분류가 있었을 경우, 그리고 상위 5번째까지의 결과 중에서 올바른 분류가 있었을 경우로 나누어 측정하였다.

   실험집단의 결과를 보면 확률을 이용한 방법이 가장 좋은 결과를 보였다. 이는 단어들의 확률을 계산할 때 단순빈도를 이용하기 때문에 분류할 문서의 단어들이 실험집단에 많이 등장한다면 높은 값을 갖기 때문인 것으로 보인다. IDF와 ICF의 결과를 보면 ICF를 사용한 경우가 약 4% 높은 정확도를 보이고 있다. 검증집단의 결과에서는 모든 경우에 ICF를 사용한 경우가 가장 높은 정확도를 보이고 있다. 상위 1개의 결과만을 채택한 경우 확률적 방법에 비하여 11%, IDF에 비하여 4% 높은 정확도를 기록하였다. 이 결과를 볼 때 단순한평면적 분류체계에서도 문서간의 분리도를 나타내는 IDF보다 카테고리간의 분리도를 나타내는 ICF의 사용이 분류의 정확도를 향상시킨다는 것을 알 수 있다.

   KTSET을 대상으로한 계층적인 분류체계에서의 분류실험 결과는 표 2와 표 3에 나타내었다. 이 실험들에서의 정확도 

분류 방법

실험 결과

실험집단

검증집단

상위 1

상위 2

상위 5

확률적 방법

96%

51%

71%

87%

IDF이용

91%

58%

72%

90%

ICF이용

95%

62%

73%

92%

1. 경제기사 분류실험 결과

 

분류 방법

실험 결과

실험집단

검증집단

level 1

level 2

level 3

level 1

level 2

level3

IDF이용

89%

85%

83%

67%

67%

65%

ICF이용 

92%

87%

85%

70%

69%

66%

2. KTSET 분류실험 결과 - level별 분류

 

분류 방법

실험 결과

실험집단

검증집단

Θ=0.2

Θ=0.5

Θ=0.8

Θ=0.2

Θ=0.5

Θ=0.8

IDF이용

78%

81%

86%

56%

62%

65%

ICF이용 

82%

84%

92%

62%

65%

69%

3. KTSET 분류실험 결과 - 계층적 분류

계산은 다음과 같이 하였다. 우선 문서가 복수의 항목으로 분류되어 있는 경우 실험 결과가 이들 항목 중에 포함되어 있으면 맞는 결과로 하였고, 또한 실험 결과가 분류 항목과 정확히 같거나 분류 항목의 상위 카테고리이면 맞는 결과로, 하위 카테고리이면 틀린 결과로 간주하였다.

    2는 계층적 분류체계에서 각 level을 하나의 평면적인 분류체계로 보고 각 level에 대하여 독립적으로 분류 실험을 한 결과이다. 즉 그림 1에서 A, B, C가 level 1이며, 이 level에서의 분류는 A, B, C를 전체 분류체계로 보고 모든 문서는 이들 중의 하나에 반드시 속한다고 가정한다. 마찬가지로 level 2에서는 A.1,A.2, …,C.3이 전체 분류체계로 간주된다. 각 level에 대하여 실험집단과 검증집단의 분류 결과를 보였다. 실험결과를 보면 하위 level로 내려 갈수록 결과가 좋지 못한데, 이것은 하위 level일수록 카테고리 수가 많아지기 때문이다. 이 실험에서도 ICF를 이용한 경우가 IDF를 이용한 경우에 비하여 1%∼3% 정확함을 알 수 있다.

    3은 계층적 분류 실험 결과로, 이 실험에서는 3.2장에서 설명한 분류 알고리즘에 따라 분류를 수행하였다. 즉, 각 level에서의 분류시 상위 분류 결과의 subcategory들에 대해서만 그 범위를 한정시켜 ICF를 동적으로 계산하였고, 유사도가 일정 임계값을 넘지 못하면 분류를 종료하도록 하였다. 실험 결과를 보면 임계값을 높게 할수록 좋은 결과를 보이는데, 이는 임계값이 높으면 보다 높은 level에서 분류가 중단되므로 앞에서 설명한 계층적 분류체계에서의 정확도 계산 방법상 올바른 분류가 될 확률이 높기 때문이다. 계층적 분류 실험에서도 실험집단과 검증집단 모두 ICF를 가중치로 이용한 경우가 좋은 결과를 보였으며, 특히 계층적 분류 실험의 경우, 1%∼3%의 정확도 향상을 보인 평면적 분류체계에서의 분류 결과(표 2)보다 높은, 3%∼6%의 정확도 향상을 보임으로서 ICF 가중치의 사용이 계층적 분류체계에서의 분류에 더욱 효과적임을 알 수 있다. 

 

5. 결 론

 

   본 논문에서는 문서의 자동 분류시 사용하는 색인어에 대한 새로운 가중치 계산 방법으로 역카테고리빈도(ICF)를 정의하고 이를 이용한 계층적 분류체계에서의 분류 방법을 제안하였다. 조선일보 경제기사와 KTSET을 대상으로한 분류 실험을 통하여 ICF를 사용한 경우가 IDF를 사용한 경우보다 평면적인 분류체계와 계층적인 분류체계에서 모두 더 정확한 분류를 한다는 것을 보였으며, 특히 계층적 분류체계에서 정확함을 보였다. 이들 실험 결과로 볼 때, 문서의 자동 분류에서는 카테고리 분리도가 높은 단어에 높은 가중치를 부여하는 것이 보다 방법임을 알 수 있다.

   앞으로 분류의 성능을 더욱 높기 위하여 ICF와 IDF를 복합적으로 사용하는 방법, HTML이나 SGML과 같은 구조화된 문서에서 구성 요소에 따라 가중치를 차등 적용하는 방법, 문서의 내용을 표현할 수 있는 구문 패턴을 이용하여 통계적 분류 방법에 자연언어처리를 접목시키는 방법 등에 대하여 다각적인 연구가 필요하다.

 

참고문헌

[1] M. Blosseville, G. Hebrail, M. Monteil, N. Penot., "Automatic document classification: natural language processing, statistical analysis, and expert system techniques used together", SIGIR'92, 1992.

[2] W. Frakes and R. Baeza-Yates, Information Retrieval, Prentice Hall, 1992.

[3] R. Hoch, "Using IR techniques for text classification in document analysis", SIGIR'94, 1994.

[4] P. Jacobs, Text-Based Intelligent Systems, Lawrence Erlbaum, 1992.

[5] P. Jacobs, "Using statistical methods to improve knowledge-based news categorization", IEEE Expert, April 1993.

[6] L. Larkey and W. Croft, "Combining classifiers in text categorization", SIGIR'96, 1996.

[7] D. Lewis. "Evaluation and optimizing autonomous text classification system", SIGIR'95, 1995.

[8] D. Lewis, R. Schapire, and J. Callan, "Training algorithms for linear text classifiers", SIGIR'96, 1996.

[9] 강승식, 이하규, "한국어 형태소 분석기 HAM의 형태소 분석 및 철자 검사 기능", 한글 및 한국어 정보처리 학술 발표논문집, 1996.

[10] 김재군, 김영환, 김성혁, "한국어 정보검색 연구를 위한 시험용 데이터 모음 KTSET 개발", 한글 및 한국어 정보처리 학술 발표논문집, 1996. 

[11] 정영미, "정보검색론", 구미무역 출판부, 1993.

[12] 최동시, 정경택, "카테고리와 키워드의 밀접성 정보에 의한 문서 자동 분류 시스템 설계 및 구현", 정보과학회 학술발표 논문집, 10, 1995.

 

 

 

 

이다. 에 근거하고 있다. 출현빈도를 이용하는 방법으로는 빈도 산출방식에 따라 단순빈도와 상대빈도로 구분된다.

  단순빈도는 단어빈도, 문헌빈도, 장서빈도로 나눠지며, 상대빈도는 단순빈도의 단어빈도를 문헌빈도, 장서빈도, 문헌길이 ( 한 문헌에 출현한 단어의 총빈도 ) 등으로 나누어 줌으로써 일반화 시키는 방법이다.[12]

  단순빈도는 문헌 집단의 크기나 분석대상 텍스트의 길이, 또는 단어의 사용빈도를 고려 하지 않으므로 적당한 방법으로 사용하기는 어려우며, 상대빈도를 이용한 방법이 보다 적합한 방법으로 사용되고 있다.

 

 

, 많은 문서에 고르게 나타난 단어는 문서를 구분하는 기준이 되기에는 부적합하다고 보고 적은 문서에서 많이 나타난 단어에 높은 가중치를 부여하는 것이다.

 따라서, 한 문서에서의 단어 출현횟수에는 비례하고, 그 단어가 나타난 문서의 수에는 반비례하게 되는 방법이다.

 

 

  위의 방법으로 단어와 가중치로 이루어진 다음과 같은 Training Set을 구성한다. 하나의 카테고리는 다음과 같은 형식을 갖는다.

 

  C = ( (D1,W1),(D2,W2),…,(Dn,Wn),)

 

  { 단, C : 카테고리,  D : 단어 ,  W : 가중치 }

 

 

 

 각각의 방법에 대해서 2종류의 데이터를 가지고 분류실험을 하였으며, 실험결과도 실험방법에 따라 다양한 결과를 보이게 하였다.

  ① 통계적 방법

 확률에 의한 통계적 방법의 실험으로 3.1에서 설명한 마론의 방법을 기본으로 하고 있다. Training Set과 분류할 문서의 연관도는 분류할 문서의 단어들이 얼마나 많이 Training Set에 등장하였는가가 기준이된다. 즉, 단어들이 카테고리에 등장할 확률을 모두 곱하고, 문서의 확률을 곱하여 가장 높은 가중치를 갖는 문서를 채택한다. 또한, 분류할 문서에 존재하는 단어가 Training Set에 없을 경우에는 일정한 상수를 곱한다. 단, 상수의 값은 단어가 카테고리에 나타날 수 있는  확률보다 작은 값이어야 한다.

   ② 벡터의 유사도를 이용한 방법

 2.2에서 설명한 방법으로 Training Set을 구성한 후, Traininsg Set을 구성하는 단어의 벡터와 분류할 문서의 단어 벡터의 유사도를 구한다.

 유사도를 구하는 것은 벡터의 내적을 이용하여, 두 벡터간의 사이 각도가 좁을 수로 두 벡터는 유사하다고 말할 수 있으므로, 벡터의 유사도가 높은 카테고리에 문서를 분류한다.

 Training Set의 단어의 가중치는 IDF를 이용하여 계산되었으며, 분류할 문서내의 단어의 가중치는 그 문서내의 단어 빈도이다.  이런 식으로 구성된 두 벡터를 이용하여 문서를 분류하게 된다.

 

    ICF를 이용한 방법

 IDF를 이용한 방법과 기본 개념은 유사하지만, 문서의  분리도가 아닌 카테고리의 분리도를 가지고 실험하였다.

 , 문헌간 분리도를 중요시하는 IDF를 이용하는 것보다 카테고리간의 분리도를 중요시하는 ICF를 이용한 방법의 효용성을 보이기 위한 실험으로, Training Set의 단어의 가중치를 구하는 단계에서 ICF를 사용하였다. 그리고 입력 문서의 단어의 벡터를 가지고 계산하는 방법은 IDF방법과 같다.

 그리고, 가중치를 계산하는 경우에 선형적인 카테고리 구조에 적용시에는 총카테고리수와 색인어를 포함한 카테고리 수가 일정하지만, 계층적인 구조에 적용시에는 그 상황에 맞게 총 카테고릿 수와 색인어포함 카테고리수의 값이 그 자노드에 따라 동적으로 변하게 된다.

 

 

 

 

<id>1008

<title>문법적추론과 특징매칭법을 이용한 학습-인식 시스템 개발

<author>

<language>한국어

<journal>정보과학회논문지

<issn>0258-9125

<year>1989

<volume>16

<number>1

<pages>84-92

<abstract>구문론적 학습방법에  특징매칭법으로 보완된 2중  학습-인식 시스템에

대해  논하였다.  구문론적  학습방법으로는  학습부호열에  사용된  종단기호의

후속자를  분석하여  정규문법과 유한오토마타로  추론하였다.  특징매칭법으로는

연속적으로  보완된 16개의  상대적인 위치  좌표를 표준특징벡터로  사용하였다.

On-line으로 입력되는 손으로 쓴 숫자데이타 500개에  대해 학습용 데이타의 수를

변화하면서 2중  학습-인식시스템의 성능을 실험하였다. 49개의  학습용 데이타로

학습한  결과  오인식은  하나도  발생하지  않았으며,  12개의  미인식만

발생하였다(인식율 97.6%). 실험결과  본 시스템은 최소한의 대화에  의해 완벽한

인식수행이 가능함을 보였다.

<etitle>

<eauthor>

<eabstract

<classification>I.5.4.3

I.5.5.1

<keywords>문법적추론

 

정규문법

유한오토마타

표준특징벡터

손으로 쓴 숫자데이타

학습용 데이타

<notes>

Training Set을 구성하는 데 사용된 자료는 제목과, 요약, 그리고 분류항목이다. 기타 항목에 대해서는 현재의 실험에서는 사용하지 않았지만, 향후 연구과제로서 형식화된 문서를 이용하여 문서를 분류하는 시스템의 구성시에 사용될 수 있다.

 

 

 

 

 

 

 

원문 : http://ai.dgu.ac.kr/publication/pds/정보과학회97s1.hwp

 

 

 

 


  학문연구와학습을 목적으로 자료를 공유함에 있어서 자료을 발췌하였슴을 발제자< 사이트>분에게 공손히 알립니다.

     자료는 학문을 연구하고 학습하는데 힘써는 필요한 분에게 학문/연구자료로써 공유할  가치를 느껴

     인터넷공간에서 발췌하였습니다발제자< 사이트>분께서 자료열람을 원치 않으신다면 연락과 함께 즉시

     영구삭제토록 하겠습니다.

 

반응형

관련글 더보기