의존 문법

문장을 구성하는 언어요소와 또하나의 언어요소 사이의 의존관계를 파악함으로써 문장을 분석한다.

여기서 언어요소란 한국어의 경우 형태소로 볼 수도 있고 어절로 볼 수도 있다. 구구조 문법에서는 여러 언어요소가 모여서 구문 요소를 만들고 여러 구문요소가 모여서 더 큰 구문 요소를 만드는 방법을 택한다.

따라서 문장의 분석 결과는 문장 전체가 부분들로 나누어지며 각 부분은 다시 몇개의 더 작은 부분으로 나누어지는 계층화된 구조를 가진다.


의존관계는 두 언어요소 사이에 존재하는데 이 중 한 언어 요소는 지배소(governor)가 되며 다른 한 언어 요소는 의존소(dependent)가 된다. 의존 문법에 의한 문장의 분석 결과는 문장 내의 가능한 모든 의존 관계들의 집합이다. 의존 관계에 있는 두 언어요소 중 지배소의미의 중심이 되는 요소를 말하며, 의존소지배소가 갖는 의미를 보완해 주는 요소를 말한다. n개의 단어를 가진 문장이 가질 수 있는 최대의 의존관계 수는 가능한 두 단어의 쌍의 수와 같으며 따라서 n(n-1)/2가 된다. 그러나 실제 의존관계 수는 이보다 적게 된다.


의존 문법을 이용한 한국어 구문 분석을 하는 이유는 첫째로 어순의 자유성에 의한 문제점이 의존문법에서는 쉽게 해결되며, 둘째로 구성요소의 불연속성이나 구성요소의 생략 등과 같은 현상에 큰 영향을 받지 않으며 따라서 매우 견고성이 있는 파싱 방법을 구축할 수 있기 때문이다.



의존 규칙

의존 문법에서 가장 중요한 것은 두 단어 사이에 의존 관계가 존재하는지를 결정할 수 있는 기준으로써 이는 의존 규칙에 의하여 구현된다. 의존 규칙의 예는 다음과 같다.[각주:1]

예를 들면 "철수의 모자를 보았다"에서 "철수의"와 "모자를"은 "수식" 의존관계가 있음을 다음의 표로부터 알 수 있다. 즉 DEP-RELATIONmod(철수의, 모자를)이 성립된다.


관계

지배소

의존소

수식


수식


부가



강조

명사


대명사


동사 형용사



부사 관형사

관형사, 관형격조사, 관형형어미, 명사, 부사


관형사, 관형격조사, 관형형어미, 부사


주격조사, 목적격 조사, 부사격조사, 보조사, 부사, 

연결형서술어미, 부사형전성어미


부사


위 표는 어절을 언어요소로 본 경우이다. 그런데 한 어절은 여러개의 형태소로 구성되어 있는 경우가 대부분이다. 어떤 어절 A를 지배소로 이용하고자 할 때와 의존소로 이용하고자 할 때에 따라 A에 대한 범주를 다르게 하여야한다.

예를 들면 "모자를"을 지배소로 이용하고자 할 때는 명사 범주로, 의존소로 이용하고자 할 때에는 격조사 범주로 하여 위 표를 이용하여야 한다. 이러한 이유에서 "어절 사이의 퍼지0 의존관계를 이용한 한국어 파서에 관한 연구" (1993, 서광준, 최기선)에서는 이절마다 좌범주와 우범주를 갖도록 한다. 좌범주는 지배소의 경우에, 우범주는 의존소의 경우에 적용된다. 예를 들면 "철수의"는 좌범주로 고유명사, 우범주로 관형격 조사를 가진다.



의존 제약

문장의 의존관계를 구하는 데 있어서 의존관계 규칙만을 이용하면 실제로 올바르지 못한 의존 관계가 많이 생성될 수 있어 여러 의존관계 제약을 이용하여 잘못된 의존 관계의 생성을 제외해야 한다.


1. 지배소 후위의 원칙

   지배소는 의존소보다 문장내에서 뒤에 위치한다.

2. 투영의 원칙

   임의의 의존관계 A, B에 대해서 A에 대한 아크[각주:2]와 B에 대한 아크는 서로 겹치지(crossing) 않아야 한다.

3. 지배소 유일의 원칙

   하나의 의존소는 오직 한개의 지배소만 갖는다. 

4. 격틀/의미정보 제약

   의존소 A가 격 c1을 나타낼 때 지배소 B의 c1 격에 대한 의미 제약(semantic constraint)을 의존소 A가

   만족시킬 수 있어야 A와 B사이에 의존관계가 성립한다.

5. 필수 성분 제약

   필수 성분을 가져야 하는 어절이 필요한 성분을 갖지 못하고서는 다른 어절의 의존소로 사용될 수 없다.


이와 같은 의존 제약 이외에도 "지배 가능경로를 이용한 오른쪽 우선 구문분석"(김창현, 김재훈, 서정연, 1993)에서는 문장 내의 일부의 어절에 대해서만 의존관계를 조사할 수 있게 하여 불필요한 의존관계의 생성을 시도하지 않게 하여 파싱의 효율을 높이도록 한다. 즉 i번째 어절 W1에 대해서 이를 의존소로 보고자할 때 지배소가 될 수 있는 어절들은 Wi의 지배 가능 경로 상에 있는 어절들 뿐임을 이용하는 것이다. W1의 지배가능 경로란 W1+1, …, Wn(즉 W1 이후의 모든 어절들)을 모두 포함하는 의존 트리에서 W1 + 1에서 루트까지의 경로(path)를 말한다.



나동렬, "한국어 파싱에 대한 고찰",1994.

  1. 홍영국, 이종혁, 이근배, "의존문법에 기반을 둔 한국어 구문 분석기.", 1993 [본문으로]
  2. 아크 : 지배소에서 시작하여 의존소에서 이르는 화살표를 의미 [본문으로]

'NLP > 의존 파서' 카테고리의 다른 글

한국어 구문 분석 관련 연구  (0) 2012.07.05
문장 분석 (작성 중)  (0) 2012.07.05
의존 구조 분석  (5) 2012.07.03

+ Recent posts