기계 번역, 어디까지 왔나?

끊임없이 진보하며 성공률 100%에 도전한다 영문으로 된 전공서적의 개정판이 나오면 학생들은 번역판이 나오기만을 손꼽아 기다린다. 보통 1년이 되기 전에 번역된 책이 나오지만, 원서 읽기에 익숙하지 않은 학생들은 그 기간이 보통 고역이 아닐 수 없다. 그런 그들에게 한 가지 희소식이 있다. 정확도 높은 번역 소프트웨어의 완전 상용화가 멀지 않았다는 것이다. 어쩌면 박사논문을 쓸 때는 번역 소프트웨어를 이용하여 최신 논문을 우리말로 볼 수 있지 않을까? 우리에게 세계와의 소통을 선물할 ‘기계 번역’의 현재를 알아본다.

1. 기계 번역의 필요성
기계 번역이란 컴퓨터를 통해서 구문을 파악하고 단어를 대입하여 번역하는 것을 말한다. 인간이 문명사회에 발을 디딘 후부터 통신 및 운송 수단의 발달로 국가 간의 교역이 활발해지고 끊임없이 새로운 정보가 창출됨에 따라 번역의 수요가 급등하여 인간을 대체할 번역 수단의 개발이 대두되었다. 기계 번역은 또한 번역자가 다를 경우 한 용어에 대한 번역 후의 명칭이 각각 다를 수 있다는 ‘비일관성’의 문제를 해결할 수 있고, 번역에 사용되는 시간과 금액을 절감할 수 있다. 이러한 장점 때문에 기계 번역은 컴퓨터의 발전과 궤를 함께 하여 끊임없이 발전해 왔다.

2. 기계 번역의 방법
기계 번역 방식의 발달 과정은 크게 4단계로 나눌 수 있다. 단순한 단어 대 단어의 치환 수준인 1세대(단어 번역)부터 문법을 분석하여 구문 분석까지 하는 2세대 번역(구문 번역), 그리고 구문 분석을 거친 의미 분석을 하는 3세대 번역(의미 번역), 마지막으로 중간언어(한 언어로부터 여러 언어로 번역하기 위해 모든 언어에 무관하게 정의되어 어떤 언어에도 의지하지 않는 언어)를 이용한 4세대 번역(인터링구아)까지가 그 단계이다. 이 4단계의 과정을 기본으로 하여 실제 기계 번역에 쓰이는 여러 가지 방법을 소개한다. ① 규칙 기반 방식 언어학적 규칙(구조 및 변환 규칙)을 바탕으로 기계 번역을 수행하는 방법으로, 직접 방식과 중간언어 방식이 있다. 초창기 기계 번역에서 많이 사용되었던 직접 방식은 형태소를 번역한 후에 번역된 형태소를 번역된 언어의 문법에 맞게 재배열생략삽입통합분리하는 방식으로 목적 문장을 생성한다. 한국어와 일본어의 예처럼 언어학적으로 유사한 언어의 기계 번역에 용의하나, 단어순서가 다른 언어를 번역했을 때 좋은 결과를 얻지 못한다는 단점이 있다. 직접 방식의 기계 번역 엔진들은 유사 언어군에 대해서 대부분 90% 이상의 번역 품질을 제공하여 상용화에 성공했다고 볼 수 있다. 중간 언어는 어떤 언어에도 의존하지 않는 언어로서, 모든 언어에 무관하게 정의되어야 한다. 기계 번역 시스템은 특정한 두 언어에 최적화되어 개발되므로, 이미 개발된 기술을 이용하여 다른 언어를 번역하는 것은 어렵다. 그러므로 한/영/일의 다국어 번역을 위해서는 3C2×2(한-영/영-한/한-일/일-한/영-일/일-영)인 6개의 기계 번역 시스템을 개발해야 하는데, 이는 결코 쉬운 일이 아니다. 따라서 다국어 번역을 위해 중간 언어(인터링구아) 방식의 기계 번역 방식이 발전되었다. 그러나 각각의 언어가 가지고 있는 언어 현상을 중간언어로 구현하는 것은 매우 어렵다. 그러므로 이를 이용한 상용 시스템은 아직 개발되지 않았다. ② 말뭉치 기반 방식 규칙에 의해서 번역지식을 표현할 경우 복잡한 지식을 일일이 손으로 작성해야 하기 때문에 지식의 확장이나 규칙의 일관성 유지 등 많은 어려움에 직면하게 된다. 이와 같은 어려움을 다소 완화하기 위해 말뭉치 기반 방식이 쓰일 수 있다. 여기에는 예제 기반 방식과 통계 기반 방식이 있다. 예제 기반 방식은 1980년대 초 일본 교토대의 나가오 교수에 의해 제안되었는데, 많은 원문-번역문 쌍을 예제로 하여 번역 지식을 추출해 내고 이를 기반으로 기계 번역을 수행하는 것이다. 이 기술은 예제가 정교하게 구축되고 그 양이 많을수록 번역 결과가 정밀하게 나온다는 장점이 있다. 또 정제된 예제만 있으면 손쉽게 언어 모델을 컴퓨터에 적용할 수 있다는 장점이 있어서 최근 들어 다양한 분야에 적용되고 있는 기술이다. 그러나 아직까지는 수많은 연구에도 불구하고 일부 상용 시스템이 개발되었을 뿐이다. 한편 최근에는 자동번역 분야에 관심을 보이고 있는 SKT가 이 기술 기반의 자동번역 기술 개발을 검토 중인 것으로 알려져 있다. 통계 기반 방식은 1949년 워렌 위버에 의해 제시된 이 후 촘스키에 의해 통계적인 접근방식의 한계가 지적된 50년대 말부터는 거의 연구가 이뤄지지 않다가, 최근 다시 활발하게 연구되고 있다. 번역기의 역할은 입력 문장에 가장 적합한 출력문장을 찾는 것이다. 가장 적합한 출력문장을 결정짓는 기준은 확률이 최대인 목적 언어 문장을 선택하는 것이다. 번역 전 언어 문장 f를 문장 e로 번역한다고 하면 확률모델로 보아 p(f|e)이고, 베이즈 정리에 의해 p(f|e)= p(f)p(e)이다. 문장 e에 대해 문장 f에 대한 언어쌍은 말뭉치쌍을 통해 얻어낼 수 있고, 번역 후 언어 말뭉치쌍은 n-gram 방식으로 e에 대한 확률을 얻게 된다.

3. 결론
현재까지 기계 번역은 많은 부분에서 정확도가 떨어지며, 특히 문화적 차이를 극복하지 못하므로 생각지 못한 번역 결과가 나오기도 한다. 하지만 현재 기계 번역 시장 규모는 세계적으로 확대되어 가는 추세이며, 한-영/한-일 관련 소프트웨어의 번역 성공률은 80~90%에 육박한다. 특히 IT 환경의 급속한 발달로 인해 통계 기반 방식 등 고도의 기술 개발이 진행되면서 점차 자동번역 기술은 미래 사회의 중요한 부가가치를 생산하는 수단으로 인식되고 있다. 앞으로 기계 번역의 중요성은 더욱 커질 것이며, 위에서 언급한 기술 외에도 새로운 기술에 대한 전망 또한 밝다.

☞ 참고자료 : 한겨레말글연구소 4차 학술발표회 자료집(2008. 12. 4)

김현민 기자 다른기사 보기