음성인식기술 어디까지 왔나-단순 음성인식 수준 넘어 다양한 응용 가능
음성인식기술 어디까지 왔나-단순 음성인식 수준 넘어 다양한 응용 가능
  • 김순협 / 광운대 교수
  • 승인 2001.03.28 00:00
  • 댓글 0
이 기사를 공유합니다

음성인식기술은 21세기 10대 기술 중의 하나로 지목받고 있다. 현대 기술의 추세는 인간 친화적인 도구를 만드는 것, 즉 기계를 다룰 때 사람이 거부감이 없도록 친근감있게 사용할 수 있도록 하는 것이다. 이러한 역할을 자연스럽고 효과적으로 실현할 수 있도록 하는 것 중의 하나로 음성을 들 수 있다. 왜냐하면 음성은 사용에 특별한 교육 없이도 평소에 사람에게 말하는 것처럼 자연스럽게 정보를 전달할 수 있기 때문이다. 1970년대 중반 이후 음성인식에 대한 연구가 활발하게 진행되면서 1980년대 초기까지 음성인식 시스템은 인공지능 기법에 기반을 두고 개발되었다. 그러나 현재는 IBM에서 대규모 음성인식 시스템 개발에 사용했던 HMM(Hidden Markov Model)이라는 통계적 기법을 일반적으로 사용하고 있으며, 최근에는 자연어 처리 기법과 접목되면서 단순한 인식의 차원을 뛰어 넘어 주어진 음성의 뜻을 이해하고 그에 대응하는 반응을 보이는 음성이해의 단계에까지 와 있다.

음성인식의 기초와 분류

음성인식은 전화, 휴대폰 또는 마이크를 통하여 컴퓨터에 전달된 사람의 음성에서 특징을 추출하고 분석하여, 미리 만들어진 인식 모델에서 가장 근접한 결과를 찾아 인식 결과를 실행하는 기술이다. 이 때, 미리 만들어 둔 모델을 기준패턴(Reference pattern)이라 하고, 인식을 위해 새로 들어온 음성을 시험 패턴(Test pattern)이라고 부른다. 간단하게 음성인식의 방법을 살펴보도록 하자.

먼저, 음성인식을 하기 위해서는 마이크를 통해 들어온 음성을 녹음하여 디지털 신호로 바꿔야 하는데, 이러한 기술을 샘플링이라고 한다. 즉, 11025Hz로 샘플링한다는 것은 입력된 음성 파형에서 1초당 11025개만큼의 값만을 저장한다는 것이다.

음성의 파형은 불규칙한 부분이 많고, 매번 발음할 때마다 동일하지 않기 때문에 단순한 파형만을 비교해서는 각각의 음성들을 구별해 내기란 쉬운 일이 아니다. 그래서 신호의 변화에 대해 강인하고 명확한 특징을 제공하기 위한 특징을 추출해서 이용한다. 특징 파라미터의 종류로는 선형예측코딩(Linear Prediction Coding), 켑스트럼 계수(Cepstrum Coeffi cient), 인지선형예측(Preceptual Linear P rediction), MFCC(Mel-Frequency Cepstr um Coefficient)등이 있다. 인식을 위해 이와 같은 특징 파라미터를 인식 대상 어휘에 대해 미리 구해 모델을 만들어 두고, 새로운 음성이 들어왔을 때 특징 파라미터를 구한 뒤, 인식알고리듬에서 비교한 후 가장 비슷한 것이 인식대상으로 선택된다.

인식알고리즘은 보통 다음과 같은 알고리즘이 사용되어진다. 다른 사람이 같은 단어를 발성하거나 동일한 사람이 같은 단어를 발성할 시에 음성의 길이가 모두 다르게 나타난다. 이러한 발성의 길이가 서로 다른 두 개의 패턴, 즉 기준패턴과 시험패턴을 최적상태가 되도록 비선형 신축에 의해 두 패턴간의 유사도를 알아보는 방법이 DP 매칭법이다. 그러나 인식 어휘수가 많으면 기준패턴과 시험패턴간의 비선형 신축의 조합을 모두 계산하고자 할 때 엄청난 계산량이 필요하다. 이 점을 해결하기 위하여 DP를 이용한 시간 정규화(time normalizatio n)방법이 제안되었고, 이러한 방법을 이용함으로써 최적화가 효율적으로 구해지게 되었다.

인식에 이용되는 또 다른 기술로 HMM(Hidden Markov Model)이 있다. HMM은 조금 복잡하긴 하지만 현재 가장 성능이 좋은 방법으로 알려져 있으며, 가장 많이 사용되고 있다. 이것은 1975년 Carnegi-Mellon 대학의 Baker와 IBM의 Jelinek 등에 의해 음성 신호처리 분야에 도입되기 시작했으며, 관측이 불가능한 처리를 관측이 가능한 다른 처리를 통해 추정하는 이중 확률 처리이다.

신경 회로망은 인간 뇌세포의 형태를 추정해 모방한 것으로 수많은 뉴런 집합으로 구성되어 있다. 하나의 뉴런에는 다시 수많은 입력이 있는데, 예를 들어 앞서 설명한 특징 파라미터가 입력되면 각각의 입력에 서로 다른 값을 곱해 모두 합한 값이 출력된다. 입력에 곱해지는 값은 특정 입력에 대해 원하는 출력이 나오도록 학습된다. 예를 들어, 모음 ‘아’에 대한 특징 파라미터가 입력되면 ‘아’라는 뉴런의 출력 값이 커지고, 나머지 뉴런의 출력 값은 작아지도록 학습하는 것이다. 신경 회로망은 음소나 단어를 인식하는데 쓰이거나, HMM과 함께 사용되기도 한다.

음성인식에서 100%의 인식률을 기대하기란 정말 어렵다. 그래서, 일반적으로 하나의 응용분야에 한정시켜서 인식을 하면 인식률을 현격히 높일 수 있다. 예를 들어서 증권거래시스템에 적용할 음성인식기라고 하면 증권거래 시스템에서 사용하는 용어가 인식 대상어휘로 한정되어 있을 것이다. 따라서, 그에 해당하는 데이터 베이스를 구축하고, 언어의 문법을 적용시킨다면 더 좋은 인식률을 기대할 수 있다. 이러한 인식률을 높이기 위한 기술 분야로서 단어 단위로 인식하는 고립단어 인식(예: ‘인터넷’, ‘탐색기’ 등), 한꺼번에 여러 단어를 인식하는 연결단어 인식(예 : ‘광운’+‘대학교’, ‘서울’+‘대학교’ 등), 연속된 음성에서 특정 단어만을 검색하여 인식하는 핵심어 인식기술(예 :“서울에서 부산까지 오전 10시 비행기표 부탁합니다”라고 발성했을 때 ‘서울에서’, ‘부산까지’, ‘10시’을 검출)등이 있다. 또한, HTML과 같은 일종의 마크업 랭귀지로 웹페이지에 음성 인터페이스를 쉽게 추가할 수 있는 VoiceXML이 있다.

음성인식의 응용분야

음성인식의 응용분야는 무한정 넓다. 자동통역 시스템, 웹브라우저, 보이스 포털 서비스, Wearable 컴퓨터, 가전 제품, 장난감에 이르기까지 아주 다양하다.

보이스 포탈 사이트란 휴대폰 및 일반전화를 통해 대표 전화번호로 전화를 걸면 인증 절차를 거쳐 전자우편, 일정, 메모 등 개인 정보와 인터넷 정보를 신속하고 정확하게 확인 할 수 있는 서비스이다. 필요한 정보의 메뉴 선택 등 음성으로 명령을 내리면 음성으로 정보를 들을 수 있다. 보이스 포탈 서비스는 음성으로 정보가 전달되므로 인터넷 사용이 익숙하지 않은 사용자들도 쉽게 사용할 수 있으며 필요한 정보를 이동 중에도 실시간으로 전달 받을 수 있으므로 신속하게 대처할 수 있게 된다.

모바일 컨텐츠는 최근 크게 부각되고 있는 사업이다. GIS 서비스, 인터넷 쿠폰 및 전자 쿠폰, 신문, 여행정보, 게임, 퀴즈, 만화, 동영상 등 다양한 정보를 모바일 단말기로 제공해주는 사업으로 사용자수와 시대적 동향, 유행 등과 함께 빠르게 확산되고 있다. 앞으로 모바일은 정보의 제공 차원이나 기타 다른 것들의 컨트롤러 역할로 생활 필수품이 될 것이다. 이러한 모바일은 서비스를 신속하고 편리하게 제공받기 위해서 음성기술의 적용은 필수적이라 할 수 있다.

그 동안의 많은 시도로 이제서야 우리 주위에 음성인식기가 속속 상품화되어져 나오고 있다. 종목 이름을 말하면 시세조회와 매매주문을 할 수 있는 현대증권 주식거래 시스템, 휴대폰, 목적지와 현재의 위치를 말하면 그에 대한 정보를 제공하는 교통정보서비스, 음성으로 화자를 확인하는 텔레뱅킹 서비스의 보안시스템, 명령어를 알아듣는 통신 프로그램 뿐만 아니라 음성인식 애완 로봇, 컴퓨터 등은 이미 사용되어지고 있는 경우이며, 발음이 부정확한 언어 장애인 치료 등의 의료분야에서도 음성인식을 적용하고 있다. 어릴 적 영화에서나 보던 ‘말을 알아듣고 말을 하는 자동차’나 사람이 없이도 기계에서 물건을 사는 것, 또 전화를 통해 집안의 모든 일을 처리하는 것 등이 수 년 안에 현실화 될 것이다. 그러나, 이 모든 것을 현실화하는데 아직까지 전반적인 음성인식기술과 응용 분야와의 접목이 부족하므로 많은 관련 단체나 연구기관은 물론 우수한 두뇌 집단들의 노력으로 개발할 연구분야가 매우 많다고 할 수 있기에 앞으로 21세기에 아주 전망이 있는 연구 분야가 될 것이다.