초록 |
본 발명은 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템으로서, 입력된 음성을 인식하여 음성 텍스트를 생성하는 단계; 상기 음성 텍스트에 대한 자연어 처리 과정을 통해 음성 인식의 오류 구간을 추정하고, 상기 오류 구간을 보정 대상으로 설정하는 오류 구간 판단 단계; 상기 음성 텍스트에서 상기 보정 대상 및 상기 보정 대상의 전후 문맥으로 상기 보정 대상이 사용되는 사용 패턴을 추출하고, 이를 카테고리별 개체명 사용 패턴 DB에 저장된 개체명 사용 패턴과 대비하여 상기 보정 대상이 해당되는 카테고리를 추정하는 카테고리 추정 단계; 및 카테고리별 개체명 사전 DB에 기초하여 상기 보정 대상에 대한 카테고리별 음절 엔그램(N-gram)의 출현 빈도수를 분석하여 상기 보정 대상의 띄어쓰기를 보정하는 띄어쓰기 보정 단계를 포함하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법과 이를 제공하기 위한 시스템이며, 이와 같은 본 발명에 의하면 고유명사나 신종 단어 및 변종 단어 등과 같이 음성인식 사전에 등록되어 있지 않는 단어가 사용되는 경우에도 먼저 카테고리로서 해당 단어의 범주를 파악하고 이를 띄어쓰기 확률에 적용함으로써 정확하고 신뢰도 높게 음성 인식의 띄어쓰기 오류를 보정할 수 있게 된다. |