초록 |
I-2 해당 연도 추진 실적 I-2-1 추진 실적 요약 계획 : 비원어민 발성 비정형 자연어(한국어, 영어) 음성인식 원천 기술 개발 1. 잡음 및 음원 분리, 다중 특징 고정밀 전처리 기술 추진실적 : o 잡음 제거 및 다중 특징 전처리 기술 설계 - 심층 학습에 기반한 불특정 잡음 추정 기술 설계 * 심층 신경망을 사용하여 훈련 음성 특징, 훈련 잡음 특징, 훈련 오염된 음성 특징의 비선형 관계를 모델링 * 확장 칼만 필터에 의한 잡음 특징의 확률 분포 추정의 정교화 * 잡음 특징의 불확실성을 반영하는 오염된 신호 특징 보상 방법 설계 . 잡음 특징의 확률 분포로부터 중앙 차분 구조로 잡음 특징을 표본화 . 심층 신경망 기반의 비선형 관계 모델을 사용하여 오염된 음성 특징에서 표본화된 잡음 특징을 제거 . 표본화된 잡음 특징이 제거된 음성 특징을 선형 결합 . 보상된 음성 특징의 불확실성을 생성 - 멜필터뱅크 알고리즘 기반 고정밀 특징추출방법 연구 * 초기상태정보추출을 위한 고정밀 특징추출 방법 개발 * 심층신경망 알고리즘 기반 음성인식시스템을 위한 증강 특징추출 방법 개발 - 다양한 비원어민 발음 변이를 표현하는 병합 축약형 음성 특징 모델링 프레임웍 설계 - 자연어 발성 음성데이터 증강을 위한 전처리 기술설계 * 발화속도, 음색등을 고려한 음성데이터 증강을 위한 전처리 기술설계 계획 : 2. 비정형 대화음성을 위한 다차원 지식 모델링 기술 추진실적 : o 비정형 자연어를 위한 음향모델링 기반 기술 설계 - 다중 집합 음향 공간 모델링을 위한 심층 신경망 프레임워크 설계를 통한 기존 DNN-HMM 기반 음향모델의 문제점 개선 (한국어/영어 모국어 화자집합 대상 영어 음성인식용 음향모델 성능 개선 확인) - 비분절 자질 조사를 통한 고유 특징 분석 및 엔지니어링 연구 * 오인식률 높은 한국어 발화에 대한 분석 * 오인식률 높은 한국인의 영어 발화에 대한 분석 * 발화속도 조절이 음성인식 성능에 미치는 영향 분석 * 발화 앞뒤 묵음구간이 음성인식 성능에 미치는 영향 분석 * 발화 속도 둔감 DNN 구조 설계 (DNN weight wrapping을 통한 fast speech robust network 설계) - 다양한 신경망 구조 지원 및 훈련을 위한 Toolkit 개발 * CNN 관련 기능 추가 * 모델 Combination/Smoothing/Regularization 기능 추가 * Multi-level Acoustic Unit Neural Network 설계 * Mask-based Neural Network (NN) 설계 * 비동기 병렬 훈련방법 개발 o 비문법/간투어 등에 강인한 언어모델링 기술 설계 - 비정형 발화 문제 해결을 위한 발음 사전 관점에서의 접근법 검토 * 방송 인터뷰 음성인식 오류 중 발음 사전 누락 발음 추가 . 직접 청취 후 DD-g2p를 이용하여 발음 생성 후 수작업 정리 o 프로소디정보 연구 - 음절 경계 검출 기술 설계 * 하모닉 신호 생성부 설계 . 고대역 통과 필터와 선형 예측 기반 필터 적용한 후 주파수 변환 . 미분값으로 국소 극점 결정 . 국소 최소점을 사용하여 보간법으로 포락선 추정 . 원 신호에서 포락선을 차감하여 하모닉 신호 생성 * 하모닉 성분 추출부 설계 . 국소 최소점 단위로 대역 분할 . 대역의 최대값으로 하모닉 성분 추출 . 하모닉 성분의 평활화 수행 * 음절 경계 검출부 설계 . 시간 축으로 하모닉 성분의 정점을 계산하여 하모닉 재설정 검출 . 하모닉 재설정 여부, 저차원 하모닉 성분, 고차원 하모닉 성분을 사용하여모음 검출 . 모음 사이의 최소 레벨인 프레임을 음절 경계로 검출 o 다차원 지식모델 기반 디코딩 기술 설계 - 그래프 기반 다차원 지식 모델링 기술 : Weighted Finite State Transducer(WFST) 기반의 확률 지식 모� |