초록 |
본 출원은 텍스트 인식 모델의 트레이닝 방법, 텍스트 인식 방법 및 장치를 제공하며, 인공지능 기술분야에 관한 것으로서, 구체적으로 딥러닝, 컴퓨터 비전 기술분야에 관한 것이며, 광학 캐릭터 인식 등의 시나리오에 적용될 수 있다. 구체적인 구현 방안에 따르면, 획득된 샘플 이미지의 비전 특징에 대해 마스크 예측을 수행하여, 예측 비전 특징을 획득하고, 획득된 샘플 텍스트의 의미 특징에 대해 마스크 예측을 수행하여, 예측 의미 특징을 획득하며, 여기서, 샘플 이미지는 텍스트를 포함하고, 예측 비전 특징을 기초로 샘플 이미지의 텍스트의 제1 손실값을 결정하고, 예측 의미 특징을 기초로 샘플 텍스트의 제2 손실값을 결정하고, 제1 손실값과 제2 손실값을 기초로 트레이닝하여 텍스트 인식 모델을 획득함으로써, 텍스트 인식 모델이 비전 정보를 마이닝할 수 있을 뿐만 아니라, 의미 콘텍스트 논리도 마이닝할 수 있도록 하여, 텍스트 인식 모델을 기반으로 텍스트 인식을 수행할 때, 텍스트 인식의 다양성과 전면성을 향상시킬 수 있다. |