300x250
OCR 데이터셋 구성
- bounding box, BBOX (검출할 영역의 좌표)
- 직사각형인 경우 $ (x,y,width,height) $, $ (x_1, y_1, x_3, y_3) $
- 일반 사각형인 경우 4개의 좌표를 다 표기
- 다각형인 경우 모든 점의 좌표를 다 표기
- text (영역 내의 존재하는 글자들의 시퀀스)
- don't care (검출해도 되고 안 해도 되는 영역; 학습 시 사용 X)
- file name (이미지 파일의 이름)
- image width (이미지 가로 길이)
- image height (이미지 세로 길이)
ICDAR (International Conference on Document Analysis and Recognition)
- ICDAR 2015
- Incidental Scene Text: 풍경 이미지 속에 우연히 글자가 잡힌 경우
- 총 1500장의 이미지와 그에 해당하는 ground truth(GT) text file
- train 1000, test 500
- care, don't care로 구분하여 전사
- care: 검출할 영역. (라틴문자)
- don't care: 검출하지 않을 영역. 육안상 알아보기 힘든 글자, 라틴문자가 아닌 글자 (한자 등..)
- ICDAR 2017 (Multi-Lingual Scene Text)
- multilingual
- 9가지 언어: Chinese, Japanese, Korean, English, French, Arabic, Italian, German and Indian
- 6가지 문자: "Arabic", "Latin", "Chinese", "Japanese", "Korean", "Bangla" + "symbols", "mixed"
- 총 18000장
- Train 9000 (각 언어별 1000장), test 9000
- Focused (Intentional) Scene Text
- 우연히 찍힌 글자가 아닌, 글자 영역을 위주로 촬영된 이미지
- 길거리 표지판, 광고판, 가게 간판, 지나가는 자동차 및 웹 microblog에 올라간 유저 사진 등
- gt 파일 형식은 ICDAR 2015와 매우 유사
- multilingual
- ICDAR 2019 (Arbitrary shaped Text)
- 총 10066장
- 기존에 존재하던 Total-Text, SCUT-CTW1500, Baidu Curved Scene Text에 추가로 데이터를 수집 (3055+7011장)
- train 5603, test 4563
- horizontal, multi-oriented, curved 등 다양한 형태 포함
- 총 10066장
한국어 OCR 데이터셋 (공개 데이터셋)
AI Hub에서 찾을 수 있음.
야외 실제 촬영 한글 이미지 (in AI hub)
일상에서 접할 수 있는 다양한 한글 이미지를 촬영한 text-in-the-wild 이미지 데이터
(간판, 메뉴판, 책표지, 상품명 등을 촬영한 Focused Scene Text)
총 약 50만건
- 1600*1200 해상도의 한글 이미지
- 그 이미지와 1:1 쌍을 이루는 JSON 파일
특징
- 이미지에 단어가 여러 개 있는 경우 글자 영역은 전체를 라벨링하되 transcription은 가장 잘 보이는 한글 위주로 최대 3개까지만 라벨링 작업을 실시함
- 직사각형 영역으로 Bounding Box 그려진 형태
- 단어 기준 10자 이하만 transcription 라벨링
- 인식 대상을 제외한 한글의 경우 BBOX를 그린 후 don't care 처리 (xxx 표기) 함
염두해야할 것은 GT 파일 포맷이 다 다르기 때문에 이런 부분은 꼭 체크해둘 것.
300x250
'DeepLearning > Computer Vision' 카테고리의 다른 글
[Generative Models] Unsupervised Representation Learning With Deep Convolutional Generative Adversarial Networks (2016) (3) | 2022.04.15 |
---|---|
[Object Detection] RetinaFace(2019) 리뷰 (0) | 2021.12.02 |
[CV] OCR - 글자 영역 검출 (0) | 2021.11.09 |
[Object Detection] Focal Loss (0) | 2021.09.30 |
[DL/CV] NN interpolation의 backward propagation (0) | 2021.09.29 |