DeepLearning/Computer Vision

[CV] OCR의 data format

yooj_lee 2021. 11. 10. 02:18
300x250

OCR 데이터셋 구성

  • bounding box, BBOX (검출할 영역의 좌표)
    • 직사각형인 경우 $ (x,y,width,height) $, $ (x_1, y_1, x_3, y_3) $
    • 일반 사각형인 경우 4개의 좌표를 다 표기
    • 다각형인 경우 모든 점의 좌표를 다 표기
  • text (영역 내의 존재하는 글자들의 시퀀스)
  • don't care (검출해도 되고 안 해도 되는 영역; 학습 시 사용 X)
  • file name (이미지 파일의 이름)
  • image width (이미지 가로 길이)
  • image height (이미지 세로 길이)






ICDAR (International Conference on Document Analysis and Recognition)

  1. ICDAR 2015
    • Incidental Scene Text: 풍경 이미지 속에 우연히 글자가 잡힌 경우
    • 1500장의 이미지와 그에 해당하는 ground truth(GT) text file
      • train 1000, test 500
    • care, don't care로 구분하여 전사
      • care: 검출할 영역. (라틴문자)
      • don't care: 검출하지 않을 영역. 육안상 알아보기 힘든 글자, 라틴문자가 아닌 글자 (한자 등..)


  2. ICDAR 2017 (Multi-Lingual Scene Text)
    • multilingual
      • 9가지 언어: Chinese, Japanese, Korean, English, French, Arabic, Italian, German and Indian
      • 6가지 문자: "Arabic", "Latin", "Chinese", "Japanese", "Korean", "Bangla" + "symbols", "mixed"
    • 총 18000장
      • Train 9000 (각 언어별 1000장), test 9000
    • Focused (Intentional) Scene Text
      • 우연히 찍힌 글자가 아닌, 글자 영역을 위주로 촬영된 이미지
      • 길거리 표지판, 광고판, 가게 간판, 지나가는 자동차 및 웹 microblog에 올라간 유저 사진 등
    • gt 파일 형식은 ICDAR 2015와 매우 유사


  3. ICDAR 2019 (Arbitrary shaped Text)
    • 총 10066장
      • 기존에 존재하던 Total-Text, SCUT-CTW1500, Baidu Curved Scene Text에 추가로 데이터를 수집 (3055+7011장)
      • train 5603, test 4563
      • horizontal, multi-oriented, curved 등 다양한 형태 포함





한국어 OCR 데이터셋 (공개 데이터셋)

AI Hub에서 찾을 수 있음.

  • 야외 실제 촬영 한글 이미지 (in AI hub)

    • 일상에서 접할 수 있는 다양한 한글 이미지를 촬영한 text-in-the-wild 이미지 데이터

    • (간판, 메뉴판, 책표지, 상품명 등을 촬영한 Focused Scene Text)

    • 총 약 50만

      • 1600*1200 해상도의 한글 이미지
      • 그 이미지와 1:1 쌍을 이루는 JSON 파일
    • 특징

      • 이미지에 단어가 여러 개 있는 경우 글자 영역은 전체를 라벨링하되 transcription은 가장 잘 보이는 한글 위주로 최대 3개까지만 라벨링 작업을 실시함
      • 직사각형 영역으로 Bounding Box 그려진 형태
      • 단어 기준 10자 이하만 transcription 라벨링
      • 인식 대상을 제외한 한글의 경우 BBOX를 그린 후 don't care 처리 (xxx 표기) 함

염두해야할 것은 GT 파일 포맷이 다 다르기 때문에 이런 부분은 꼭 체크해둘 것.

300x250