728x90

DeepLearning/Computer Vision 23

[Generative Models] Conditional Generative Adversarial Nets (2014)

Conditional Generative Adversarial Nets (2014) 오늘은 conditional generative adversarial nets (이하, cGANs) 논문을 읽고 리뷰하겠습니다. 제안한 프레임워크에 대해 심도있게 분석이 담겨있진 않아서 다소 아쉽긴 했으나, input으로 condition을 같이 넣어주는 매우 간단한 방법으로 conditional distribution을 추정할 수 있도록 하고 이로써 생성 결과를 control할 수 있다는 장점을 밝힌 논문입니다. 하기한 내용에 오류가 있거나 궁금한 사항이 있으실 경우 댓글 부탁드립니다. 1. Introduction GAN: 기존의 generative model의 computational costs를 매우 간소화시키고, ..

[Contrastive Learning] Contrastive Learning이란

오늘은 contrastive learning에 대해 정리를 해보겠습니다. 처음에 facenet에서 triplet loss를 접하고 흥미 있는 분야라고만 생각해왔는데 self-supervised learning 분야에서 많이 발전을 이룬 것 같습니다. 해당 포스트에서 정리한 내용은 survey 논문인 "Contrastive Rerpesentation Learning: A Framework and Review"를 읽고 정리한 내용입니다. 하기한 내용에 질문 혹은 오류가 있을 경우 댓글 부탁드립니다. Contrastive Representation Learning: A Framework and Review 포스트의 목차는 다음과 같습니다. 이번 포스팅에서는 2. Contrastive Learning Archi..

[Generative Models] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (2017)

이번에 리뷰할 논문은 CycleGAN으로, 2017년 ICCV에 발표된 논문입니다. inverse mapping과 cycle consistency loss를 통해 unsupervised image-to-image translation의 성능을 끌어올린 아키텍처로 인용횟수 또한 12000회를 웃돕니다. 학습 과정의 안정성을 개선할 뿐 아니라 unsupervised learning으로 아키텍처의 generality를 높였다는 점에서 그 기여가 큰 연구입니다. 하기한 내용에 부족한 부분 혹은 오류가 있다면 댓글로 언제든 말씀 부탁드립니다. 1. Introduction image-to-image translation: 이미지 쌍을 활용해 입력 이미지와 출력 이미지 간의 mapping을 학습 하지만, 이미지 쌍 ..

[Generative Models] Unsupervised Representation Learning With Deep Convolutional Generative Adversarial Networks (2016)

오늘은 DCGAN 논문을 리뷰해보겠습니다. DCGAN의 경우에 구조나 사용된 기법들이 아주 새롭다고 할 수는 없지만 representation learning으로서 GAN이 어떻게 기능하는지 실험을 진행했다는 점에서 흥미롭게 볼 수 있었습니다. 하기한 내용은 혼자 공부하면서 적은 것이라 틀린 부분이 있다면 말씀 부탁드립니다! 1. Introduction GAN을 학습시키면서 good image representation을 구축하는 방법을 제안함. 이후 Generator(이하 G)와 discriminator(이하 D) 네트워크의 일부분을 지도학습의 feature extractor로 재사용하는 방법을 제안. 기존 GAN의 경우에는 불안정한 학습으로 인한 이상한 출력을 생성한다는 단점이 존재했음. (DCGAN..

[Object Detection] RetinaFace(2019) 리뷰

Object Detection의 subtask인 Face Detection 연구 중 하나로, 2019년 발표된 논문이다. extra supervision (label을 손수 추가)과 self supervision을 joint하게 학습시킴(multi-task learning)으로써 WIDER FACE hard 데이터셋 기준 기존 SOTA보다 1.1% 정도의 face box AP를 끌어올렸다. RetinaFace WIDER FACE hard test set → 91.4%로 기존 SOTA보다 1.1% 앞섬. IJB-C test set, RetinaFace을 사용하면 face verification의 sota인 ArcFace도 성능 향상이 이루어짐 Backbone을 가볍게 한다면 싱글 코어 CPU 환경에서도 실..

[CV] OCR의 data format

OCR 데이터셋 구성 bounding box, BBOX (검출할 영역의 좌표) 직사각형인 경우 $ (x,y,width,height) $, $ (x_1, y_1, x_3, y_3) $ 일반 사각형인 경우 4개의 좌표를 다 표기 다각형인 경우 모든 점의 좌표를 다 표기 text (영역 내의 존재하는 글자들의 시퀀스) don't care (검출해도 되고 안 해도 되는 영역; 학습 시 사용 X) file name (이미지 파일의 이름) image width (이미지 가로 길이) image height (이미지 세로 길이) ICDAR (International Conference on Document Analysis and Recognition) ICDAR 2015 Incidental Scene Text:..

[CV] OCR - 글자 영역 검출

upstage 이활석님의 부스트캠프 AI Tech OCR 강의를 듣고 정리한 글입니다. 1109 OCR 글자 객체 고밀도 위치 잡는 것 only (classification은 필요가 X → objectness만 잡는다고 생각하면 쉬움) 글자 영역 표현법 직사각형 (RECT) : (x1, y1, width, height) or (x1, y1, x2, y2) 직사각형+각도 (RBOX, Rotated Box) : (x1, y1, width, height, $\theta$) or (x1, y1, x2, y2, $\theta$) 사각형 (일반 사각형; QUAD, Quadrilateral) : (x1, y1, ..., x4, y4) →첫 글자의 좌상단이 (x1, y1) 그 후 시계방향으로 다각형 (polygon) ..

[Object Detection] Focal Loss

Focal Loss class imbalance in a one-stage detector inefficient training 대부분의 location이 easy negatives이고 이들은 학습에 어떠한 유용한 정보도 주지 않음. Loss overwhelmed Easy Negatives가 loss의 대부분을 차지하기 때문에 loss가 실질적으로 hard example을 제대로 반영할 수 없게 됨. 이전까지의 연구에서 이를 어떻게 해결해왔는가? Hard Negative mining! Ex) Boosting Classifier에서 hard example을 보다 잘 학습하기 위해 sampling을 더 많이 시키는 형태(sampling weight 부과)로 학습을 시킴. (명시적으로 hard example을..

[DL/CV] NN interpolation의 backward propagation

Nearest Neighbor Upsampling FPN(Feature Pyramids Network)에서는 top-down path를 통과할 때 high level feature와 low level feature를 섞기 위해서 upsampling 연산을 하는데, upsampling 방법으로는 Nearest Neighbor Upsampling을 사용한다. Nearest Neighbor Upsampling은 다음과 같은 연산이다. (나중에 Upsampling을 한 번에 정리할 필요가 있다고 느낌) 간단하게 생각하면 upsampling 시, 채워야 하는 부분을 가까운 값의 copy로 채우는 연산이다. NN(Nearest Neighbor) Upsampling의 Backward path NN Upsampling..

[Object Detection] Image Annotation Formats

Image Annotation Formats Object Detection 시 pascal voc, coco 등 annotation format이 있다. 모델에 넣을 인풋을 세팅할 때 이런 포맷을 지정해줘야함. COCO COCO 포맷은 object detection, keypoint detection, stuff segmentation, panoptic segmentation, image captioning의 5개의 annotation 타입이 있다. Annotation은 JSON 파일 형식으로 저장되어 있다. 아래는 object detection의 경우 COCO 포맷 JSON파일의 예시이다. annotation{ "id" : int, "image_id": int, "category_id": int, "s..

728x90