- Paper : https://arxiv.org/abs/1311.2524
- 이전에는 SIFT, HOG feature를 이용하는 method가 주류
- SVM에 밀렸던 CNN이 Relu + Dropout를 더한 구조로 ImageNet(classification problem)에서 선전하자, Classification feature를 Detection에 사용하고자 함.
- Overview
- Region proposals (Selective search)
- Selective search
- Bottom-up 방식의 Object region proposal method
- Efficient Graph-Based Image Segmentation를 이용하여, region granularity를 찾은 뒤, greedy algorithm으로 hierarchical merge
- Colour map(RGB,gray,HSV), merge하는 과정에서 사용하는 similarity measure(colour sim, texture sim, size sim)등을 여러 combination으로 사용해서, 다양한 region proposal을 만들어냄.
- Selective search
- Feature extraction(T-Net)
- ImageNet Classification with Deep Convolutional Neural Networks
- Curriculum learning
- Pre-train on ImageNet : ImageNet(1000개 class)에 대한 classification task를 수행하도록 pre-train한 뒤, 마지막 dense layer 제거
- Fine-tuning : VOC2007(20개 class) or ILSVRC2013(200개 class)에 대한 classification task를 수행하도록 fine tune. region proposal 중 GT와의 IoU가 0.5 이상인 box를 positive sample로, 이하인 box를 negative sample(background)로 사용.
- Object category classifiers(SVM)
- How to train
- Ground truth를 positive sample로 region proposal 중 IoU가 0.3 이하인 box들을 negative sample로 사용 (fine tune때보다 tight한 조건)
- CNN+FN+softmax Classifier(for fine-tune) VS SVM
- 왜 fine tune시에 훈련한 Classifier를 Object category classifier로 사용하지 않는가?
- SVM이 분류 성능이 더 좋았다! 이유는 tight한 조건으로 뽑아낸 training sample 덕분일 것으로 예상.
- 그렇다면 fine tune시에도 동일한 조건으로 training sample을 만들면 되지 않나?
- 우선 fine tune은 feature extractor에서, region proposal에 대한 좋은 feature를 뽑아내도록 하는 목적 (classification이 목적이아님)
- tight하게 training sample을 뽑게 되면, data 숫자가 모자라서 fine tune 효과가 좋지 않았다.
- 하지만 SVM의 경우 Deep한 CNN에 비해 비교적 적은 숫자의 data로도 훈련이 잘되기 때문에 이렇게 기준이 달라진 것.
- 향후 연구에서 이 SVM은 대체가 된다
- 왜 fine tune시에 훈련한 Classifier를 Object category classifier로 사용하지 않는가?
- How to train
- Box regression