BASHA TECH
Mask DINO 논문 리뷰 본문
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation
https://arxiv.org/abs/2206.02777
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation
In this paper we present Mask DINO, a unified object detection and segmentation framework. Mask DINO extends DINO (DETR with Improved Denoising Anchor Boxes) by adding a mask prediction branch which supports all image segmentation tasks (instance, panoptic
arxiv.org
트랜스포머 기반 모델의 검출 및 분할 성능을 개선하기 위해 object detection을 위한 특수 모델 개발
- image segmentaion
- instance segmentation
- panoptic segmentation
- semantic segmentation etc…
기존 DINO : object detection을 개선하기 위해 DAB-DETR의 dynamic anchor box formulation과 DN-DETR의 query denoising training 활용하고, DETR 유사 모델로는 처음으로 COCO 객체 검출 리더보드에서 SOTA 결과를 달성했다.
이것과 유사하게는 object detection을 개선하기 위해 나온 MaskFormer, Mask2Former는 쿼리 기반 트랜스포머 아키텍처를 사요해 서로 다른 이미지 분할 작업을 통합하여 마스크 분류를 수행하는 걸 제안함. ⇒ 왜냐면, 여러 세분화 작업에서 높은 성능 향상이 되었기 때문.
- mask dino가 나온 이유
- 트랜스포머 기반 모델에서는 가장 성능이 우수한 detection모델과 segmentation 모델이 아직 통합 되지 않아 세분화 작업 간의 작업 및 데이터 data cooperation이 협력 되지 않고 있음. ⇒ 왜 트랜스포머 기반 모델에서 detection모델과 segmentation 모델이 협력 할 수 없는가? ⇒ 전문화 된 아키텍처를 대체할 수 있는 통합 아키텍처를 개발할 수 있는가?
- 해결방안 : 그래서 Mask DINO를 만듦
- 객체 감지과 세분화 모두를 위한 통합된 트랜스포머 기반 프레임워크 개발. 이 프레임 워크는 마스크 예측 분기를 추가하여 DINO에서 확장된 것으anchor box-guided cross attention, query selection, denoising training, 대규모 감지데이터 셋에서 사전 훈련된 더 나은 representation을 포함 하여 DINO의 대부분의 알고리즘을 자연스럽게 상속받는다.
- 공유 아키텍처 디자인 및 훈련 방법을 통해 검출과 세분화가 서로 도움이 됨을 보여누다. 특히 검출은 백그라운드 ‘stuff’ 카테고리를 세분화 할 때에도 세분화 작업에 큰 도움이 될 수 있다.
- 위 내용의 자세한 설명
- 이미지 분할을 위한 다른 통합 모델에서 영감받아 DINO의 콘텐츠 쿼리 임베딩을 재사용해 backbone 및 트랜스포머 인코더 기능에서 얻은 고해상도 픽셀 임베딩 맵 (입력이미지 해상도 1/4)에서 모든 segmentation 작업에서 mask 분류를 한다. mask branch는 각 콘텐츠 쿼리 임베딩을 픽셀 임베딩 맵으로 간단히 dot production하여 binary mask를 예측한다. DINO는 region level의 회귀 detection 모델이기 때문에 픽셀 수준 정렬을 위해 설계하지 않음. detection과 segementaion간의 features 정렬을 개선하기 위해 segmentaion 성능을 향상시키는 3가지 핵심 구성요소도 제안한다. 첫째, 통합되고 향상된 쿼리 선택. 이는 다음을 예측해 encoder dense prior를 활용한다. mask query를 anchor로 초기화 하기 위해 최상위 토큰의 마스클 사용한다. 또한 픽셀 수준의 분할이 초기 단계에서 학습하기 쉽기 대문에 초기 mask를 사용하여 box를 향상 시켜 작업 협업 할 것을 제안함. 둘째, segmentation학습을 가속화 하기 위해 마스크에 대한 통합 노이즈 제거 학습을 제안함. 셋째, hybrid 2분할 매칭을 통해 기준값과 박스 및 마스크 모두 보다 정확하고 일관된 매칭을 수행한다.
- Mask DINO 설명
- Preliminaries : DINO
- Why a universal model has not replaced the specialized models in DETR-like models? 왜 범용 모델이 DETR과 유사한 모델에서 특수모델을 대체 하지 않는 이유?
- specialized detection model과 segmentation model의 차이점?
- 왜 mask2former는 감지가 잘 되지 않는지?
- 왜 DETR/DINO는 세분화를 잘 수행하지 못할까?
- 이유 1: DETR의 세분화를 추가하면 된다. or 헤드를 추가하면 되는데 Mask2Former의 세분화 헤드를 추가하면 성능이 떨어진다. 이유는 DETR의 세분화 헤드가 최적이 아니여서 vanilla DETR을 사용하면 각 쿼리가 소규모 피처 맵에 도트 프로덕트 포함시켜 관심도 맵을 계산한 다음 이것을 업샘플링 하여 마스크 예측을 얻을 수 있다. 이 설꼐에서 쿼리와 백본의 더 큰 피처 맵 간의 상호작용이 부족하고, 마스크 세분화를 위해 마스크 보조 손실을 사용하기엔 너무 무겁다.
- 이유 2: 개선된 탐지 모델의 특징이 세분화와 일치하기 않기 때문.
- Our Method : Mask DINO 최소한의 수정만으로 detection을 위해 DINO와 동일한 아키텍처 설계를 채택한다. 트랜스포머 코더에서 마스크 DINO는 segmentation을 위한 마스크 branch를 추가하고 segmentation 작업을 위해 DINO의 여러 주요 구성 요소를 확장한다.
- Segmentation branch 이미지 분할을 위한 다른 통합 모델에 따라 모든 분할 작업에 대해 마스크 분류를 수행한다.
- Unified and Enhanced Query Selection
- Unified query selection for mask
- Mask-enhanced ancor box initialization
- Segmentation Micro Design
- Unified denoising for mask
- Hybrid matching
- Decoupled box prediction
- contents query embedding 외에도 DINO에는 박스 예측과 레이블 예측을 위한 branch가 있다. 박스는 동적 업데이트 되면 각 트랜스포머 디코더에서 변형 가능한 주의를 안내하는데 사용된다. 여기서 나아가 MaskDINO는 마스크 예측을 위한 또다른 branch를 추가하고 세분화 작업에 맞게 검출의 여러 주요 구성 요소를 최소한으로 확장한다.
- 실험 결과
- Instance segmentation and object detection
- Panoptic segmentation
- Semantic segmentation
- 결론 객체 탐지와 이미지 분할을 위한 단일화를 사용해 더 많은 비전 작업을 수행가능
- 한계 1 COCO Panoptic segmentation에선 mask dino는 서로 다른 segmentation작업이 상호지원을 얻지 못한다. 위 코코 판옵틱 세그멘테이션에서 mask AP는 인스턴스로만 학습된 모델보다 아직도 뒤쳐진다.
- 한계 2 대규모 설정에서는 세분화 헤드에 추가 GPU 메모리가 필요하기 때문에 새로운 SOTA 감지 성능을 달성하지 못했다. 이러한 메모리 제한을 해결하기 위해 대규모 설정에서는 DINO에 비해 더 작은 이미지 크기와 더 적은 수의 쿼리를 사용해야 하며, 이는 object detection에 영향이 간다.
=> DETR에 대해 알아야할 것 같다. 일단은 읽었는데 좀 이해가 안되는 부분들이 있음.
내용 정리
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation
참고 : https://ostin.tistory.com/86 , 해당 논문 DETR 관련 내용 : https://ostin.tistory.com/85 SOTA 관련 내용 : https://bigwaveai.tistory.com/37
트랜스포머 기반 모델의 검출 및 분할 성능을 개선하기 위해 object detection을 위한 특수 모델 개발
- image segmentaion
- instance segmentation
- panoptic segmentation
- semantic segmentation etc…
기존 DINO : object detection을 개선하기 위해 DAB-DETR의 dynamic anchor box formulation과 DN-DETR의 query denoising training 활용하고, DETR 유사 모델로는 처음으로 COCO 객체 검출 리더보드에서 SOTA 결과를 달성했다.
이것과 유사하게는 object detection을 개선하기 위해 나온 MaskFormer, Mask2Former는 쿼리 기반 트랜스포머 아키텍처를 사요해 서로 다른 이미지 분할 작업을 통합하여 마스크 분류를 수행하는 걸 제안함. ⇒ 왜냐면, 여러 세분화 작업에서 높은 성능 향상이 되었기 때문.
- mask dino가 나온 이유,
- 트랜스포머 기반 모델에서는 가장 성능이 우수한 detection모델과 segmentation 모델이 아직 통합 되지 않아 세분화 작업 간의 작업 및 데이터 data cooperation이 협력 되지 않고 있음. ⇒ 왜 트랜스포머 기반 모델에서 detection모델과 segmentation 모델이 협력 할 수 없는가? ⇒ 전문화 된 아키텍처를 대체할 수 있는 통합 아키텍처를 개발할 수 있는가?
- 해결방안 : 그래서 Mask DINO를 만듦
- 객체 감지과 세분화 모두를 위한 통합된 트랜스포머 기반 프레임워크 개발. 이 프레임 워크는 마스크 예측 분기를 추가하여 DINO에서 확장된 것으anchor box-guided cross attention, query selection, denoising training, 대규모 감지데이터 셋에서 사전 훈련된 더 나은 representation을 포함 하여 DINO의 대부분의 알고리즘을 자연스럽게 상속받는다.
- 공유 아키텍처 디자인 및 훈련 방법을 통해 검출과 세분화가 서로 도움이 됨을 보여누다. 특히 검출은 백그라운드 ‘stuff’ 카테고리를 세분화 할 때에도 세분화 작업에 큰 도움이 될 수 있다.
- 위 내용의 자세한 설명
- 이미지 분할을 위한 다른 통합 모델에서 영감받아 DINO의 콘텐츠 쿼리 임베딩을 재사용해 backbone 및 트랜스포머 인코더 기능에서 얻은 고해상도 픽셀 임베딩 맵 (입력이미지 해상도 1/4)에서 모든 segmentation 작업에서 mask 분류를 한다. mask branch는 각 콘텐츠 쿼리 임베딩을 픽셀 임베딩 맵으로 간단히 dot production하여 binary mask를 예측한다. DINO는 region level의 회귀 detection 모델이기 때문에 픽셀 수준 정렬을 위해 설계하지 않음. detection과 segementaion간의 features 정렬을 개선하기 위해 segmentaion 성능을 향상시키는 3가지 핵심 구성요소도 제안한다. 첫째, 통합되고 향상된 쿼리 선택. 이는 다음을 예측해 encoder dense prior를 활용한다. mask query를 anchor로 초기화 하기 위해 최상위 토큰의 마스클 사용한다. 또한 픽셀 수준의 분할이 초기 단계에서 학습하기 쉽기 대문에 초기 mask를 사용하여 box를 향상 시켜 작업 협업 할 것을 제안함. 둘째, segmentation학습을 가속화 하기 위해 마스크에 대한 통합 노이즈 제거 학습을 제안함. 셋째, hybrid 2분할 매칭을 통해 기준값과 박스 및 마스크 모두 보다 정확하고 일관된 매칭을 수행한다.
- Mask DINO 설명
- Preliminaries : DINO
- Why a universal model has not replaced the specialized models in DETR-like models? 왜 범용 모델이 DETR과 유사한 모델에서 특수모델을 대체 하지 않은 이유?
- specialized detection model과 segmentation model의 차이점?
- 왜 mask2former는 감지가 잘 되지 않는지?
- 왜 DETR/DINO는 세분화를 잘 수행하지 못할까? 이유 1: DETR의 세분화를 추가하면 된다. or 헤드를 추가하면 되는데 Mask2Former의 세분화 헤드를 추가하면 성능이 떨어진다. 이유는 DETR의 세분화 헤드가 최적이 아니여서 vanilla DETR을 사용하면 각 쿼리가 소규모 피처 맵에 도트 프로덕트 포함시켜 관심도 맵을 계산한 다음 이것을 업샘플링 하여 마스크 예측을 얻을 수 있다. 이 설꼐에서 쿼리와 백본의 더 큰 피처 맵 간의 상호작용이 부족하고, 마스크 세분화를 위해 마스크 보조 손실을 사용하기엔 너무 무겁다. 이유 2: 개선된 탐지 모델의 특징이 세분화와 일치하기 않기 때문.
- Our Method : Mask DINO 최소한의 수정만으로 detection을 위해 DINO와 동일한 아키텍처 설계를 채택한다. 트랜스포머 코더에서 마스크 DINO는 segmentation을 위한 마스크 branch를 추가하고 segmentation 작업을 위해 DINO의 여러 주요 구성 요소를 확장한다.
- Segmentation branch 이미지 분할을 위한 다른 통합 모델에 따라 모든 분할 작업에 대해 마스크 분류를 수행한다.
- Unified and Enhanced Query Selection
- Unified query selection for mask
- Mask-enhanced ancor box initialization
- Segmentation Micro Design
- Unified denoising for mask
- Hybrid matching
- Decoupled box prediction
- contents query embedding 외에도 DINO에는 박스 예측과 레이블 예측을 위한 branch가 있다. 박스는 동적 업데이트 되면 각 트랜스포머 디코더에서 변형 가능한 주의를 안내하는데 사용된다. 여기서 나아가 MaskDINO는 마스크 예측을 위한 또다른 branch를 추가하고 세분화 작업에 맞게 검출의 여러 주요 구성 요소를 최소한으로 확장한다.
- 실험 결과
- Instance segmentation and object detection
- Panoptic segmentation
- Semantic segmentation
- 결론 객체 탐지와 이미지 분할을 위한 단일화를 사용해 더 많은 비전 작업을 수행가능
- 한계 1 COCO Panoptic segmentation에선 mask dino는 서로 다른 segmentation작업이 상호지원을 얻지 못한다. 위 코코 판옵틱 세그멘테이션에서 mask AP는 인스턴스로만 학습된 모델보다 아직도 뒤쳐진다.
- 한계 2 대규모 설정에서는 세분화 헤드에 추가 GPU 메모리가 필요하기 때문에 새로운 SOTA 감지 성능을 달성하지 못했다. 이러한 메모리 제한을 해결하기 위해 대규모 설정에서는 DINO에 비해 더 작은 이미지 크기와 더 적은 수의 쿼리를 사용해야 하며, 이는 object detection에 영향이 간다.
'AI > Computer Vision' 카테고리의 다른 글
YOLOv10: Real-Time End-to-End Object Detection 논문 요약 (2) | 2024.12.31 |
---|---|
01장: 컴퓨터비전을 위한 머신러닝 (1) | 2024.04.07 |
Image Detection 모델에 적합한 loss 함수 (0) | 2023.12.21 |
Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images (0) | 2023.12.21 |
Swin-Unet, TransUnet, Unet+Transformer, UNETR (0) | 2023.12.21 |