BASHA TECH

Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images 본문

Computer/Computer Vision

Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images

Basha 2023. 12. 21. 17:20
728x90

: UNETR + Swin Transformer 결합 → Swin UNETR

- Swin UNETR의 구조

1. Encoder를 통해서 image의 feature map과 downsampling을 한다.

- Encoder를 통과하기 전에 Patch partition을 통해서 3D token에 대한 sequence를 만든다.
- 여기서 Swin Transformer Block을 지나치는데, W-MSA와 SW-MSA 메커니즘을 적용하는 단계이다.
- 각각의 Swin Transformer Block을 지나면서 총 4개의 중간 output을 skip-connection에 이용한다.

2. Decoder 단계에서는, 3D UNet구조를 통해서 각각의 sequence를 다시 3D voxel 형태로 reshape 후 deconvolution을 통해서 upsampling 한다.

- Skip-connection을 총 4차례 진행한 후, 원래 voxel 사이즈로 원상복귀 한다.

3. 마지막 단계에서, 기존의 input voxel의 channel을 48로 만들어 준 후, 3D UNet 구조에서 나온 최종 결과값과  concatenate를 진행한다.

4.  마지막 1x1x1 conv layer과 sigmoid를 통해서 HxWxDx3 shape으로 만들어 준다.

Swin UNETR (Swin Transformer based UNETR) 모델은 의료 영상 분할을 위한 딥 러닝 아키텍처로, UNETR (UNet Transformer)의 변형 버전입니다. 이 모델은 **Swin Transformer를 백본(기본 구조)으로 사용하여 UNETR의 성능을 개선**한다.

Swin UNETR 모델의 주요 특징 및 구조에 대한 개요

1. **Swin Transformer**: Swin UNETR는 Swin Transformer를 사용합니다. Swin Transformer는 계층적인 구조를 가지며, 윈도우 기반의 셀프 어텐션 메커니즘을 사용합니다. 이는 계산 효율성을 높이고, 다양한 크기의 피처 맵(feature map)을 처리할 수 있게 합니다.

2. **UNETR 구조**: 기본 UNETR 모델은 U-Net과 Transformer를 결합한 구조입니다. 이는 전통적인 U-Net 구조에 Transformer 블록을 통합하여, 긴 범위 의존성을 효과적으로 학습할 수 있게 합니다.

3. **Hierarchical Feature Learning**: Swin UNETR는 다양한 해상도에서 특성을 학습합니다. 이는 의료 영상에서 중요한 세부 정보와 컨텍스트 정보를 모두 포착할 수 있게 해줍니다.

4. **Efficient Attention Mechanism**: Swin Transformer의 윈도우 기반 어텐션은 전체 이미지에 걸친 전역 어텐션보다 효율적입니다. 이는 모델의 계산 부담을 줄이면서도 중요한 정보를 캡쳐할 수 있게 해줍니다.

5. **Application in Medical Imaging**: Swin UNETR은 주로 의료 영상 분할에 사용됩니다. 이는 MRI, CT 스캔 등 다양한 유형의 의료 영상에서 병변이나 조직의 정확한 분할을 가능하게 합니다.

6. **Performance**: Swin UNETR은 기존의 UNETR 모델보다 높은 정확도와 성능을 보여줍니다. 이는 Swin Transformer의 효율적인 피처 학습 능력 때문입니다.

728x90
반응형
Comments