목록Computer/Computer Vision (4)
BASHA TECH
요약 → 2010년대의 AI 트랜드 = 전문가 시스템 접근 방식 - 전문가가 제시한 논리를 구현할 목적으로 맞춤형 이미지 필터를 설계해 적용해 가장 높은 점수가 나온 범주를 선택, 단점. 상당한 맞춤 작업 필요해 적용범위 제한적. → 2012년 알렉스넷이 나옴. 성능이 100배 향상. 알렉스넷의 기존 방식과 차별점 - 그래핏 처리 유닛, 렐루 활성화, 규제, 깊이 → 신경망에 대한 관심이 부활하며 깊이가 중요함을 느낌 - 이를 딥러닝이라 부름 - 다수의 레이어가 있는 신경망을 사용해 다양한 형태의 비정형 데이터를 처리할 수 있게 됨. → 컴퓨터 비전이 다양한 분야에서 사용. 머신러닝 딥러닝 활용 사례
이미지 객체 검출(Object Detection) 작업을 수행하는 경우, 일반적으로 사용되는 손실 함수로는 "지역화 손실 (Localization Loss)"와 "분류 손실 (Classification Loss)"가 결합된 "지역화-분류 손실 (Localization-Classification Loss)"이 사용됩니다. 이러한 손실 함수들은 객체 검출 모델의 성능을 향상시키는 데 중요합니다. 지역화 손실 (Localization Loss): 지역화 손실은 모델이 객체의 위치를 정확하게 예측하도록 돕습니다. 보통는 평균 제곱 오차(Mean Squared Error, MSE)나 평균 절대 오차(Mean Absolute Error, MAE)를 사용합니다. 예측된 바운딩 박스의 좌표와 실제 바운딩 박스의 좌표 ..
: UNETR + Swin Transformer 결합 → Swin UNETR - Swin UNETR의 구조 1. Encoder를 통해서 image의 feature map과 downsampling을 한다. - Encoder를 통과하기 전에 Patch partition을 통해서 3D token에 대한 sequence를 만든다. - 여기서 Swin Transformer Block을 지나치는데, W-MSA와 SW-MSA 메커니즘을 적용하는 단계이다. - 각각의 Swin Transformer Block을 지나면서 총 4개의 중간 output을 skip-connection에 이용한다. 2. Decoder 단계에서는, 3D UNet구조를 통해서 각각의 sequence를 다시 3D voxel 형태로 reshape 후 ..
Swin-Unet: Swin-Unet은 Swin Transformer와 U-Net을 결합한 모델입니다. Swin Transformer는 이미지 처리에 효율적이고 확장 가능한 트랜스포머 아키텍처입니다. U-Net의 디코더를 사용하여 세그멘테이션 마스크를 생성합니다. 주로 Swin Transformer의 기능을 활용하면서 세그멘테이션 작업에 U-Net 구조를 적용한 것입니다. TransUnet: TransUnet은 순수한 Transformer 아키텍처로 이미지 세그멘테이션을 수행하는 모델입니다. 이미지를 작은 패치로 분할하고 각 패치를 Transformer로 처리하여 세그멘테이션 마스크를 생성합니다. U-Net과 직접적으로 결합된 구조가 아니며, Transformer 아키텍처를 이용합니다. Unet Tran..