목록AI (69)
BASHA TECH
논문 개요에 맞춰서 요약을 해봤다. YOLO의 발전이 정말 빠른 것 같다.. 엊그제 버전 5를 본 것 같은데 이 논문은 아니지만 11버전까지 나왔으니... 1. Introduction (서론)● 문제 정의실시간 객체 탐지(Real-time Object Detection)는 낮은 지연 시간과 높은 정확도를 요구하며, 자율 주행, 로봇 비전, 객체 추적 등 다양한 실생활 애플리케이션에 필수적. ● 성능 한계 1. NMS 의존성 NMS(Non-Maximum Suppression)는 후처리 단계에서 반드시 필요하지만, 이는 추론 속도를 저하시킴.2. 설계 최적화 부족 YOLO의 일부 구성 요소가 비효율적이며, 계산 오버헤드 발생.3. 성능 한계 모델의 확장성이 제한적이며, 정확도 향상이 점점 둔화.● 연구 ..
요약 → 2010년대의 AI 트랜드 = 전문가 시스템 접근 방식 - 전문가가 제시한 논리를 구현할 목적으로 맞춤형 이미지 필터를 설계해 적용해 가장 높은 점수가 나온 범주를 선택, 단점. 상당한 맞춤 작업 필요해 적용범위 제한적. → 2012년 알렉스넷이 나옴. 성능이 100배 향상. 알렉스넷의 기존 방식과 차별점 - 그래핏 처리 유닛, 렐루 활성화, 규제, 깊이 → 신경망에 대한 관심이 부활하며 깊이가 중요함을 느낌 - 이를 딥러닝이라 부름 - 다수의 레이어가 있는 신경망을 사용해 다양한 형태의 비정형 데이터를 처리할 수 있게 됨. → 컴퓨터 비전이 다양한 분야에서 사용. 머신러닝 딥러닝 활용 사례
이미지 객체 검출(Object Detection) 작업을 수행하는 경우, 일반적으로 사용되는 손실 함수로는 "지역화 손실 (Localization Loss)"와 "분류 손실 (Classification Loss)"가 결합된 "지역화-분류 손실 (Localization-Classification Loss)"이 사용됩니다. 이러한 손실 함수들은 객체 검출 모델의 성능을 향상시키는 데 중요합니다. 지역화 손실 (Localization Loss): 지역화 손실은 모델이 객체의 위치를 정확하게 예측하도록 돕습니다. 보통는 평균 제곱 오차(Mean Squared Error, MSE)나 평균 절대 오차(Mean Absolute Error, MAE)를 사용합니다. 예측된 바운딩 박스의 좌표와 실제 바운딩 박스의 좌표 ..
: UNETR + Swin Transformer 결합 → Swin UNETR - Swin UNETR의 구조 1. Encoder를 통해서 image의 feature map과 downsampling을 한다. - Encoder를 통과하기 전에 Patch partition을 통해서 3D token에 대한 sequence를 만든다. - 여기서 Swin Transformer Block을 지나치는데, W-MSA와 SW-MSA 메커니즘을 적용하는 단계이다. - 각각의 Swin Transformer Block을 지나면서 총 4개의 중간 output을 skip-connection에 이용한다. 2. Decoder 단계에서는, 3D UNet구조를 통해서 각각의 sequence를 다시 3D voxel 형태로 reshape 후 ..
Swin-Unet: Swin-Unet은 Swin Transformer와 U-Net을 결합한 모델입니다. Swin Transformer는 이미지 처리에 효율적이고 확장 가능한 트랜스포머 아키텍처입니다. U-Net의 디코더를 사용하여 세그멘테이션 마스크를 생성합니다. 주로 Swin Transformer의 기능을 활용하면서 세그멘테이션 작업에 U-Net 구조를 적용한 것입니다. TransUnet: TransUnet은 순수한 Transformer 아키텍처로 이미지 세그멘테이션을 수행하는 모델입니다. 이미지를 작은 패치로 분할하고 각 패치를 Transformer로 처리하여 세그멘테이션 마스크를 생성합니다. U-Net과 직접적으로 결합된 구조가 아니며, Transformer 아키텍처를 이용합니다. Unet Tran..
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentationhttps://arxiv.org/abs/2206.02777 Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and SegmentationIn this paper we present Mask DINO, a unified object detection and segmentation framework. Mask DINO extends DINO (DETR with Improved Denoising Anchor Boxes) by adding a mask pr..
차원 축소 개요 차원 축소는 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것이다. 일반적으로 차원이 증가할 수록 데이터 포인트 간의 거리가 기하급수적으로 멀이게 되고, 희소한 구조를 가지게 된다. 수백 개 이상의 피처로 구성된 데이터 세트의 경우 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어진다. 도한 피처가 많을 경우 개별 피처간에 상관관계가 높을 가능성이 크다. 선형 회귀와 같은 선형 모델에서는 입력 변수 간의 상관관계가 높을 경우 이로 인한 다중 공선성 문제로 모델의 예측 성능이 저하된다. 이렇게 매우 많은 다차원의 피처를 차원 축소해 피처 수를 줄이면 더 직관적으로 데이터를 해석할 수 있다. 또한 차원 축소를 할 경우 학습 데이터..

1. 회귀 소개 : 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법. (오차가 minimize 되는 것을 찾는다.) 여러 개의 독립변수와 한 개의 종속변수 같의 상관관계를 모델링하는 기법을 통칭한다. 머신러닝 관점에서 보면 독립변수는 피처에 해당되며 종속변수는 결정 값이다. 따라서 머신러닝 회귀 예측의 핵심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것이다. 회귀는 회귀 계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러 가지 유형으로 나눌 수 있다. 회귀에서 가장 중요한 것은 회귀 계수(w: weight)이다. 이 회귀 계수가 선형인지 아닌지에 따라 선형 회귀와 비선형 회귀로 나눌 수 있다. 그리고 독립변수의 개수..
1. 분류(Classification)의 개요 지도 학습은 명시적인 정답이 있는 데이터(레이블)가 주어진 상태에서 학습하는 머신러닝 방식. 지도 학습의 대표적인 유형인 분류는 학습 데이터로 주어진 데이터의 피처와 레이블 값 (결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것. 즉, 기존 데이터가 어떤 레이블에 속하는 지 패턴을 알고리즘으로 인지한 뒤에 새롭게 관측된 데이터에 대한 레이블을 판별하는 것이다. 앙상블은 서로 다른/또는 같은 알고리즘을 단순히 결합한 형태도 있으나, 일반적으로는 배깅과 부스팅 방식으로 나뉜다. 배깅 방식의 대표인 랜덤 포레스트는 뛰어난 예측 성능, 상대적으로 빠른 수행 시..

머신러닝 프로세스 : 데이터 가공/변환 ->모델 학습/예측 -> 평가' 성능 평가 지표는 모델이 분류인지 회귀인지에 따라 여러 종류로 나뉜다. - 회귀 : 대부분 실제 값과 예측값의 오차 평균값에 기반한다. 예를 들어 오차에 절댓값을 씌운 뒤(절댓값을 씌웠을 때 미분 안됨. 그래서 신경망 모델에서 사용 안한다) 평균 오차를 구하거나 오차의 제곱 값에 루트를 씌운 뒤 평균 오차를 구하는 방법과 같이 기본적으로 예측 오차를 가지고 정규화 수준을 재가공하는 방법이 회귀의 성능 평가 지표 유형이다. 1. 정확도 (Accuracy) 직관적으로 모델 예측 성능을 나타내는 평가 지표. 하지만 이진 분류의 경우 데이터의 구성에 따라 ML 모델의 성능을 왜곡할 수 있기 때문에 정확도 수치 하나만 가지고 성능을 평가하지 ..