목록분류 전체보기 (264)
BASHA TECH
차원 축소 개요 차원 축소는 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것이다. 일반적으로 차원이 증가할 수록 데이터 포인트 간의 거리가 기하급수적으로 멀이게 되고, 희소한 구조를 가지게 된다. 수백 개 이상의 피처로 구성된 데이터 세트의 경우 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어진다. 도한 피처가 많을 경우 개별 피처간에 상관관계가 높을 가능성이 크다. 선형 회귀와 같은 선형 모델에서는 입력 변수 간의 상관관계가 높을 경우 이로 인한 다중 공선성 문제로 모델의 예측 성능이 저하된다. 이렇게 매우 많은 다차원의 피처를 차원 축소해 피처 수를 줄이면 더 직관적으로 데이터를 해석할 수 있다. 또한 차원 축소를 할 경우 학습 데이터..

1. 회귀 소개 : 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법. (오차가 minimize 되는 것을 찾는다.) 여러 개의 독립변수와 한 개의 종속변수 같의 상관관계를 모델링하는 기법을 통칭한다. 머신러닝 관점에서 보면 독립변수는 피처에 해당되며 종속변수는 결정 값이다. 따라서 머신러닝 회귀 예측의 핵심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것이다. 회귀는 회귀 계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러 가지 유형으로 나눌 수 있다. 회귀에서 가장 중요한 것은 회귀 계수(w: weight)이다. 이 회귀 계수가 선형인지 아닌지에 따라 선형 회귀와 비선형 회귀로 나눌 수 있다. 그리고 독립변수의 개수..
1. 분류(Classification)의 개요 지도 학습은 명시적인 정답이 있는 데이터(레이블)가 주어진 상태에서 학습하는 머신러닝 방식. 지도 학습의 대표적인 유형인 분류는 학습 데이터로 주어진 데이터의 피처와 레이블 값 (결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것. 즉, 기존 데이터가 어떤 레이블에 속하는 지 패턴을 알고리즘으로 인지한 뒤에 새롭게 관측된 데이터에 대한 레이블을 판별하는 것이다. 앙상블은 서로 다른/또는 같은 알고리즘을 단순히 결합한 형태도 있으나, 일반적으로는 배깅과 부스팅 방식으로 나뉜다. 배깅 방식의 대표인 랜덤 포레스트는 뛰어난 예측 성능, 상대적으로 빠른 수행 시..
방법 1. Help -> Edit Custom Properties idea.spring.boot.filter.autoconfig=false 방법 2. 패키니 내에 Configuration을 추가해서 인식시키기 @Configuration @ComponentScan({"@Autowired 대상이 있는 패키지"}) https://stackoverflow.com/questions/26889970/intellij-incorrectly-saying-no-beans-of-type-found-for-autowired-repository

Task You are given two classes, Person and Student, where Person is the base class and Student is the derived class. Completed code for Person and a declaration for Student are provided for you in the editor. Observe that Student inherits all the properties of Person. Complete the Student class by writing the following: A Student class constructor, which has parameters: A string, firstName. A st..
Task Calculate the hourglass sum for every hourglass in A, then print the maximum hourglass sum. Example In the array shown above, the maximum hourglass sum is 7 for the hourglass in the top left corner. Input Format There are 6 lines of input, where each line contains 6 space-separated integers that describe the 2D Array A. Constraints -9

머신러닝 프로세스 : 데이터 가공/변환 ->모델 학습/예측 -> 평가' 성능 평가 지표는 모델이 분류인지 회귀인지에 따라 여러 종류로 나뉜다. - 회귀 : 대부분 실제 값과 예측값의 오차 평균값에 기반한다. 예를 들어 오차에 절댓값을 씌운 뒤(절댓값을 씌웠을 때 미분 안됨. 그래서 신경망 모델에서 사용 안한다) 평균 오차를 구하거나 오차의 제곱 값에 루트를 씌운 뒤 평균 오차를 구하는 방법과 같이 기본적으로 예측 오차를 가지고 정규화 수준을 재가공하는 방법이 회귀의 성능 평가 지표 유형이다. 1. 정확도 (Accuracy) 직관적으로 모델 예측 성능을 나타내는 평가 지표. 하지만 이진 분류의 경우 데이터의 구성에 따라 ML 모델의 성능을 왜곡할 수 있기 때문에 정확도 수치 하나만 가지고 성능을 평가하지 ..

1. 사이킷런 소개와 특징 2. 첫 번때 머신러닝 만들어 보기 1) 데이터 세트 분리 : 데이터를 학습 데이터와 테스트 데이터로 분리 2) 모델 학습 : 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습시킴 3) 예측 수행 : 학습 된 ML 모델을 이용해 테스트 데이터의 분류를 예측 4) 평가 : 이렇게 예측된 결과값과 테스트 데디터의 실제 결과값을 비교해 ML 모델 성능을 평가 3. 사이킷런의 기반 프레임워크 익히기 1) Estimator 이해 및 fit( ), predict( ) 메소드 ML 모델 학습을 위해 fit( ), 학습된 모델의 예측을 위해 predict( ) 사이킷 런에서 분류 알고리즘을 구현한 클래스를 Classifier, 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭..
Task Given a base-10 integer, n, convert it to binary (base-2). Then find and print the base-10 integer denoting the maximum number of consecutive 1's n's binary representation. When working with different bases, it is common to show the base as a subscript. Example n = 125 The binary representation of decimal number 125 is binary number 1111101. In base 10, there are 5 and 1 consecutive ones in..