카테고리 없음

ADsP 공부 [2]

데분조 2024. 2. 21. 09:52
반응형

이전 공부

 

ADsP 공부 [1]

참고 도서 2024 ADsP 데이터 분석 준전문가 - 예스24 본 도서는 한국데이터베이스진흥원에서 실시하고 있는 『데이터 분석 전문가(ADP)』 자격증과 『데이터 분석 준전문가(ADsP)』 자격증을 준비하

datanaly.tistory.com


박스플롯에 대한 설명

1. 자료의 크기 순서를 나타내는 5가지 통계량 (최소값, 최대값, 1사분위수, 중앙값, 3사분위수)을 이용하여 시각화하는 방법이다.

2.사분위수를 한 눈에 볼 수 있다.

3. 자료의 범위를 개량적으로 알 수 있다.

 

해설)

상자 그림으로 이상치를 확인할 수 있다.


시계열 모형에 대한 설명 중 옳은 것은?

ARIMA 모형에서 p=0일 때, IMA(d,q) 모형이라고 부르고, d번 차분하면 MA(q)모형을 따른다.

 

해설)

p,d,q에 따라 각각 0이면 IMA(d,q) ARMA(p,q) ARI(p,d) 모형이라고 부를 수 있다. 이 중 IMA를 d번 차분하면 MA 모형을 따른다.


ROC 그래프에서 이상적으로 완벽히 분류한 모형의  X축과 Y축 값으로 옳은 것은?

(0,1)

 

해설)

ROC곡선의 좌표는 (1-특이도, 민감도)로 X축이 낮고 Y축이 높을수록 분류정확도가 높다는 것을 의미하므로 이상적으로 완벽히 분류한 모형의 좌표는 (0,1)이다.


연관 분석의 장점은?

1.조건 반응으로 표현되어 결과를 이해하기 쉽다.

2.목적변수가 없어 분석 방향이나 목적이 없어도 적용이 가능하다.

3.분석을 위한 계산이 상당히 간단하다.

 

해설)

적절한 세분화로 인한 품목 결정이 장점이지만 너무 세분화된 품목은 의미 없는 결과를 도출한다.


KNN방법에 대한 설명

1. 훈련 데이터에서 미리 모형을 학습하지 않고 새로운 자료에 대한 예측 및 분류를 수행할 때 모형을 구성하는 LAZY LEARNING 기법을 사용한다.

2. 주변의 가장 가까운 K개의 데이터를 보고 데이터가 속한 그룹을 판단하는 알고리즘이다.

3. 그룹을 모르는 데이터P에 대해 이미 그룹이 알려진 데이터 중 P와 가장 가까이 있는  K개의 데이터를 수집하여 그룹을 예측한다.

 

해설)

K값이 작을수록 과대적합 문제가 발생한다.


군집분석에 대한 설명

1. 군집분석에서는 군집의 개수나 구조에 대한 가정없이 다변량 데이터로부터 거리 기준에 의한 자발적인 군집화를 유도한다.

2. 군집 결과에 대한 안정성을 검토하는 방법은 교차타당성을 이용하는 방법을 생각할 수 있다. 데이터를 두 집단으로 나누어 각 집단에서 군집분석을 한 후 합쳐서 군집분석한 결과와 비교하여 비슷하면 결과에 대한 안전성이 있다고 할 수 있다.

3. 개체를 분류하기 위한 명확한 기준이 존재하지 않거나 기준ㅇ니 밝혀지지 않은 상태에서 유용하게 이용할 수 있다.

 

해설)

군집의 분리에 대해 안정성도 중요하지만 해당 군집에 대한 분리가 논리적으로 설명이 되는 부분이 더 중요하다고 할 수 있다.


잔차 분석의 오차 정규성 검정

1. Q-Q Plot으로 대략적인 확인이 가능하다.

2. 잔차의 히스토그램이나 점도표를 그려서 정규성 문제를 검토하기도 한다.

3. 정규성을 검정하는 방법으로 Shapiro-Wilk test, Anderson-Darling test 등을 이용할 수 있다.

 

해설)

일반적으로 정상성을 만족하지 않을 때는 log, root를 취하여 정규 분포를 취하도록 만든다.


의사결정나무 모형에 대한 설명

1.이익 도표 또는 검정용 자료에 의한 교차 타당성 등을 이용해 의사결정나무를 평가한다.

2.가지치기는 분류 오류를 크게 할 위험이 높거나 부적절한 규칙을 가지고 있는 가지를 제거하는 작업이다.

3.대표적인 적용 사례는 대출신용평가, 환자증상유추, 채무 불이행 가능성 예측 등이 있다.

 

해설)

의사결정나무 모형은 지도학습 모형으로 하향식 의사결정에 가깝다고 생각할 수 있다.

반응형