[ADsP] 3과목 정형 데이터 마이닝 문제 오답 정리
13회 기출
반응변수가 범주형인 경우 예측 모형의 주목적으로 가장 적절한 것
분류
16회 기출
데이터 마이닝의 대표적인 기능 중 이질적인 모집단을 세분화 하는 기능
군집분석
유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법
랜덤포레스트 : 의사결정 나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어서 약한 학습기들을 생선한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
- 변수제거 없이 실행되므로 정확도 측면에서 좋은 성과
- 이론적 설명이나 최종 결과에 대한 해석이 어렵다는 단점, 예측력이 매우 높음
- 앙상블 기법 중 하나
- 분류분석을 해결할 때 사용
18회 기출
자사 고객의 보험 갱신 여부를 고객의 인구통계학적 특성, 보험가입 채널, 상품 종류 등의 정보를 사용하여 예측할 때 가장 적절한 분석기법
랜덤포레스트
- 데이터 가공 : 목적변수를 정리하고 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계
- 데이터 준비 : 충분한 양의 데이터를 확보하는 과정
- 로지스틱 회귀 분석 : 지도 학습
- 인공신경망 : 지도학습
- 의사결정나무 : 지도학습
- SOM : 비지도학습
Overfitting이 발생하는 경우
- 학습데이터가 모집단의 특성을 충분히 설명하지 못할 때 자주 발생
- 변수가 너무 많아 모형이 복잡할 때 생김
- 과대적합이 발생한 것으로 예상되면 학습을 종료하고 업데이트 하는 과정을 반복해 과대적합을 방지할 수 있음
의사결정나무모형
- 대표적인 적용 사례 : 대출신용평가, 환자 증상 유추, 채무 불이행 가능성 예측
- 과적합의 문제를 해결하기 위해 가지치기 방법을 이용하여 트리를 조정
- 불순도 측도인 엔트로피 개념은 정보이론의 개념을 기반으로, 여러가지 임의의 사건이 모여있는 집합의 순수성 또는 단일성 관점의 특성을 정량화해서 표현
- 하향식 기법 사용
- 이익도표 또는 검정용 자료에 의한 교차타당성 등을 이용해 의사결정나무를 평가
- 이전 분할에 영향을 받고 현재 분할이 이루어짐
- 각 마디에서의 최적 분리규칙은 분리변수의 선택과 분리기준에 의해 결정
- 가지치기는 분류 오류를 크게할 위험이 높거나 부적절한 규칙을 가지고 있는 가지를 제거하는 작업
22회 기출
모형 평가 방법 중 주어진 원천 데이터를 랜덤하게 두 분류로 분리하여 교차 검정을 실시하는 방법
하나는 모형의 학습 및 구축을 위한 훈련용 자료로, 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법이다.
홀드아웃방법
25회 기출
앙상블 기법
부스팅, 배깅, 랜덤포레스트
25회 기출
오분류표의 평가 지표 중 True로 예측한 관측치 중 실제 True인 지표를 무엇이라고 하는가?
Precision
F1 score
F1 = 2 * (Precision * Recall ) / (Precision + Recall)
오분류표는 주의해서 살펴보아야한다!
19회 기출
오분류표를 사용하여 계산할 수 있는 평가 지표 중 민감도와 동일하며 모형의 완전성을 평가하는 지표는?
재현율(Recall)
19회 기출
계층적 군집분석 수행 시 두 군집을 병합하는 방법 가운데 병합된 군집의 오차제곱합이 병합 이전의 군집의 오차제곱합의 합에 비해 증가한 정도가 작아지는 방향으로 군집을 형성하는 방법은?
와드연결법
k-means 군집
- 볼록한 형태가 아닌 군집이 존재하면 성능이 떨어짐
- 사전에 주어진 목적이 없으므로 결과 해석이 어려움
- 잡음이나 이상값에 영향을 많이 받음
- 초기 중심값을 임의로 선택하고, 군집내 다른 객체들이 다른 객체로 이동할 수 있음
- seed를 중심으로 군집 형성
- 각 개체가 가장 가까운 seed가 있는 군집으로 분류
- 군집으로 분류된 개체들의 정보를 활용, 새로운 seed를 계산하면서 개체의 적용에 따른 seed의 변화를 관찰
11회 기출
고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬화하여 지도의 형태로 형성화 하는 클러스터링 방법
자기조직화지도
21회 기출
군집화 방법 중 DBSCAN, DENCLUE 기법 등 임의적인 모양의 군집 탐색에 가장 효과적인 방법
밀도기반 군집
계산문제
✔️ 오분류표 계산문제 확인
✔️ 지지도, 신뢰도, 향상도 계산문제 확인