2022-11-26 데이터마이닝_10

2022. 11. 27. 17:05학부 강의/데이터마이닝

1. 비지도 학습

 

 

domestic-animals.zip
1.12MB

 

 

비지도 학습으로 k-Means와 Hierarchical Clustering을 사용해 봤다.

 


가. k-Means

 

 

fixed: 5 : 이미지를 5가지로 분류

 

 


나. Hierachical Clustering

 

 

이미지를 분류할 경우에는 Ward를 선택한다고 한다.

 

 


2. 실습_비지도 학습

 

  • 2~3개의 사물을 주제로 합쳐서 20개 사진을 다운로드한다.
  • 이를 분류하도록 비지도 학습을 진행한다.

 

이미지 다운로드 : 구글

 

alcohol_image.zip
0.43MB

 

 

fixed: 2 : 이미지를 2가지 분류

 

 

맥주와 소주 이미지를 가지고서 한번 분류하도록 시켜보았다.

 

오… 생각보다 똑똑한데? 고든 램지도 극찬한 CASS 빼고는 맥주랑 소주로 나눴다.

 

 

 


3. 실습_지도 학습

 

  1. 학습 데이터로 사용된 이미지의 개수와 종류(클래스)의 이름과 수 설명한다.
  2. 지도 학습을 실시하고 사용한 학습 모델과 모델 별로 정확도를 확인한다.
  3. 예측 데이터를 설명한다. 분류가 몇 개인지, 개수는 어떻게 되는지.
  4. 예측 결과 화면
  5. 분류에 대한 해석을 한다. 정확도가 높고 낮은 이유를 찾아서 설명하라.

 


가. 학습 데이터

걸그룹 블랙핑크 멤버를 학습시키고 분류해보았다.

 

블랙핑크의 멤버는 제니, 지수, 리사, 로제로 4명이다.

 

4명의 멤버별로 25개의 이미지(학습용 20개 테스트용 5개)를 사용해서 총 100개 이미지 사용했다.

 

blackpink_image.zip
0.79MB

 

이미지 출처 : 구글 이미지

 

학습에 사용한 데이터는 4명의 멤버 별로 20개 이미지를 사용해서 총 80개 이미지를 사용했다.

 


나. 학습 정확도

 

 

kNN, Tree, Random Forest, Neural Network의 정확도는 0.463, 0.450, 0.362. 0.425다.

 

그나마 가장 정확도가 높은 모델은 kNN이다.

 


다. 예측 데이터

 

예측 데이터로는 4명의 멤버 각자 5개 이미지를 사용해서 총 20개를 사용한다.

 

 


라. 예측 결과

 

 


 

마. 분류에 대한 해석

 

대체로 정확도가 낮다.

 

사용한 모델이 사람의 얼굴을 분류하는 것에 부적합한 것도 있겠지만 학습 데이터로 사용한 블랙핑크 멤버들의 이미지에도 문제가 있었다.

 

아이돌이라는 특성상 화려한 무대의상과 다양한 색생의 염색을 하다 보니 분류하기 위한 특징을 찾기 어려웠을 것이다.

 

탈색을 많이 한 로제와 리사의 특성상 서로 잘못 분류되는 경우가 많았다.

 

또한 흑발의 장발인 경우엔 지수, 리사, 제니로 골고루 잘못 분류되는 경우가 많았다.

 


 

'학부 강의 > 데이터마이닝' 카테고리의 다른 글

2022-12-06 데이터마이닝_12  (2) 2022.12.18
2022-11-29 데이터마이닝_11  (0) 2022.12.18
2022-11-26 데이터마이닝_9  (0) 2022.11.26
2022-11-13 데이터마이닝_8  (0) 2022.11.13
2022-11-13 데이터마이닝_7  (0) 2022.11.13