2022-11-29 데이터마이닝_11

2022. 12. 18. 23:47학부 강의/데이터마이닝


기말고사 준비로 밀린 포스팅 ^^


1. 문자열 분석

 

 

word cloud를 클릭해서 보면 아래와 같은 결과를 볼 수 있다.

 

 

preprocess를 한 것과 안 한 것의 차이다.

 

in, the, to, of와 같은 불필요한 것들을 제거한다.

 

(이 외에도 preprocess의 역할은 더 다양하다.)

 


2. 실습_워드클라우드

 

자기가 스스호 선정한 주제로 직접 위드 클라우드 그려보기.

 

lol.xlsx
0.01MB

출처 : https://ftw.usatoday.com/lists/league-of-legends-patch-notes-preseason-2023

 

롤 프리시즌 패치노트에 관한 기사 중 일부를 이용해서 워드 클라우드를 그려보았다.

 

 

실제로 이번 패치에 관해서 디렉터가 언급한 중요 포인트는 ‘정글 포지션’이었다.

 


3. 실습_텍스트 비지도 학습

 

 

비지도학습이니깐 하나의 폴더에 모든 텍스트가 있음.

 

 

바이든 미국 대통령에 관한 기사는 Cluster 2로 분류되었다.

 

 

반면에 월드컵 기사는 Cluster 1로 분류되었다.

 


4. 실습_텍스트 지도학습

 

몇 가지 주제로 기사를 모아서 학습을 실행하고 학습한 모델을 가지고 ‘예측’하는 실습이다.

 

날씨, 월드컵, FTX 가상화폐 거래소 파산에 관한 기사를 모았다.

 

각 주제별로 학습에 사용할 기사 3개, 예측에 사용할 기사 3개를 찾아서 txt 파일로 저장했다.

 

실습_지도학습.zip
0.03MB

 

 

설명상 test 디렉터리를 같이 두기는 했지만…

 

실습을 진행하면서는 test 디렉터리는 바깥에 빼두자.

 

 

주제별로 서로 다른 디렉터리로 나누면 지도 학습의 label 효과를 얻을 수 있다.

 

 

추후에 test and score에서 3가지로 분류한다고 설정해주자.

 

 

Predictions에 사용할 데이터는 한 디렉터리에 저장한다.

 

 

Doc을 Import 해서 전처리 과정을 거친다.

 

Hierarchical Clustering, K-means, KNN, Random Forest, Neural Network 등 모델에 연결한다.

 

이후 test 디렉터리에 있는 파일을 import 해서 prediction에 사용한다.

 

 


 

'학부 강의 > 데이터마이닝' 카테고리의 다른 글

2022-12-06 데이터마이닝_12  (2) 2022.12.18
2022-11-26 데이터마이닝_10  (0) 2022.11.27
2022-11-26 데이터마이닝_9  (0) 2022.11.26
2022-11-13 데이터마이닝_8  (0) 2022.11.13
2022-11-13 데이터마이닝_7  (0) 2022.11.13