2022. 12. 18. 23:47ㆍ학부 강의/데이터마이닝

기말고사 준비로 밀린 포스팅 ^^
1. 문자열 분석
word cloud를 클릭해서 보면 아래와 같은 결과를 볼 수 있다.
![]() |
![]() |
preprocess를 한 것과 안 한 것의 차이다.
in, the, to, of와 같은 불필요한 것들을 제거한다.
(이 외에도 preprocess의 역할은 더 다양하다.)
2. 실습_워드클라우드
자기가 스스호 선정한 주제로 직접 위드 클라우드 그려보기.
출처 : https://ftw.usatoday.com/lists/league-of-legends-patch-notes-preseason-2023
롤 프리시즌 패치노트에 관한 기사 중 일부를 이용해서 워드 클라우드를 그려보았다.
실제로 이번 패치에 관해서 디렉터가 언급한 중요 포인트는 ‘정글 포지션’이었다.
3. 실습_텍스트 비지도 학습
비지도학습이니깐 하나의 폴더에 모든 텍스트가 있음.
바이든 미국 대통령에 관한 기사는 Cluster 2로 분류되었다.
반면에 월드컵 기사는 Cluster 1로 분류되었다.
4. 실습_텍스트 지도학습
몇 가지 주제로 기사를 모아서 학습을 실행하고 학습한 모델을 가지고 ‘예측’하는 실습이다.
날씨, 월드컵, FTX 가상화폐 거래소 파산에 관한 기사를 모았다.
각 주제별로 학습에 사용할 기사 3개, 예측에 사용할 기사 3개를 찾아서 txt 파일로 저장했다.
설명상 test 디렉터리를 같이 두기는 했지만…
실습을 진행하면서는 test 디렉터리는 바깥에 빼두자.
![]() |
![]() |
![]() |
주제별로 서로 다른 디렉터리로 나누면 지도 학습의 label 효과를 얻을 수 있다.
추후에 test and score에서 3가지로 분류한다고 설정해주자.
Predictions에 사용할 데이터는 한 디렉터리에 저장한다.
Doc을 Import 해서 전처리 과정을 거친다.
Hierarchical Clustering, K-means, KNN, Random Forest, Neural Network 등 모델에 연결한다.
이후 test 디렉터리에 있는 파일을 import 해서 prediction에 사용한다.
'학부 강의 > 데이터마이닝' 카테고리의 다른 글
2022-12-06 데이터마이닝_12 (2) | 2022.12.18 |
---|---|
2022-11-26 데이터마이닝_10 (0) | 2022.11.27 |
2022-11-26 데이터마이닝_9 (0) | 2022.11.26 |
2022-11-13 데이터마이닝_8 (0) | 2022.11.13 |
2022-11-13 데이터마이닝_7 (0) | 2022.11.13 |