학부 강의/데이터마이닝(12)
-
2022-12-06 데이터마이닝_12
기말고사로 밀린 포스팅 ^^ 1. 감정 추측 글의 분위기를 추측한다. pos : 긍정적 neg : 부정적 neu : 중립적 compound : 전체적인 태도 (1을 넘어야 긍정적 태도로 확신) 영어만 가능하다. imagine dragons의 노래 3곡의 분위기를 측정해보았다. 2. Wikipedia 사용 Orange에서 제공하는 Wikipedia 기능을 사용하면 위키에 있는 검색결과를 바로 코퍼스로 가져올 수 있다. 위키피디아에 teemo 검색. ^오^
2022.12.18 -
2022-11-29 데이터마이닝_11
기말고사 준비로 밀린 포스팅 ^^ 1. 문자열 분석 word cloud를 클릭해서 보면 아래와 같은 결과를 볼 수 있다. preprocess를 한 것과 안 한 것의 차이다. in, the, to, of와 같은 불필요한 것들을 제거한다. (이 외에도 preprocess의 역할은 더 다양하다.) 2. 실습_워드클라우드 자기가 스스호 선정한 주제로 직접 위드 클라우드 그려보기. 출처 : https://ftw.usatoday.com/lists/league-of-legends-patch-notes-preseason-2023 롤 프리시즌 패치노트에 관한 기사 중 일부를 이용해서 워드 클라우드를 그려보았다. 실제로 이번 패치에 관해서 디렉터가 언급한 중요 포인트는 ‘정글 포지션’이었다. 3. 실습_텍스트 비지도 학습..
2022.12.18 -
2022-11-26 데이터마이닝_10
1. 비지도 학습 비지도 학습으로 k-Means와 Hierarchical Clustering을 사용해 봤다. 가. k-Means fixed: 5 : 이미지를 5가지로 분류 나. Hierachical Clustering 이미지를 분류할 경우에는 Ward를 선택한다고 한다. 2. 실습_비지도 학습 2~3개의 사물을 주제로 합쳐서 20개 사진을 다운로드한다. 이를 분류하도록 비지도 학습을 진행한다. 이미지 다운로드 : 구글 fixed: 2 : 이미지를 2가지 분류 맥주와 소주 이미지를 가지고서 한번 분류하도록 시켜보았다. 오… 생각보다 똑똑한데? 고든 램지도 극찬한 CASS 빼고는 맥주랑 소주로 나눴다. 3. 실습_지도 학습 학습 데이터로 사용된 이미지의 개수와 종류(클래스)의 이름과 수 설명한다. 지도 학습..
2022.11.27 -
2022-11-26 데이터마이닝_9
1. Test & Score CA : Classification accuracy is the proportion of correctly classified examples. Precision : Precision is the proportion of true positives among instances classified as positive, e.g. the proportion of Iris virginica correctly identified as Iris virginica. Recall : Recall is the proportion of true positives among all positive instances in the data, e.g. the number of sick among a..
2022.11.26 -
2022-11-13 데이터마이닝_8
1. 연관규칙 2 가. 실습 1 library(arules) library(arulesViz) food
2022.11.13 -
2022-11-13 데이터마이닝_7
1. 연관규칙 대량의 데이터에서 빈번하게 발생하는 데이터의 패턴을 찾는 것. 맥주를 사는 사람은 마른안주도 함께 구매한다. 장바구니 분석이라고도 함. 지지도(support) : 특정 아이템이 데이터에서 발생하는 빈도 : A와 B를 동시에 포함하는 거래수 / 전체 거래수 신뢰도(confidence) : 두 아이템의 연관규칙이 유용한 규칙일 가능성의 척도 (높을수록 좋다) : A와 B를 동시에 포함하는 거래수 / A를 포함하는 거래수 향상도(lift) : 두 아이템의 연관규칙이 우연인지 아닌지를 나타내는 척도 (1을 기준으로 크거나 작아야 의미 있는 규칙이다) : A와 B를 동시에 포함하는 거래수 / A포함거래수 * B포함거래수 출처 : https://welcome-to-dewy-world.tistory.c..
2022.11.13 -
2022-10-14 데이터마이닝_6
1. K-means 대표적인 비지도 학습. 데이터를 이용해서 k개로 분류. k-평균 알고리즘(K-means clustering algorithm)은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘이다. 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 각 그룹의 중심 (centroid)과 그룹 내의 데이터 오브젝트와의 거리의 제곱합을 비용 함수로 정하고, 이 함숫값을 최소화하는 방향으로 각 데이터 오브젝트의 소속 그룹을 업데이트해 줌으로써 클러스터링을 수행하게 된다. 알고리즘은 자율 학습의 일종으로, 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다. 출처 : https://ko.wikipedia.org/wiki/K-평균_알고리즘 가. kmeans() kmeans(x..
2022.10.14 -
2022-10-06 데이터마이닝_5
1. Random Forest 기계 학습에서의 랜덤 포레스트는 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종이다. 훈련 과정에서 구성한 다수의 결정 트리로부터 부류(분류) 또는 평균 예측치(회귀 분석)를 출력함으로써 동작한다. ( 출처 : https://ko.wikipedia.org/wiki/랜덤_포레스트 ) Decision Tree는 overfitting될 가능성이 높다는 약점을 가지고 있다. 가지치기를 통해 트리의 최대 높이를 설정해 줄 수 있지만 overfitting을 충분히 해결할 수 없다. 그러므로 좀더 일반화된 트리를 만드는 방법을 생각해야한다. 이에 Random Forest(랜덤 포레스트)가 사용된다. Random forest는 ensemble(앙상블) machine learnin..
2022.10.06