데이터 마이닝(6)
-
2022-10-14 데이터마이닝_6
1. K-means 대표적인 비지도 학습. 데이터를 이용해서 k개로 분류. k-평균 알고리즘(K-means clustering algorithm)은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘이다. 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 각 그룹의 중심 (centroid)과 그룹 내의 데이터 오브젝트와의 거리의 제곱합을 비용 함수로 정하고, 이 함숫값을 최소화하는 방향으로 각 데이터 오브젝트의 소속 그룹을 업데이트해 줌으로써 클러스터링을 수행하게 된다. 알고리즘은 자율 학습의 일종으로, 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다. 출처 : https://ko.wikipedia.org/wiki/K-평균_알고리즘 가. kmeans() kmeans(x..
2022.10.14 -
2022-10-06 데이터마이닝_5
1. Random Forest 기계 학습에서의 랜덤 포레스트는 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종이다. 훈련 과정에서 구성한 다수의 결정 트리로부터 부류(분류) 또는 평균 예측치(회귀 분석)를 출력함으로써 동작한다. ( 출처 : https://ko.wikipedia.org/wiki/랜덤_포레스트 ) Decision Tree는 overfitting될 가능성이 높다는 약점을 가지고 있다. 가지치기를 통해 트리의 최대 높이를 설정해 줄 수 있지만 overfitting을 충분히 해결할 수 없다. 그러므로 좀더 일반화된 트리를 만드는 방법을 생각해야한다. 이에 Random Forest(랜덤 포레스트)가 사용된다. Random forest는 ensemble(앙상블) machine learnin..
2022.10.06 -
2022-09-28 데이터마이닝_4
의사결정 트리 (Decison Tree) 결정 트리(decision tree)는 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종이다. 모델 학습 시 각 변수마다 중요도(feature importance)를 계산한다. 출처 : https://data-make.tistory.com/75 출처 : https://ko.wikipedia.org/wiki/결정_트리 조건부 추론 트리 (Conditional Inference Tree) 조건부 추론 트리는 의사결정 트리(Decision Tree) + 통계적 유의성 확인(변수의 유의성)이 가능한 수치를 제공해주는 Tree다. 의사결정 나무 알고리즘에서 발생하는 두 가지 단점 해결 통계적 유의성에 대한 판단 없이 노드를 분할하면서 생기는 ..
2022.09.28 -
2022-09-21 데이터마이닝_3
wordcloud 데이터를 시각화하는 패키지 중 하나다. 위와 같은 단어로 이뤄진 이미지를 만들 수 있다. 참고 : https://cran.r-project.org/web/packages/wordcloud/wordcloud.pdf 패키지 설치 install.packages("wordcloud") 패키지 로드 library(wordcloud) 새로 켜서 사용할 때마다 로드해주기. wordcloud 실행 > data1 data2 wordcloud(names(data2),freq=data2, family="AppleGothic") 출처 : https://walkingfox.tistory.com/80 글자에 색상 넣기 > library(RColorBrewer) > palete wordcloud(names(dat..
2022.09.21 -
2022-09-20 데이터마이닝_2
변수 생성 > english english[1] 90 80 60 70 > math math[1] 50 60 100 20 c() : 데이터나 객체를 하나로 결합(Conbine)하는 함수. 데이터 프레임 생성 > #english, math로 데이터 프레임 생성해서 df_midterm에 할당 > df_midterm df_midterm english math 1 90 50 2 80 60 3 60 100 4 70 20 데이터 호출 > df_midterm english math 1 90 50 2 80 60 3 60 100 4 70 20 > df_midterm$english [1] 90 80 60 70 데이터 평균 구하기 > mean(df_midterm$english) # 영어 평균 [1] 75 > mean(df_m..
2022.09.20 -
2022-09-13 데이터마이닝_1
데이터 마이닝 대용량의 데이터 창고로부터 유용한 정보를 캐내는(mining) 작업을 의미. 데이터 간의 관계, 패턴, 규칙 등을 자동화되거나 반자동화된 도구를 이용해서 찾아낸다. 이를 모형화하여 기업의 경쟁력을 확보하여 의사결정을 돕는 일련의 과정. 대용량 DB가 구축된 전 분야에서 활용된다. 도입 배경 치열한 경쟁상황 속세어 정보/지식의 필요성 증대. 일단 과거에 비하여 데이터가 많이 축적되었다. 그리고 데이터 분석 및 컴퓨팅 기술의 발전으로 연산이 가능해졌다. 통계학과 기계학습으로 알려진 두 학문분야를 모두 포함. 통계분석과 테이터 마이닝 통계분석 제안된 가설에 대한 검증이 주 목표다. 알고리즘은 선형성에 기반을 두고 있다. 데이터 마이닝 대용량 자료여야 한다는 전제조건 현실적인 노이즈 데이터에 대한..
2022.09.14