학부 강의/데이터마이닝(12)
-
2022-09-28 데이터마이닝_4
의사결정 트리 (Decison Tree) 결정 트리(decision tree)는 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종이다. 모델 학습 시 각 변수마다 중요도(feature importance)를 계산한다. 출처 : https://data-make.tistory.com/75 출처 : https://ko.wikipedia.org/wiki/결정_트리 조건부 추론 트리 (Conditional Inference Tree) 조건부 추론 트리는 의사결정 트리(Decision Tree) + 통계적 유의성 확인(변수의 유의성)이 가능한 수치를 제공해주는 Tree다. 의사결정 나무 알고리즘에서 발생하는 두 가지 단점 해결 통계적 유의성에 대한 판단 없이 노드를 분할하면서 생기는 ..
2022.09.28 -
2022-09-21 데이터마이닝_3
wordcloud 데이터를 시각화하는 패키지 중 하나다. 위와 같은 단어로 이뤄진 이미지를 만들 수 있다. 참고 : https://cran.r-project.org/web/packages/wordcloud/wordcloud.pdf 패키지 설치 install.packages("wordcloud") 패키지 로드 library(wordcloud) 새로 켜서 사용할 때마다 로드해주기. wordcloud 실행 > data1 data2 wordcloud(names(data2),freq=data2, family="AppleGothic") 출처 : https://walkingfox.tistory.com/80 글자에 색상 넣기 > library(RColorBrewer) > palete wordcloud(names(dat..
2022.09.21 -
2022-09-20 데이터마이닝_2
변수 생성 > english english[1] 90 80 60 70 > math math[1] 50 60 100 20 c() : 데이터나 객체를 하나로 결합(Conbine)하는 함수. 데이터 프레임 생성 > #english, math로 데이터 프레임 생성해서 df_midterm에 할당 > df_midterm df_midterm english math 1 90 50 2 80 60 3 60 100 4 70 20 데이터 호출 > df_midterm english math 1 90 50 2 80 60 3 60 100 4 70 20 > df_midterm$english [1] 90 80 60 70 데이터 평균 구하기 > mean(df_midterm$english) # 영어 평균 [1] 75 > mean(df_m..
2022.09.20 -
2022-09-13 데이터마이닝_1
데이터 마이닝 대용량의 데이터 창고로부터 유용한 정보를 캐내는(mining) 작업을 의미. 데이터 간의 관계, 패턴, 규칙 등을 자동화되거나 반자동화된 도구를 이용해서 찾아낸다. 이를 모형화하여 기업의 경쟁력을 확보하여 의사결정을 돕는 일련의 과정. 대용량 DB가 구축된 전 분야에서 활용된다. 도입 배경 치열한 경쟁상황 속세어 정보/지식의 필요성 증대. 일단 과거에 비하여 데이터가 많이 축적되었다. 그리고 데이터 분석 및 컴퓨팅 기술의 발전으로 연산이 가능해졌다. 통계학과 기계학습으로 알려진 두 학문분야를 모두 포함. 통계분석과 테이터 마이닝 통계분석 제안된 가설에 대한 검증이 주 목표다. 알고리즘은 선형성에 기반을 두고 있다. 데이터 마이닝 대용량 자료여야 한다는 전제조건 현실적인 노이즈 데이터에 대한..
2022.09.14