2022-09-13 데이터마이닝_1

2022. 9. 14. 23:30학부 강의/데이터마이닝

 

데이터 마이닝

 

대용량의 데이터 창고로부터 유용한 정보를 캐내는(mining) 작업을 의미.

 

데이터 간의 관계, 패턴, 규칙 등을 자동화되거나 반자동화된 도구를 이용해서 찾아낸다.

 

이를 모형화하여 기업의 경쟁력을 확보하여 의사결정을 돕는 일련의 과정.

 

 

대용량 DB가 구축된 전 분야에서 활용된다.

 


도입 배경

 

치열한 경쟁상황 속세어 정보/지식의 필요성 증대.

 

일단 과거에 비하여 데이터가 많이 축적되었다.

 

그리고 데이터 분석 및 컴퓨팅 기술의 발전으로 연산이 가능해졌다.

 

통계학과 기계학습으로 알려진 두 학문분야를 모두 포함.

 


통계분석과 테이터 마이닝

 

통계분석

 

  • 제안된 가설에 대한 검증이 주 목표다.
  • 알고리즘은 선형성에 기반을 두고 있다.

 

데이터 마이닝

 

  • 대용량 자료여야 한다는 전제조건
  • 현실적인 노이즈 데이터에 대한 가정이 없음 (통계분석에선 노이즈라고 여기는 것도 포함한다.)
  • 미래를 예측하는 것을 목적으로 한다.
  • 알고리즘이 비선형성에 기반을 준다.
  • 예측 성과가 통계학보다 우수하다.

 

현실의 데이터는 비선형이다.

 

이에 비선형 문제를 해결하기 위해선 비선형 모형이 필요함.

 


데이터 마이닝의 기법

 

 

크게 지도 학습과 비지도 학습으로 나뉜다.

 

  • 지도학습 : 예측, 분류
  • 비지도학습 : 군집, 연관 규칙

 


R

 

유명한 데이터 분석 소프트웨어.

 

통계분석, 머신러닝, 텍스트 마이닝, 소셜 네트워크 분석, 지도 시각화, 주식 분석, 이미지 분석, 사운드 분석, 웹 애플리케이션 개발 등에 활용된다.

 

R이 강력한 이유

 

  • 오픈소스, 오픈소스 생태계
  • CLI 방식
  • 널리 사용됨
  • 재현성 (동일한 데이터를 입력하면 일정한 출력값을 재현한다.)
  • 공동작업이 가능
  • 다양한 그래프 구현 가능

 

파이썬 vs R

 

파이썬은 범용 프로그래밍 언어다.

 

반면에 R은 데이터 분석을 위해 만들어진 전용 프로그래밍이다.

 


R studio

 

설치

 

웹으로 설치하기

 

R을 설치하고 Rstudio을 설치한다. (R 없이 Rstudio를 설치하면 error가 발생한다.)

 


homebrew 이용하기

 

mac 유저의 경우 homebrew를 설치하고서 사용할 수 있다.

 

brew install --cask R
brew install --cask rstudio

 


R 기본 사용법

 

R.version
# R 버전 확인하는 방법

 

 

ctrl+l
# clear the screen

 

 


데이터 프레임

 

DB에서 흔히 테이블이라고 부르는 것과 비슷하다.

 

이미지 출처 : https://zetawiki.com/wiki/Pandas_%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84

 

데이터 프레임 생성

 

> english <- c(90, 80, 60, 70) #영어 점수 변수 생성
> english[1] 
90 80 60 70
> math <- c(50,60,100, 20) #수학 점수 변수 생성
> math[1]  
50  60 100  20
> #english, math로 데이터 프레임 생성해서 df_midterm에 할당
> df_midterm <- data.frame(english, math)
> df_midterm
  english math
1      90   50
2      80   60
3      60  100
4      70   20

 

데이터 호출

 

df_midterm 데이터 프레임에 포함된 모든 데이터 출력.

> df_midterm
  english math
1      90   50
2      80   60
3      60  100
4      70   20

 

df_midterm 데이터 프레임에 포함된 특정한 데이터 출력.

> df_midterm$english
[1] 90 80 60 70

 

데이터 삭제

> rm(math)

 


'학부 강의 > 데이터마이닝' 카테고리의 다른 글

2022-10-14 데이터마이닝_6  (0) 2022.10.14
2022-10-06 데이터마이닝_5  (0) 2022.10.06
2022-09-28 데이터마이닝_4  (0) 2022.09.28
2022-09-21 데이터마이닝_3  (1) 2022.09.21
2022-09-20 데이터마이닝_2  (0) 2022.09.20