2022-11-13 데이터마이닝_8

2022. 11. 13. 17:44학부 강의/데이터마이닝

 

1. 연관규칙 2

 

가. 실습 1

 

library(arules)
library(arulesViz)
food <- read.csv("food.csv", header = TRUE, sep =",")

str(food)
food$egg <- as.factor(food$egg)
food$ramen <- as.factor(food$ramen)
food$tuna <- as.factor(food$tuna)
food$coldrice <- as.factor(food$coldrice)
food$cola <- as.factor(food$cola)
food$onion <- as.factor(food$onion)

rules <- apriori(food, parameter = list(supp=0.5, conf = 0.5))

inspect(rules)

plot(rules, method = 'graph')

 

 

 

(1) 질문?

 

왜 힘들게 하나하나 수동으로 factor로 바꿔주어야 하는가?

 

stringsAsFactors = TRUE로 한 번에 바꿔도 되지 않는가?

 

food <- read.csv("food.csv", header = TRUE, sep =",", stringsAsFactors = TRUE)
# 데이터들이 숫자여서 string이 아니라 Factor로 변환되지 않음
inspect(rules)
plot(rules, method = 'graph')

 


나. 실습 2

 

tran <- read.transactions('wish.txt', format = "basket", sep = ",")
rule <- apriori(tran, parameter = list(supp = 0.1, conf = 0.1))
inspect(rule)

 

(1) 결과 해석

 

lhs, rhs, support, confidence, coverage, lift, count 순서로 출력

  • 1 ~ 17번 : 특정한 연관관계 없음.
  • 18번 : ‘고급 자전거’를 선택하는 선택한 사람이 ‘제주도에 바다가 보이는 20평땅’을 선택할 경우
    • 지지도 (support) : 전체에서 둘을 동시에 선택한 사람이 12퍼센트
    • 신뢰도 (confidence) : ‘고급 자전거’를 선택한 사람들 중에서 둘을 동시에 선택한 사람이 71퍼센트
    • 향상도 (lift) : 1보다 크면 연관성이 있고, 1이면 없고, 1보다 작으면 서로 연관성 더 없음.

 

출처 : https://codedragon.tistory.com/9774

 


2. Orange

 

 

Orange는 기계학습 및 데이터 시각화에 사용되는 오픈소스 툴킷이다.

 

설치 : https://orangedatamining.com/download/#macos

 


가. 실습 1

 

 

fat_bmi2.csv
0.05MB

 

그래픽과 drag & drop 방식을 사용해서 쉽게 사용할 수 있다.

 

 

file 아이콘을 누르고 condition 항목을 target으로 설정한다.

 

 

tree viewer를 열고 설정을 조절하면 tree를 볼 수 있다.

 

 

Confusion matrix도 확인할 수 있다.

 

Test and Score에 입력으로 file과 model을 연결해주고 출력으로 confusion matrix를 연결해주면 된다.

 

 

이렇게 하면 confusion matrix도 확인할 수 있다.

 

 


'학부 강의 > 데이터마이닝' 카테고리의 다른 글

2022-11-26 데이터마이닝_10  (0) 2022.11.27
2022-11-26 데이터마이닝_9  (0) 2022.11.26
2022-11-13 데이터마이닝_7  (0) 2022.11.13
2022-10-14 데이터마이닝_6  (0) 2022.10.14
2022-10-06 데이터마이닝_5  (0) 2022.10.06