2022-11-13 데이터마이닝_8

2022. 11. 13. 17:44ㆍ학부 강의/데이터마이닝

1. 연관규칙 2

가. 실습 1

library(arules)
library(arulesViz)

food <- read.csv("food.csv", header = TRUE, sep =",")

str(food)
food$egg <- as.factor(food$egg)
food$ramen <- as.factor(food$ramen)
food$tuna <- as.factor(food$tuna)
food$coldrice <- as.factor(food$coldrice)
food$cola <- as.factor(food$cola)
food$onion <- as.factor(food$onion)

rules <- apriori(food, parameter = list(supp=0.5, conf = 0.5))

inspect(rules)

plot(rules, method = 'graph')

(1) 질문?

왜 힘들게 하나하나 수동으로 factor로 바꿔주어야 하는가?

stringsAsFactors = TRUE로 한 번에 바꿔도 되지 않는가?

food <- read.csv("food.csv", header = TRUE, sep =",", stringsAsFactors = TRUE)
# 데이터들이 숫자여서 string이 아니라 Factor로 변환되지 않음

inspect(rules)
plot(rules, method = 'graph')

나. 실습 2

tran <- read.transactions('wish.txt', format = "basket", sep = ",")
rule <- apriori(tran, parameter = list(supp = 0.1, conf = 0.1))
inspect(rule)

(1) 결과 해석

lhs, rhs, support, confidence, coverage, lift, count 순서로 출력

1 ~ 17번 : 특정한 연관관계 없음.
18번 : ‘고급 자전거’를 선택하는 선택한 사람이 ‘제주도에 바다가 보이는 20평땅’을 선택할 경우
- 지지도 (support) : 전체에서 둘을 동시에 선택한 사람이 12퍼센트
- 신뢰도 (confidence) : ‘고급 자전거’를 선택한 사람들 중에서 둘을 동시에 선택한 사람이 71퍼센트
- 향상도 (lift) : 1보다 크면 연관성이 있고, 1이면 없고, 1보다 작으면 서로 연관성 더 없음.

출처 : https://codedragon.tistory.com/9774

2. Orange

Orange는 기계학습 및 데이터 시각화에 사용되는 오픈소스 툴킷이다.

설치 : https://orangedatamining.com/download/#macos

가. 실습 1

fat_bmi2.csv

0.05MB

그래픽과 drag & drop 방식을 사용해서 쉽게 사용할 수 있다.

file 아이콘을 누르고 condition 항목을 target으로 설정한다.

tree viewer를 열고 설정을 조절하면 tree를 볼 수 있다.

Confusion matrix도 확인할 수 있다.

Test and Score에 입력으로 file과 model을 연결해주고 출력으로 confusion matrix를 연결해주면 된다.

이렇게 하면 confusion matrix도 확인할 수 있다.

'학부 강의 > 데이터마이닝' 카테고리의 다른 글

2022-11-26 데이터마이닝_10 (1)	2022.11.27
2022-11-26 데이터마이닝_9 (0)	2022.11.26
2022-11-13 데이터마이닝_7 (0)	2022.11.13
2022-10-14 데이터마이닝_6 (0)	2022.10.14
2022-10-06 데이터마이닝_5 (0)	2022.10.06

개발은 즐거워?

개발은 즐거워?

태그

최근글

댓글

공지사항

아카이브

1. 연관규칙 2

가. 실습 1

(1) 질문?

나. 실습 2

(1) 결과 해석

2. Orange

가. 실습 1

'학부 강의 > 데이터마이닝' 카테고리의 다른 글

관련글

티스토리툴바