전체 글(549)
-
2022-11-13 데이터마이닝_7
1. 연관규칙 대량의 데이터에서 빈번하게 발생하는 데이터의 패턴을 찾는 것. 맥주를 사는 사람은 마른안주도 함께 구매한다. 장바구니 분석이라고도 함. 지지도(support) : 특정 아이템이 데이터에서 발생하는 빈도 : A와 B를 동시에 포함하는 거래수 / 전체 거래수 신뢰도(confidence) : 두 아이템의 연관규칙이 유용한 규칙일 가능성의 척도 (높을수록 좋다) : A와 B를 동시에 포함하는 거래수 / A를 포함하는 거래수 향상도(lift) : 두 아이템의 연관규칙이 우연인지 아닌지를 나타내는 척도 (1을 기준으로 크거나 작아야 의미 있는 규칙이다) : A와 B를 동시에 포함하는 거래수 / A포함거래수 * B포함거래수 출처 : https://welcome-to-dewy-world.tistory.c..
2022.11.13 -
2022-11-07 AI입문_8
1. 딥러닝 개요 가. 딥러닝의 등장과 확산 1) 딥러닝의 등장 다층 신경망은 계층의 개수가 커지면서 신경망의 학습이 제대로 이뤄지지 않는 문제가 있다. 기울기 소실과 기울기 폭증과 관련된 문제다. 심층 신경망 (deep neural network : deep learning)은 이러한 문제를 해결하면서 등장했다. 2006년 힌튼 (Hinton) 교수가 심층신경망의 학습 가능성을 제시했다. 이는 적층 RBM(Stack Restricted Bolzmann Manchin) 기반 가중치 학습, 심층신경망인 DBN, 사전학습(pretrain) 후 상세 조정(wake-sleep 알고리즘)과 같은 기술을 사용했다. 2) 딥러닝의 확산 딥러닝은 아래와 같은 배경에서 활성화되었다. 혁신 알고리즘 공개 개발환경 고성능 ..
2022.11.08 -
2022-11-05 AI입문_7
1. 기울기 강하 기법 가. 학습법 개관 (1) 신경망 학습법 개관 분석적 기법 : 방적식을 구한 후 해를 계산하는 방식 → 계산이 복잡하고 비가역적이면 계산이 불가하다. 에러 정정 학습법 : 오차를 점직적으로 줄여가는 방식 (2) 에러 정정 기법 주어진 입력 샘플에 대해 출력을 산출한다. 이후 출력과 목표 출력 간의 차이가 줄어들도록 가중치를 변경한다. 손실(Loss, 에러)를 어떻게 계산할 것인가? → 손실 함수로 정량화 손실이 줄어들도록 가중치를 조정하는 방법 → 기울기 강하 기법 활용 나. 손실함수 (1) 손실 함수 손실 함수는 목표치와 실제 출력 간의 차이(손실, 에러)를 계량화하는 함수. 에러 함수의 종류는 다양한다. ex) 평균제곱에러, 교차엔트로피 에러 등 (2) 평균제곱에러 평균 제곱 에..
2022.11.06 -
2022-10-24 지금은 ...
중간고사 기간 ~ 우리 티스토리가 아파요...
2022.10.24 -
2022-10-14 데이터마이닝_6
1. K-means 대표적인 비지도 학습. 데이터를 이용해서 k개로 분류. k-평균 알고리즘(K-means clustering algorithm)은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘이다. 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 각 그룹의 중심 (centroid)과 그룹 내의 데이터 오브젝트와의 거리의 제곱합을 비용 함수로 정하고, 이 함숫값을 최소화하는 방향으로 각 데이터 오브젝트의 소속 그룹을 업데이트해 줌으로써 클러스터링을 수행하게 된다. 알고리즘은 자율 학습의 일종으로, 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다. 출처 : https://ko.wikipedia.org/wiki/K-평균_알고리즘 가. kmeans() kmeans(x..
2022.10.14 -
2022-10-13 AI입문_6
1. 다층 신경망 (FNN) 2 계층으로 구성된 다층 퍼셉트론(MLP)은 XOR 기능을 구현해냈다. 이로써 퍼셉트론의 선형 분리성의 한계를 극복했다. 오류 역전파 알고리즘(Backpropagation)으로 다 계층 구조 활용의 최대 걸림돌인 학습 문제를 해결했다. 활성화 함수로 비선형 활성화 함수(시그모이드 함수)를 적용하면서 다양한 함수 기능 구현. 시그모이드 함수를 사용하는 순간부턴 다층 퍼셉트론보단 다층 신경망, 일반 신경망(FNN)이라 칭한다. 선형/비선형 회귀, 이진 분류, 다중 분류 등에 활용된다. 가. FNN 구조 Feed forward 구조 한 개의 히든 계층 다양한 활성화 함수 사용 일반적으로 완전연결층(fully-connected) 보통 ‘계층’이라 함은 앞 단 계층과의 가중치까지 포함..
2022.10.13 -
2022-10-09 소프트웨어공학_6
1. 프로젝트 계획서 프로젝트 계획서는 프로젝트 진행 과정의 주기적 통제하면서 프로젝트의 중심이 된다. 프로젝트 관리자는 프로젝트 계획서를 작성하기 위해서 아래에 나열된 작업을 수행한다. 프로젝트 task를 파악 각 task를 수행하기 위해 필요한 노력 예측 인적 자원 및 기타 자원을 task에 할당 일정 계획 수립 이후 프로젝트 참여자의 검토를 거쳐 합의 하에 채택한다. 당연히 프로젝트 계획서는 현실적으로 전체 프로젝트 진행상황 파악에 문제가 되진 않아야 한다. 또한 프로젝트 점검 및 통제는 주간, 월간 회의를 통해서 주기적으로 수행한다. 국제 표준으로서 IEEE-Std-1058 프로젝트 계획서 양식을 참고할 수 있다. 2. 프로젝트 팀 구성 프로젝트 참여자로는 프로젝트 팀장, 분석 및 설계자, 개발자..
2022.10.09 -
2022-10-06 데이터마이닝_5
1. Random Forest 기계 학습에서의 랜덤 포레스트는 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종이다. 훈련 과정에서 구성한 다수의 결정 트리로부터 부류(분류) 또는 평균 예측치(회귀 분석)를 출력함으로써 동작한다. ( 출처 : https://ko.wikipedia.org/wiki/랜덤_포레스트 ) Decision Tree는 overfitting될 가능성이 높다는 약점을 가지고 있다. 가지치기를 통해 트리의 최대 높이를 설정해 줄 수 있지만 overfitting을 충분히 해결할 수 없다. 그러므로 좀더 일반화된 트리를 만드는 방법을 생각해야한다. 이에 Random Forest(랜덤 포레스트)가 사용된다. Random forest는 ensemble(앙상블) machine learnin..
2022.10.06