2022-09-28 AI입문_4

2022. 9. 29. 00:15ㆍ학부 강의/AI 입문

1. 머신러닝

전통적 프로그래밍의 한계가 찾아옴.

프로그래밍을 통해 해결할 수 없는 문제가 많다. (ex. 필기체 숫자 인식, 얼굴 인식 등)

머신러닝의 개념

컴퓨터가 경험적 데이터(empirical data)를 학습해서 지능적으로 동작할 수 있는 기능을 갖추게 하는 인공지능의 세부 분야.

머신러닝의 기본 원리

머신러닝은 모델을 학습시켜 활용한다.

원시 모델 → 모델 학습 → 예측 모델

수학적으로 해석하면…

우리가 input(x)에 대하여 output(y)라고 대답하는 상황을 수학적으로 y = f(x)라고 표현해보자.

그리고 우리가 y = f(x)처럼 동작하는 프로그램을 머신러닝을 통해 만들려고 한다.

이 머신러닝은 아래와 같이 수학적으로 표현할 수 있다.

샘플 집합 S = {(x, y)}를 사용해서 f()의 근사함수 h()를 찾아내는 일

2. 머신러닝의 기술적 체계

머신러닝 기술을 이해하기 위해 3가지로 나눠서 분석해본다.

머신러닝 태스크 (분류, 상관관계 파악, 군집화 등)
머신러닝 기법 (인스터스 기반 기법, 모델 기반 기법)
머신러닝 학습방식 (감독학습, 비감독 학습, 준감독 학습, 재강화 학습 등)

가. 머신러닝 태스크

머신러닝으로 실현하고자 하는 작업.

분류, 회귀(상관관계 파악), 군집화, 확률분포 모델링 등

분류(Classification)

데이터를 특정 카테고리에 분류
카테고리(클래스)는 사전에 지정됨
분류는 카테고리의 인스턴스가 고유한 객체 또는 개념일 때 식별을 의미
종속변수 y는 이산값을 가짐

이미지 출처 : https://www.slideshare.net/ssuser163469/ndc-2016-61452271

회귀(Regression)

선형 회귀(Linear regression)
- 주어진 데이터 포인트 집합{(x,y)}이 주어졌을 때, 독립변수 x와 종속변수 y와의 관계를 나타내는 선형 함수를 찾는 일
- y는 제한 없는 실수(연속적인 값)
- 단순 선형 회귀 (독립변수 x가 하나), 다중 선형 회귀 (독립변수 x가 여럿)
- 단변량/다변량 선형회귀(종속변수 y의 개수에 따라)
로지스틱 회귀(Logistic regression)
- 종속변수 y가 범주형(제한 있음. ex 1~2 사이)
- 사실은 확률적 성격을 가미한 분류 기법임

이미지 출처 : https://ko.wikipedia.org/wiki/로지스틱_회귀

군집화(Clustering)

데이터에 내재한 특성에 따라 데이터를 클로스터로 구분하는 일
클러스터란 비슷한 특성을 가진 데이터 집단
단, 데이터 특성에 따른 클러스터의 개수는 사전에 정해져 있지 않음. (분류와의 차이점)

이미지 출처 : https://namu.wiki/w/군집 분석

나. 머신러닝 기법

머신러닝 태스크를 수행할 수 있는 컴퓨팅 기법.

역사적으로 수많은 기법이 존재했다.

학습 및 활용의 분리 여부에 따라 인스턴스 기반과 모델 기반으로 분류

인스턴스 기반 기법 : ex) KNN
모델 기반 기법 : ex) 뉴럴 네트워크

이미지 출처 : 대구대 AI입문 4주 차 강의자료

다. 머신러닝 학습방식

감독 학습(Supervised Learning)

지도 학습과 같은 말
테이터(x)에 사람이 직접 작업한 라벨(y)를 더한 학습 데이터 (x, y)를 구축
주요 태스크 : 분류, 회귀

비감독 학습(Unsupervised Learning)

라벨 없이 단순히 데이터만으로 학습
데이터에 나타나는 통상적인 유사, 공통 현상을 학습
주요 태스크 : 클러스터링(유사도 기반), 밀도 예측

강화 학습(Reinforcement Learning)

에이전트가 어떤 상태에 장기적 보상을 극대화하는 동작을 매핑하는 정책을 산출
응용 : 게임 수행, 다중 에이전트, 로봇의 동작

3. 머신러닝 기법의 구성

이미지 출처 : 대구대 AI 입문 4주 차 강의자료

학습 데이터

샘플(데이터)과 라벨로 구성
단, 비지도 학습에는 라벨은 없다.

학습 모델

모델은 단순하게 파라미터(최적화 대상)의 집합으로 추상화될 수 있음
결정 경계의 모양 측면에서 선형과 비선형 모델로 구분 (비선형이 성능이 우수)

학습 알고리즘

학습 샘플에 대한 모델 출력과 목표치 간의 차이를 활용해 파라미터를 최적화하는 알고리즘
머신러닝 기법에 따라 달라짐
한 머신러닝 기법에 대해 다수 존재 가능

4. 머신러닝 시스템의 구축 시나리오

데이터 수집
자료 전처리 및 학습 데이터 구축 (전처리 = 특징 정의 및 심벌화/수치화)
모델 학습
활용

5. 러닝

특정 추출부터 추론, 예측까지 전 주기의 자동화를 실현한 머신러닝의 한 분야.

머신러닝은 인공지능의 한 분야에 속하고, 딥러닝은 머신러닝에 속한다.

컴퓨팅 환경의 발전, 풍부한 학습 데이터의 축적과 딥러닝 알고리즘의 산물(새로운 기술은 아니다)

딥러닝 특징

1. 다층구조

2. 계층적 추상화 학습

3. End-to-End 학습 : Raw data를 입력으로 특징 자동 추출 (사람의 개입이 필요 없다.)