본문 바로가기
데이터 분석

[의사결정나무/Decision Tree] 살균기 AI 데이터셋 (1)

by 빅데이터1020 2021. 1. 5.
SMALL

중소벤처기업부가 2020년 12월 14일에 인공지능 중소벤처 제조플랫폼인 ‘AI 제조 플랫폼(KAMP) 서비스 포털’을 열었습니다. 

 

이 포털에는 중소 제조업체들이 주로 활용하는 핵심 장비 12종에 대한 인공지능 학습용 데이터와 분석 모델이 담겨있습니다.

12개 학습용 데이터 및 분석모델에 대한 가이드북을 제공하고 있어 누구나 쉽게 분석을 따라할 수 있습니다.

가이드북을 통해 스마트 공장의 개념부터 인공지능, 데이터 활용까지 공부할 수 있습니다.

 

오늘부터 일주일에 2~3개씩 제조 데이터 및 분석을 학습하고 이해한 내용을 요약해서 업로드 할 예정입니다.

 

데이터 다운로드 및 가이드북은 링크를 참고하세요~

 

인공지능 중소벤처 제조 플랫폼

데이터셋 소개 원재료를 100℃ 이하의 온도에서 30분 이상 저온살균 및 교반작업 시, 설비운영값 (살균상태, 살균온도, 양품/불량여부)을 수집하여 최종 품질을 예측하기위한 제조 AI분석과정을

kamp-ai.kr

1. 분석을 시작하기 전에

1-1. 분석 배경

ㅇ 가열살균공정 : 열처리를 통해 액상 식품의 미생물을 사멸시키는 공정

ㅇ 본 가이드 북의 살균공정: 

   - 분말을 생산하는 식품제조업의 저온살균공정

   - 원재료의 전처리를 수행하는 두 번째 단게이므로 해당 공정의 품질이 후공정과 완제품의 품질에 미치는 영향이 큼!

 

1-2. 문제 상황

ㅇ 식품안전관리 인증기준 HACCP의 CCP 한계기준은 반드시 제품품질을 보장한다고는 할 수 없고, 제조현장에서 생산제품 및 설비에 따라 기준 내 공정/설비 운영값을 설정하도록 함

ㅇ 살균기의 내부 센서가 살균공정 동안 변화하는 내용물의 온도를 감지해서 설정 온도가 유지되도록 가열온도를 변경하지만, 온도가 조정되는 동안의 시차가 있음

 

1-3. 문제 해결

ㅇ 살균여부의 주요 지표(살균온도)와 제품 불량 데이터의 기계학습으로 문제해결!

ㅇ 살균공정이 진행되는 동안 실시간으로 품질을 예측하고 이를 공정제어에 이용할 수 있음!

 

2. 분석 시사점

2-1. 각 공정 운영변수의 변화가 품질에 미칠 영향 모델링 도출

2-2. EDA -> 전체 데이터 및 각 변수의 특성을 파악

2-3. 생산품 품질에 주된 영향을 미치는 공정변수 및 그 연관성 파악

2-4. 영향 인자의 우선순위를 결정

2-5. 최종 품질을 예측하는 AI 모델 구성

 

3. 분석 실습

3-1. 제조데이터 소개

-> 가이드 북을 참고하시면 자세한 설명을 확인할 수 있습니다!

 

3-2. 분석모델 - 의사결정나무

(1) 의사결정나무 특징

ㅇ 연속형/범주형 입력변수 및 목표변수 모두 취급 가능

ㅇ 분류 규칙이 명확 --> 해석이 쉬움

ㅇ 선형성,  정규성 등의 가정이 필요하지 않아 전처리 과정에 큰 영향을 받지 않음

ㅇ 분류 또는 예측모형으로 사용되는 지도학습

ㅇ 원본데이터에서 하나의 규칙을 만들 때마다 규칙노드를 만들고, 가지를 치면서 내려감

(2) 어디까지 가지를 칠 것인가? - 과적합의 문제

ㅇ 데이터를 분할할 때 모든 데이터가 각각 분할 되도록 가지를 칠 가능성이 있음 (=과적합)

*과적합이란?

머신러닝을 학습할 때 학습 데이터의 패턴을 과도하게 학습하는 것.

과적합된 모델은 샘플 데이터만 과하게 학습해서 샘플 데이터에 대해서는 높은 예측력을 가지지만, 실제 데이터를 적용하면 성능이 떨어짐.

 

ㅇ 과적합이 발생하기 위한 제어 = 균일도(순수도, purity)가 높은 데이터셋이 나타나도록 분할하기

*'불순도(impurity)가 낮은 데이터셋이 나타나도록 분할하기'라는 표현을 쓰기도 합니다.

 

ㅇ 균일도를 측정하는 방법 ① 엔트로피 ② 지니계수

 

 

① 엔트로피 지수 (데이터의 혼잡도)

- 데이터가 혼잡하면 엔트로피는 증가함 ==> 균일한 데이터는 엔트로피가 낮음

- 의사결정나무는 엔트로피가 낮은 값이 나오도록 데이터를 분할해야 함

 

 

 지니계수 

- 데이터가 균일하면 지니계수는 낮아짐

- 의사결정나무는 지니계수가 낮은 값이 나오도록 데이터를 분할해야 함

 

(3) 의사결정나무 모델 평가하기

" 정확도, 오차행렬, 정밀도, 재현율, F1 Score, ROC-AUC "

 

① 정확도 = 예측결과가 동일한 데이터 건수 ÷ 전체 예측 데이터 건수

- 단점: 데이터의 양성/음성 분포에 따라 예측성능이 왜곡될 가능성

- 김정연 교수님께서 들려주신 예시를 빌리자면,,

  희귀암을 진단하는 기계를 발명했다고 거짓말 하는 사기꾼이, 기계에 어떤 정보를 입력해도 '암 없음'으로 진단한다고 가정해보자. 희귀암에 걸릴 확률이 1%라면, 정확도는 99%가 되고 정확도가 높다는 평가를 받게 될 수 있다.

- 단점을 극복하기 위해 다양한 지표와 함께 모델을 평가해야 함

 

② 오차행렬

- scikit-learn에서 confusion_matirix()로 구할 수 있음

 

③ 정밀도 = TP / (FP + TP)

- 양성이라고 예측한 것들 중 진짜로 양성인 것의 비율

 

④ 재현율 = TP / (FN + TP)

- 실제 양성인 것들 중 양성이라고 올바르게 예측한 것의 비율

- 민감도(Sensitivity) 또는 TPR(True Positive Rate)라고 불리기도 함

 

*정밀도와 재현율은 한쪽이 높으면 다른 쪽이 낮아지는 경우가 일반적임

-->상호 보완적인 성격(트레이드오프, Trade off)

 

⑤ F1 Score = 2 * {(정밀도 * 재현율) ÷ (정밀도 + 재현율)}

- 정밀도와 재현율을 종합적으로 고려한 지표

- scikit-learn에서 f1_score() 로 계산 가능

 

⑥ ROC-AUC

- 민감도와 특이도의 상충관계 파악하는 지표

- FPR(False Positive Rate) 대비 TPR(True Postive Rate)이 어떻게 변화하는지 나타냄

- AUC(Area Under the Curve)는 ROC 아래 부분 면적을 나타낸 것

 

 

<omg's comment>

이번 포스팅에서는 살균공정에서 머신러닝 분석의 필요성과 의사결정나무의 이론적 배경을 요약했습니다.

의사결정나무의 모델 평가 부분은 랜덤포레스트, KNN, 로지스틱회귀모형 등 다른 분류 모델에서의 평가 지표로 쓰입니다.

그래서 아마 앞으로 다른 제조 데이터의 AI 분석 요약 포스팅을 진행하다보면 중복되는 내용이 나오지 않을까 생각해봅니다.

 

다음 포스팅에서 분석 실습을 진행하겠습니다!

 

 

 

출처: 중소벤처기업부, Korea AI Manufacturing Platform(KAMP), 살균기 AI데이터셋, KAIST(임픽스, 한양대학교 산학협력단, 아큐라소프트), 2020.12.14

LIST