XGBoost 3

SHAP이란?

SHAP은 머신러닝 모델이 왜 그런 예측을 했는지 설명해주는 도구예요.특히 XGBoost나 LightGBM 같은 블랙박스 모델의 예측 결과를 해석할 수 있게 해줘요.🧠 SHAP이란?🔍 SHAP = SHapley Additive exPlanations원래는 게임 이론의 Shapley 값에서 나온 개념이에요."각 피처가 예측값에 얼마나 기여했는가?"를 계산합니다.예:모델이 전표 A를 "반려 확률 90%"로 예측했다면:적요: +40%금액: +20%계정코드: +30%→ 이런 식으로 기여도를 보여줘요.📊 어떻게 생겼냐면?예시 그래프:예측: 반려 확률 90%-------------------------적요 +0.40계정코드 +0.30금액 +0.20거래처..

AI 2025.03.27

이진분류를 통한 반려예측모델 구축

✅ 1. 문제 정의입력(Input): 전표 데이터 (예: 적요, 금액, 계정과목, 날짜, 작성자 등)출력(Output): 반려 여부 (반려/통과 → 이진 분류)이 문제는 이진 분류(Binary Classification) 문제입니다.✅ 2. 데이터 준비🎯 타겟 변수 설정label = 1 : 반려됨 (결재반려, 재경반려)label = 0 : 정상 통과됨🧾 입력 피처 예시적요 (자연어 처리 필요)금액 (숫자형)계정코드, 거래처 (범주형)입력일자 (날짜 → 요일/월/분기 등으로 파생 가능)사용자 ID, 부서 ID (범주형)반려 사유 (학습 시 제외하고, 추후 해석에만 사용 가능)✅ 3. 전처리/특징 엔지니어링적요: TF-IDF, BERT 임베딩, 혹은 SentenceTransformer 등으로 변환범주형:..

AI 2025.03.27

XGBoost 모델에서의 피처(Feature) 관리 중요성

XGBoost 모델에서의 피처(Feature) 관리 중요성XGBoost는 머신러닝 분야에서 널리 사용되는 강력한 알고리즘 중 하나로, 높은 예측 성능과 빠른 처리 속도로 많은 주목을 받고 있습니다. 하지만 모델을 성공적으로 구축하고 활용하기 위해서는 피처(Feature) 관리가 매우 중요합니다. 특히 모델 학습 시 사용한 피처와 예측 시 사용하는 피처가 반드시 일치해야 한다는 점을 반드시 기억해야 합니다.학습 피처와 예측 피처가 동일해야 하는 이유XGBoost는 지도 학습(Supervised Learning) 기반으로 동작하며, 훈련 데이터에서 피처를 학습하여 각 피처가 예측에 얼마나 중요한지 학습합니다. 따라서 예측 단계에서도 학습 시와 동일한 피처를 동일한 순서와 구조로 입력받아야 정확한 예측을 수행..

AI 2025.03.27