[ML] Light GBM 개념 및 예시 코드

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

YJ_Scribbles

[ML] Light GBM 개념 및 예시 코드 본문

Practice/Machine Learning

[ML] Light GBM 개념 및 예시 코드

오뀨기 2023. 5. 31. 10:30

📍Light GBM 기본 개념

-> GradientBoosting을 발전시킨 것 : XGBoost

-> XGBoost 속도를 더 높인 것 : LightGBM

ㅇ 기존 tree 기반 알고리즘 : Level wise(균형 트리 분할) 방식 사용

-> 수평적 확장

-> tree 깊이 : 최소화

-> 균형을 위한 시간 필요

ㅇ Light GBM 알고리즘 : Leaf wise(리프 중심 트리 분할) 방식 사용

-> 수직적 확장

-> 최대 손실 값(Max data loss)을 가지는 리프 노트를 지속적으로 분할

-> 트리 기준 분할 방식에 비해 예측 오류 손실을 최소

📍Light GBM 장점

- 가볍고 속도가 빠름

- 큰 사이즈의 데이터를 실행시킬 때 적은 메모리 사용

- categorical feature 들의 자동 변환과 최적 분할

- 결과의 정확도에 초점을 맞춤

- GPU 학습 지원

📍Light GBM 단점

- 적은 데이터 사용시 과적합 가능성(적은 데이터 기준 : 10,000개)

📍Light GBM 파라미터

-> Light GBM은 구현은 쉬우나, 파라미터가 100개가 넘는다 : 중요한 파라미터만 알고 있어도 사용하는 데에 무리 없다

📍Light GBM 실습

-> 아나콘다 사용하는 환경이라 먼저 설치 진행

 conda install -c conda-forge lightgbm

import lightgbm as lgb

# Preprocess your data
X = labeled_data.drop('label', axis=1)
y = labeled_data['label']

# Normalize the features
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

# Perform K-fold cross-validation
lgb_model = lgb.LGBMClassifier()
lgb_model.fit(X_train, y_train)

y_pred_prob = lgb_model.predict_proba(X_test)

# Perform K-fold cross-validation and calculate AUROC scores
y_pred_proba = cross_val_predict(lgb_model, X, y, cv=5, method='predict_proba')

roc_auc = roc_auc_score(y_test, y_pred_prob, multi_class='ovr', average='macro')

print("Macro-average AUROC score:", roc_auc)

plot_roc(y_test, y_pred_prob)

ㅇ feature importance

-> 파라미터를 다르게 하면 모델 돌릴때마다 feature importance가 변함

YJ_Scribbles

[ML] Light GBM 개념 및 예시 코드 본문

[ML] Light GBM 개념 및 예시 코드

📍Light GBM 기본 개념

ㅇ 기존 tree 기반 알고리즘 : Level wise(균형 트리 분할) 방식 사용

ㅇ Light GBM 알고리즘 : Leaf wise(리프 중심 트리 분할) 방식 사용

📍Light GBM 장점

📍Light GBM 단점

📍Light GBM 파라미터

📍Light GBM 실습

ㅇ feature importance

티스토리툴바