Machine Learning

[sklearn] LabelEncoder : 테이블의 문자열 레이블을 숫자로 변경

Kritias 2021. 10. 8. 16:29

LabelEncoder

하는 일

데이터테이블에서 문자열로 된 레이블은 처리하기가 까다롭다.

처리를 좀 더 쉽게 하기 위해 레이블의 값들을 식별할 수 있는 숫자로 만들어준다.

예시

index name 라벨 인코딩 후
컬럼 추가
index name c_name
1 '민수' 1 '민수' 1
2 '영희' 2 '영희' 2
3 '철수' 3 '철수' 3
4 '철수' 4 '철수' 3
5 '영희' 5 '영희' 2

코드

선언

from sklearn import preprocessing

le = preprocessing.LabelEncoder()

사용

# m: df의 모델 레이블을 식별할 수 있는 숫자로 변경한 1차원 배열
le.fit(df.model)
le.classes_
m = le.transform(df.model)

# df에 m을 추가
df['c_model'] = m