Machine Learning
[sklearn] LabelEncoder : 테이블의 문자열 레이블을 숫자로 변경
Kritias
2021. 10. 8. 16:29
LabelEncoder
하는 일
데이터테이블에서 문자열로 된 레이블은 처리하기가 까다롭다.
처리를 좀 더 쉽게 하기 위해 레이블의 값들을 식별할 수 있는 숫자로 만들어준다.
예시
index | name | 라벨 인코딩 후 컬럼 추가 |
index | name | c_name |
1 | '민수' | 1 | '민수' | 1 | |
2 | '영희' | 2 | '영희' | 2 | |
3 | '철수' | 3 | '철수' | 3 | |
4 | '철수' | 4 | '철수' | 3 | |
5 | '영희' | 5 | '영희' | 2 |
코드
선언
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
사용
# m: df의 모델 레이블을 식별할 수 있는 숫자로 변경한 1차원 배열
le.fit(df.model)
le.classes_
m = le.transform(df.model)
# df에 m을 추가
df['c_model'] = m