데이터 전처리: Difference between revisions

From IT위키
No edit summary
m (문자열 찾아 바꾸기 - "분류:데이터/통계학" 문자열을 "분류:데이터 과학" 문자열로)
 
Line 1: Line 1:
[[분류:데이터/통계학]]
[[분류:데이터 과학]]
;Data Preprocessing
;Data Preprocessing
;데이터를 실제 업무에 활용하기에 앞서서 정제하는 행위
;데이터를 실제 업무에 활용하기에 앞서서 정제하는 행위

Latest revision as of 00:07, 7 May 2020

분류:데이터 과학

Data Preprocessing
데이터를 실제 업무에 활용하기에 앞서서 정제하는 행위

데이터 전처리 부담[edit | edit source]

  • 데이터 분석가는 업무 시간 중 80%정도를 데이터 수집 및 전처리 과정에 사용[1]

유형[edit | edit source]

  • 데이터 품질 향상
    • 이상치 처리
    • 결측치 처리
    • 노이즈 제거
    • 오타 처리
    • 개행문자 등 특수문자 처리
  • 데이터 통일
    • 메타 데이터 조정: 칼럼명 통일
    • 데이터 형태 조정: Data Type, Datetime Type, 원핫 인코딩
    • 연계 정보 조정: 불필요 칼럼 삭제, 칼럼 추가 등
  • 개인정보 보호

참고 문헌[edit | edit source]