05_data_cleaning.py

  1"""
  2데이터 전처리 (Data Cleaning/Preprocessing)
  3Data Cleaning and Preprocessing Techniques
  4
  5실제 데이터 분석에서 가장 중요한 전처리 기법을 다룹니다.
  6"""
  7
  8import numpy as np
  9import pandas as pd
 10from typing import List, Tuple
 11
 12
 13# =============================================================================
 14# 1. 결측치 처리
 15# =============================================================================
 16def handle_missing_values():
 17    """결측치 탐지 및 처리"""
 18    print("\n[1] 결측치 처리")
 19    print("=" * 50)
 20
 21    # 결측치가 있는 데이터 생성
 22    df = pd.DataFrame({
 23        'A': [1, 2, np.nan, 4, 5],
 24        'B': [np.nan, 2, 3, np.nan, 5],
 25        'C': [1, 2, 3, 4, 5],
 26        'D': ['a', None, 'c', 'd', np.nan]
 27    })
 28
 29    print("원본 데이터:")
 30    print(df)
 31    print()
 32
 33    # 결측치 탐지
 34    print("결측치 개수:")
 35    print(df.isnull().sum())
 36    print(f"\n결측치 비율:\n{df.isnull().mean() * 100}")
 37
 38    # 처리 방법들
 39    print("\n--- 결측치 처리 방법 ---")
 40
 41    # 1. 행 삭제
 42    df_dropna = df.dropna()
 43    print(f"\n1. 행 삭제 (dropna):\n{df_dropna}")
 44
 45    # 2. 특정 열에서만 삭제
 46    df_drop_subset = df.dropna(subset=['A', 'C'])
 47    print(f"\n2. A, C 열 기준 삭제:\n{df_drop_subset}")
 48
 49    # 3. 값으로 채우기
 50    df_fillna = df.copy()
 51    df_fillna['A'] = df_fillna['A'].fillna(df_fillna['A'].mean())
 52    df_fillna['B'] = df_fillna['B'].fillna(df_fillna['B'].median())
 53    print(f"\n3. 평균/중앙값으로 채우기:\n{df_fillna}")
 54
 55    # 4. 전방/후방 채우기
 56    df_ffill = df.fillna(method='ffill')
 57    print(f"\n4. 전방 채우기 (ffill):\n{df_ffill}")
 58
 59    # 5. 보간법
 60    df_interpolate = df.copy()
 61    df_interpolate['A'] = df_interpolate['A'].interpolate()
 62    df_interpolate['B'] = df_interpolate['B'].interpolate()
 63    print(f"\n5. 보간법 (interpolate):\n{df_interpolate}")
 64
 65
 66# =============================================================================
 67# 2. 이상치 탐지 및 처리
 68# =============================================================================
 69def handle_outliers():
 70    """이상치 탐지 및 처리"""
 71    print("\n[2] 이상치 탐지 및 처리")
 72    print("=" * 50)
 73
 74    np.random.seed(42)
 75
 76    # 이상치가 포함된 데이터
 77    normal_data = np.random.normal(100, 10, 100)
 78    outliers = np.array([200, -50, 250])
 79    data = np.concatenate([normal_data, outliers])
 80    np.random.shuffle(data)
 81
 82    df = pd.DataFrame({'value': data})
 83
 84    print(f"데이터 크기: {len(df)}")
 85    print(f"평균: {df['value'].mean():.2f}")
 86    print(f"표준편차: {df['value'].std():.2f}")
 87
 88    # 방법 1: IQR 방법
 89    print("\n--- IQR 방법 ---")
 90    Q1 = df['value'].quantile(0.25)
 91    Q3 = df['value'].quantile(0.75)
 92    IQR = Q3 - Q1
 93    lower_bound = Q1 - 1.5 * IQR
 94    upper_bound = Q3 + 1.5 * IQR
 95
 96    print(f"Q1: {Q1:.2f}, Q3: {Q3:.2f}, IQR: {IQR:.2f}")
 97    print(f"정상 범위: [{lower_bound:.2f}, {upper_bound:.2f}]")
 98
 99    outliers_iqr = df[(df['value'] < lower_bound) | (df['value'] > upper_bound)]
100    print(f"이상치 개수: {len(outliers_iqr)}")
101    print(f"이상치 값: {outliers_iqr['value'].values}")
102
103    # 방법 2: Z-score 방법
104    print("\n--- Z-score 방법 ---")
105    z_scores = np.abs((df['value'] - df['value'].mean()) / df['value'].std())
106    outliers_z = df[z_scores > 3]
107    print(f"이상치 개수 (|z| > 3): {len(outliers_z)}")
108
109    # 이상치 처리
110    print("\n--- 이상치 처리 ---")
111
112    # 1. 제거
113    df_no_outliers = df[(df['value'] >= lower_bound) & (df['value'] <= upper_bound)]
114    print(f"1. 제거 후 크기: {len(df_no_outliers)}")
115
116    # 2. 경계값으로 대체 (Winsorizing)
117    df_winsorized = df.copy()
118    df_winsorized['value'] = df_winsorized['value'].clip(lower_bound, upper_bound)
119    print(f"2. Winsorizing 후 최대값: {df_winsorized['value'].max():.2f}")
120
121    # 3. 중앙값으로 대체
122    df_median = df.copy()
123    median_val = df['value'].median()
124    df_median.loc[(df['value'] < lower_bound) | (df['value'] > upper_bound), 'value'] = median_val
125    print(f"3. 중앙값 대체 후 평균: {df_median['value'].mean():.2f}")
126
127
128# =============================================================================
129# 3. 데이터 타입 변환
130# =============================================================================
131def data_type_conversion():
132    """데이터 타입 변환"""
133    print("\n[3] 데이터 타입 변환")
134    print("=" * 50)
135
136    df = pd.DataFrame({
137        'int_col': ['1', '2', '3', '4', '5'],
138        'float_col': ['1.1', '2.2', '3.3', '4.4', '5.5'],
139        'date_col': ['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04', '2024-01-05'],
140        'bool_col': ['True', 'False', 'True', 'False', 'True'],
141        'cat_col': ['A', 'B', 'A', 'C', 'B']
142    })
143
144    print("원본 데이터 타입:")
145    print(df.dtypes)
146    print()
147
148    # 타입 변환
149    df['int_col'] = df['int_col'].astype(int)
150    df['float_col'] = df['float_col'].astype(float)
151    df['date_col'] = pd.to_datetime(df['date_col'])
152    df['bool_col'] = df['bool_col'].map({'True': True, 'False': False})
153    df['cat_col'] = df['cat_col'].astype('category')
154
155    print("변환 후 데이터 타입:")
156    print(df.dtypes)
157    print()
158
159    print("변환된 데이터:")
160    print(df)
161
162    # 메모리 사용량 비교
163    print(f"\n카테고리 타입 메모리 절약:")
164    print(f"  object 타입: {df['cat_col'].astype('object').memory_usage()} bytes")
165    print(f"  category 타입: {df['cat_col'].memory_usage()} bytes")
166
167
168# =============================================================================
169# 4. 중복 데이터 처리
170# =============================================================================
171def handle_duplicates():
172    """중복 데이터 처리"""
173    print("\n[4] 중복 데이터 처리")
174    print("=" * 50)
175
176    df = pd.DataFrame({
177        'name': ['Alice', 'Bob', 'Alice', 'Charlie', 'Bob', 'David'],
178        'age': [25, 30, 25, 35, 30, 40],
179        'city': ['Seoul', 'Busan', 'Seoul', 'Daegu', 'Busan', 'Seoul']
180    })
181
182    print("원본 데이터:")
183    print(df)
184
185    # 중복 확인
186    print(f"\n중복 행 수: {df.duplicated().sum()}")
187    print("중복된 행:")
188    print(df[df.duplicated()])
189
190    # 특정 열 기준 중복
191    print(f"\n'name' 기준 중복 수: {df.duplicated(subset=['name']).sum()}")
192
193    # 중복 제거
194    df_unique = df.drop_duplicates()
195    print(f"\n중복 제거 후:\n{df_unique}")
196
197    df_unique_name = df.drop_duplicates(subset=['name'], keep='first')
198    print(f"\n'name' 기준 중복 제거 (첫 번째 유지):\n{df_unique_name}")
199
200
201# =============================================================================
202# 5. 정규화와 표준화
203# =============================================================================
204def normalization_standardization():
205    """정규화와 표준화"""
206    print("\n[5] 정규화와 표준화")
207    print("=" * 50)
208
209    np.random.seed(42)
210
211    df = pd.DataFrame({
212        'feature1': np.random.normal(100, 15, 10),
213        'feature2': np.random.normal(50, 5, 10),
214        'feature3': np.random.exponential(10, 10)
215    })
216
217    print("원본 데이터 통계:")
218    print(df.describe().round(2))
219
220    # 1. Min-Max 정규화 (0-1 스케일링)
221    df_minmax = df.copy()
222    for col in df.columns:
223        min_val = df[col].min()
224        max_val = df[col].max()
225        df_minmax[col] = (df[col] - min_val) / (max_val - min_val)
226
227    print("\n1. Min-Max 정규화 (0-1):")
228    print(df_minmax.describe().round(4))
229
230    # 2. Z-score 표준화
231    df_zscore = df.copy()
232    for col in df.columns:
233        mean_val = df[col].mean()
234        std_val = df[col].std()
235        df_zscore[col] = (df[col] - mean_val) / std_val
236
237    print("\n2. Z-score 표준화:")
238    print(df_zscore.describe().round(4))
239
240    # 3. Robust 스케일링 (이상치에 강건)
241    df_robust = df.copy()
242    for col in df.columns:
243        median_val = df[col].median()
244        iqr = df[col].quantile(0.75) - df[col].quantile(0.25)
245        df_robust[col] = (df[col] - median_val) / iqr
246
247    print("\n3. Robust 스케일링 (IQR 기반):")
248    print(df_robust.describe().round(4))
249
250
251# =============================================================================
252# 6. 범주형 변수 인코딩
253# =============================================================================
254def categorical_encoding():
255    """범주형 변수 인코딩"""
256    print("\n[6] 범주형 변수 인코딩")
257    print("=" * 50)
258
259    df = pd.DataFrame({
260        'color': ['red', 'blue', 'green', 'blue', 'red'],
261        'size': ['S', 'M', 'L', 'M', 'S'],
262        'price': [100, 150, 200, 150, 100]
263    })
264
265    print("원본 데이터:")
266    print(df)
267
268    # 1. 라벨 인코딩
269    print("\n1. 라벨 인코딩:")
270    df_label = df.copy()
271    df_label['color_encoded'] = df_label['color'].astype('category').cat.codes
272    df_label['size_encoded'] = df_label['size'].map({'S': 0, 'M': 1, 'L': 2})
273    print(df_label)
274
275    # 2. 원-핫 인코딩
276    print("\n2. 원-핫 인코딩:")
277    df_onehot = pd.get_dummies(df, columns=['color', 'size'])
278    print(df_onehot)
279
280    # 3. 빈도 인코딩
281    print("\n3. 빈도 인코딩:")
282    df_freq = df.copy()
283    freq_map = df['color'].value_counts() / len(df)
284    df_freq['color_freq'] = df_freq['color'].map(freq_map)
285    print(df_freq)
286
287
288# =============================================================================
289# 7. 문자열 처리
290# =============================================================================
291def string_processing():
292    """문자열 처리"""
293    print("\n[7] 문자열 처리")
294    print("=" * 50)
295
296    df = pd.DataFrame({
297        'name': ['  John Doe  ', 'jane smith', 'BOB JONES', 'Alice Brown'],
298        'email': ['john@example.com', 'jane@EXAMPLE.COM', 'bob@Example.com', 'alice@example.com'],
299        'phone': ['010-1234-5678', '01098765432', '010 1111 2222', '010.3333.4444']
300    })
301
302    print("원본 데이터:")
303    print(df)
304
305    # 문자열 처리
306    df_clean = df.copy()
307
308    # 공백 제거 및 대소문자 정리
309    df_clean['name'] = df_clean['name'].str.strip().str.title()
310
311    # 소문자 변환
312    df_clean['email'] = df_clean['email'].str.lower()
313
314    # 전화번호 정규화
315    df_clean['phone'] = df_clean['phone'].str.replace(r'[^0-9]', '', regex=True)
316
317    print("\n정리된 데이터:")
318    print(df_clean)
319
320    # 문자열 추출
321    print("\n문자열 분리:")
322    df_clean[['first_name', 'last_name']] = df_clean['name'].str.split(' ', n=1, expand=True)
323    print(df_clean[['name', 'first_name', 'last_name']])
324
325
326# =============================================================================
327# 8. 날짜/시간 처리
328# =============================================================================
329def datetime_processing():
330    """날짜/시간 처리"""
331    print("\n[8] 날짜/시간 처리")
332    print("=" * 50)
333
334    df = pd.DataFrame({
335        'date_str': ['2024-01-15', '2024/02/20', '15-Mar-2024', '2024.04.10'],
336        'timestamp': pd.date_range('2024-01-01', periods=4, freq='ME'),
337        'value': [100, 150, 120, 180]
338    })
339
340    print("원본 데이터:")
341    print(df)
342
343    # 날짜 파싱
344    df['date_parsed'] = pd.to_datetime(df['date_str'])
345
346    # 날짜 요소 추출
347    df['year'] = df['timestamp'].dt.year
348    df['month'] = df['timestamp'].dt.month
349    df['day'] = df['timestamp'].dt.day
350    df['weekday'] = df['timestamp'].dt.day_name()
351    df['quarter'] = df['timestamp'].dt.quarter
352
353    print("\n날짜 요소 추출:")
354    print(df[['timestamp', 'year', 'month', 'day', 'weekday', 'quarter']])
355
356    # 날짜 연산
357    df['days_since'] = (pd.Timestamp('2024-12-31') - df['timestamp']).dt.days
358
359    print("\n날짜 연산 (2024-12-31까지 남은 일수):")
360    print(df[['timestamp', 'days_since']])
361
362
363# =============================================================================
364# 메인
365# =============================================================================
366def main():
367    print("=" * 60)
368    print("데이터 전처리 예제")
369    print("=" * 60)
370
371    handle_missing_values()
372    handle_outliers()
373    data_type_conversion()
374    handle_duplicates()
375    normalization_standardization()
376    categorical_encoding()
377    string_processing()
378    datetime_processing()
379
380    print("\n" + "=" * 60)
381    print("데이터 전처리 체크리스트")
382    print("=" * 60)
383    print("""
384    1. 데이터 로드 및 확인
385       - head(), info(), describe()
386       - shape, dtypes
387
388    2. 결측치 처리
389       - isnull().sum() 으로 확인
390       - 삭제 또는 대체 (평균, 중앙값, 최빈값, 보간)
391
392    3. 이상치 처리
393       - IQR 또는 Z-score로 탐지
394       - 제거, 경계값 대체, 또는 변환
395
396    4. 데이터 타입 변환
397       - 숫자, 날짜, 범주형으로 적절히 변환
398       - category 타입으로 메모리 절약
399
400    5. 중복 제거
401       - duplicated() 확인
402       - drop_duplicates()
403
404    6. 스케일링/정규화
405       - Min-Max: 범위가 중요할 때
406       - Z-score: 분포가 중요할 때
407       - Robust: 이상치가 있을 때
408
409    7. 범주형 인코딩
410       - 라벨 인코딩: 순서가 있는 변수
411       - 원-핫 인코딩: 순서가 없는 변수
412
413    8. 문자열/날짜 정리
414       - 공백 제거, 대소문자 통일
415       - 날짜 파싱 및 요소 추출
416    """)
417
418
419if __name__ == "__main__":
420    main()