04_statistics.py - Examples

  1"""
  2통계 분석 (Statistical Analysis)
  3Basic Statistical Analysis with Python
  4
  5기초 통계 분석 방법을 다룹니다.
  6"""
  7
  8import numpy as np
  9import pandas as pd
 10from scipy import stats
 11
 12
 13# =============================================================================
 14# 1. 기술 통계 (Descriptive Statistics)
 15# =============================================================================
 16def descriptive_stats():
 17    """기술 통계량"""
 18    print("\n[1] 기술 통계량")
 19    print("=" * 50)
 20
 21    np.random.seed(42)
 22    data = np.random.normal(100, 15, 1000)  # 평균 100, 표준편차 15
 23
 24    print(f"데이터 크기: {len(data)}")
 25    print(f"\n중심 경향:")
 26    print(f"  평균 (Mean):    {np.mean(data):.2f}")
 27    print(f"  중앙값 (Median): {np.median(data):.2f}")
 28    print(f"  최빈값 (Mode):   {stats.mode(data.round(), keepdims=False).mode:.2f}")
 29
 30    print(f"\n산포도:")
 31    print(f"  분산 (Variance): {np.var(data, ddof=1):.2f}")
 32    print(f"  표준편차 (Std):  {np.std(data, ddof=1):.2f}")
 33    print(f"  범위 (Range):    {np.ptp(data):.2f}")
 34    print(f"  IQR:             {stats.iqr(data):.2f}")
 35
 36    print(f"\n분위수:")
 37    percentiles = [25, 50, 75, 90, 95, 99]
 38    for p in percentiles:
 39        print(f"  {p}th percentile: {np.percentile(data, p):.2f}")
 40
 41    print(f"\n형태:")
 42    print(f"  왜도 (Skewness):  {stats.skew(data):.4f}")
 43    print(f"  첨도 (Kurtosis):  {stats.kurtosis(data):.4f}")
 44
 45
 46# =============================================================================
 47# 2. 상관 분석 (Correlation Analysis)
 48# =============================================================================
 49def correlation_analysis():
 50    """상관 분석"""
 51    print("\n[2] 상관 분석")
 52    print("=" * 50)
 53
 54    np.random.seed(42)
 55    n = 100
 56
 57    # 상관된 데이터 생성
 58    x = np.random.randn(n)
 59    y = 2 * x + np.random.randn(n) * 0.5  # 강한 양의 상관
 60    z = -0.5 * x + np.random.randn(n)     # 약한 음의 상관
 61    w = np.random.randn(n)                 # 무상관
 62
 63    # 피어슨 상관계수
 64    print("피어슨 상관계수 (Pearson):")
 65    corr_xy, p_xy = stats.pearsonr(x, y)
 66    corr_xz, p_xz = stats.pearsonr(x, z)
 67    corr_xw, p_xw = stats.pearsonr(x, w)
 68
 69    print(f"  x-y: r = {corr_xy:.4f}, p = {p_xy:.4e}")
 70    print(f"  x-z: r = {corr_xz:.4f}, p = {p_xz:.4e}")
 71    print(f"  x-w: r = {corr_xw:.4f}, p = {p_xw:.4e}")
 72
 73    # 스피어만 순위 상관계수
 74    print("\n스피어만 순위 상관계수 (Spearman):")
 75    corr_s, p_s = stats.spearmanr(x, y)
 76    print(f"  x-y: ρ = {corr_s:.4f}, p = {p_s:.4e}")
 77
 78    # DataFrame 상관 행렬
 79    df = pd.DataFrame({'x': x, 'y': y, 'z': z, 'w': w})
 80    print("\n상관 행렬:")
 81    print(df.corr().round(4))
 82
 83
 84# =============================================================================
 85# 3. 가설 검정 기초
 86# =============================================================================
 87def hypothesis_testing():
 88    """가설 검정"""
 89    print("\n[3] 가설 검정 기초")
 90    print("=" * 50)
 91
 92    np.random.seed(42)
 93
 94    # 단일 표본 t-검정
 95    print("\n[단일 표본 t-검정]")
 96    sample = np.random.normal(105, 15, 50)  # 실제 평균 105
 97    t_stat, p_value = stats.ttest_1samp(sample, 100)  # H0: μ = 100
 98
 99    print(f"표본 평균: {np.mean(sample):.2f}")
100    print(f"H0: μ = 100")
101    print(f"t-통계량: {t_stat:.4f}")
102    print(f"p-value: {p_value:.4f}")
103    print(f"결론: {'H0 기각' if p_value < 0.05 else 'H0 채택'} (α=0.05)")
104
105    # 독립 표본 t-검정
106    print("\n[독립 표본 t-검정]")
107    group1 = np.random.normal(100, 10, 50)
108    group2 = np.random.normal(105, 10, 50)
109
110    t_stat, p_value = stats.ttest_ind(group1, group2)
111
112    print(f"그룹1 평균: {np.mean(group1):.2f}")
113    print(f"그룹2 평균: {np.mean(group2):.2f}")
114    print(f"H0: μ1 = μ2")
115    print(f"t-통계량: {t_stat:.4f}")
116    print(f"p-value: {p_value:.4f}")
117    print(f"결론: {'H0 기각' if p_value < 0.05 else 'H0 채택'} (α=0.05)")
118
119    # 대응 표본 t-검정
120    print("\n[대응 표본 t-검정]")
121    before = np.random.normal(100, 10, 30)
122    after = before + np.random.normal(5, 3, 30)  # 평균 5 증가
123
124    t_stat, p_value = stats.ttest_rel(before, after)
125
126    print(f"사전 평균: {np.mean(before):.2f}")
127    print(f"사후 평균: {np.mean(after):.2f}")
128    print(f"H0: μ_차이 = 0")
129    print(f"t-통계량: {t_stat:.4f}")
130    print(f"p-value: {p_value:.4f}")
131    print(f"결론: {'H0 기각' if p_value < 0.05 else 'H0 채택'} (α=0.05)")
132
133
134# =============================================================================
135# 4. 카이제곱 검정
136# =============================================================================
137def chi_square_test():
138    """카이제곱 검정"""
139    print("\n[4] 카이제곱 검정")
140    print("=" * 50)
141
142    # 적합도 검정
143    print("\n[적합도 검정]")
144    observed = np.array([18, 22, 20, 15, 25])  # 관측 빈도
145    expected = np.array([20, 20, 20, 20, 20])  # 기대 빈도
146
147    chi2, p_value = stats.chisquare(observed, expected)
148
149    print(f"관측값: {observed}")
150    print(f"기대값: {expected}")
151    print(f"χ² = {chi2:.4f}")
152    print(f"p-value = {p_value:.4f}")
153    print(f"결론: {'분포 다름' if p_value < 0.05 else '분포 같음'}")
154
155    # 독립성 검정
156    print("\n[독립성 검정 (교차표)]")
157    contingency_table = np.array([
158        [30, 20, 10],  # 그룹 A
159        [15, 25, 20],  # 그룹 B
160        [25, 15, 25]   # 그룹 C
161    ])
162
163    print("교차표:")
164    print(contingency_table)
165
166    chi2, p_value, dof, expected = stats.chi2_contingency(contingency_table)
167
168    print(f"\nχ² = {chi2:.4f}")
169    print(f"자유도 = {dof}")
170    print(f"p-value = {p_value:.4f}")
171    print(f"결론: {'독립 아님' if p_value < 0.05 else '독립'}")
172
173
174# =============================================================================
175# 5. 분산 분석 (ANOVA)
176# =============================================================================
177def anova_test():
178    """ANOVA"""
179    print("\n[5] 분산 분석 (ANOVA)")
180    print("=" * 50)
181
182    np.random.seed(42)
183
184    # 세 그룹 데이터
185    group1 = np.random.normal(100, 10, 30)
186    group2 = np.random.normal(105, 10, 30)
187    group3 = np.random.normal(110, 10, 30)
188
189    print(f"그룹1 평균: {np.mean(group1):.2f}")
190    print(f"그룹2 평균: {np.mean(group2):.2f}")
191    print(f"그룹3 평균: {np.mean(group3):.2f}")
192
193    # 일원 분산 분석
194    f_stat, p_value = stats.f_oneway(group1, group2, group3)
195
196    print(f"\n일원 분산 분석 (One-way ANOVA)")
197    print(f"H0: μ1 = μ2 = μ3")
198    print(f"F-통계량: {f_stat:.4f}")
199    print(f"p-value: {p_value:.4f}")
200    print(f"결론: {'그룹 간 차이 있음' if p_value < 0.05 else '그룹 간 차이 없음'}")
201
202    # Kruskal-Wallis (비모수)
203    print("\n[비모수 검정: Kruskal-Wallis]")
204    h_stat, p_value = stats.kruskal(group1, group2, group3)
205    print(f"H-통계량: {h_stat:.4f}")
206    print(f"p-value: {p_value:.4f}")
207
208
209# =============================================================================
210# 6. 정규성 검정
211# =============================================================================
212def normality_test():
213    """정규성 검정"""
214    print("\n[6] 정규성 검정")
215    print("=" * 50)
216
217    np.random.seed(42)
218
219    # 정규 분포 데이터
220    normal_data = np.random.normal(0, 1, 100)
221
222    # 비정규 분포 데이터 (지수 분포)
223    skewed_data = np.random.exponential(2, 100)
224
225    print("[정규 분포 데이터]")
226    print(f"왜도: {stats.skew(normal_data):.4f}")
227    print(f"첨도: {stats.kurtosis(normal_data):.4f}")
228
229    # Shapiro-Wilk 검정
230    stat, p = stats.shapiro(normal_data)
231    print(f"Shapiro-Wilk: W={stat:.4f}, p={p:.4f}")
232
233    # Kolmogorov-Smirnov 검정
234    stat, p = stats.kstest(normal_data, 'norm')
235    print(f"K-S 검정: D={stat:.4f}, p={p:.4f}")
236
237    print(f"\n결론: {'정규 분포' if p > 0.05 else '정규 분포 아님'}")
238
239    print("\n[비정규 분포 데이터 (지수 분포)]")
240    print(f"왜도: {stats.skew(skewed_data):.4f}")
241    print(f"첨도: {stats.kurtosis(skewed_data):.4f}")
242
243    stat, p = stats.shapiro(skewed_data)
244    print(f"Shapiro-Wilk: W={stat:.4f}, p={p:.4f}")
245    print(f"결론: {'정규 분포' if p > 0.05 else '정규 분포 아님'}")
246
247
248# =============================================================================
249# 7. 신뢰 구간
250# =============================================================================
251def confidence_interval():
252    """신뢰 구간"""
253    print("\n[7] 신뢰 구간")
254    print("=" * 50)
255
256    np.random.seed(42)
257    sample = np.random.normal(100, 15, 50)
258
259    mean = np.mean(sample)
260    sem = stats.sem(sample)  # 표준 오차
261
262    # 95% 신뢰 구간
263    ci_95 = stats.t.interval(0.95, len(sample)-1, loc=mean, scale=sem)
264    ci_99 = stats.t.interval(0.99, len(sample)-1, loc=mean, scale=sem)
265
266    print(f"표본 크기: {len(sample)}")
267    print(f"표본 평균: {mean:.2f}")
268    print(f"표준 오차: {sem:.2f}")
269    print(f"\n95% 신뢰 구간: ({ci_95[0]:.2f}, {ci_95[1]:.2f})")
270    print(f"99% 신뢰 구간: ({ci_99[0]:.2f}, {ci_99[1]:.2f})")
271
272    # 비율의 신뢰 구간
273    print("\n[비율의 신뢰 구간]")
274    n_success = 70
275    n_total = 100
276    p_hat = n_success / n_total
277    se_p = np.sqrt(p_hat * (1 - p_hat) / n_total)
278    z_95 = 1.96
279
280    ci_low = p_hat - z_95 * se_p
281    ci_high = p_hat + z_95 * se_p
282
283    print(f"성공: {n_success}/{n_total} = {p_hat:.2f}")
284    print(f"95% 신뢰 구간: ({ci_low:.4f}, {ci_high:.4f})")
285
286
287# =============================================================================
288# 8. 효과 크기
289# =============================================================================
290def effect_size():
291    """효과 크기 계산"""
292    print("\n[8] 효과 크기")
293    print("=" * 50)
294
295    np.random.seed(42)
296
297    group1 = np.random.normal(100, 15, 50)
298    group2 = np.random.normal(110, 15, 50)
299
300    # Cohen's d
301    def cohens_d(g1, g2):
302        n1, n2 = len(g1), len(g2)
303        var1, var2 = np.var(g1, ddof=1), np.var(g2, ddof=1)
304        pooled_std = np.sqrt(((n1-1)*var1 + (n2-1)*var2) / (n1+n2-2))
305        return (np.mean(g1) - np.mean(g2)) / pooled_std
306
307    d = cohens_d(group2, group1)
308
309    print(f"그룹1 평균: {np.mean(group1):.2f}")
310    print(f"그룹2 평균: {np.mean(group2):.2f}")
311    print(f"\nCohen's d: {d:.4f}")
312
313    # 효과 크기 해석
314    if abs(d) < 0.2:
315        interpretation = "효과 없음"
316    elif abs(d) < 0.5:
317        interpretation = "작은 효과"
318    elif abs(d) < 0.8:
319        interpretation = "중간 효과"
320    else:
321        interpretation = "큰 효과"
322
323    print(f"해석: {interpretation}")
324
325    # 상관계수를 효과 크기로
326    x = np.random.randn(100)
327    y = 0.5 * x + np.random.randn(100) * 0.5
328    r, _ = stats.pearsonr(x, y)
329    r_squared = r ** 2
330
331    print(f"\n상관계수 r: {r:.4f}")
332    print(f"결정계수 r²: {r_squared:.4f}")
333    print(f"(설명 분산 비율: {r_squared*100:.1f}%)")
334
335
336# =============================================================================
337# 메인
338# =============================================================================
339def main():
340    print("=" * 60)
341    print("통계 분석 예제")
342    print("=" * 60)
343
344    descriptive_stats()
345    correlation_analysis()
346    hypothesis_testing()
347    chi_square_test()
348    anova_test()
349    normality_test()
350    confidence_interval()
351    effect_size()
352
353    print("\n" + "=" * 60)
354    print("통계 분석 핵심 정리")
355    print("=" * 60)
356    print("""
357    기술 통계:
358    - 중심: 평균, 중앙값, 최빈값
359    - 산포: 분산, 표준편차, IQR
360    - 형태: 왜도, 첨도
361
362    추론 통계:
363    - t-검정: 평균 비교 (1표본, 독립, 대응)
364    - ANOVA: 3개 이상 그룹 평균 비교
365    - 카이제곱: 범주형 변수 관계
366    - 상관분석: 연속형 변수 관계
367
368    가설 검정 절차:
369    1. 귀무가설(H0)과 대립가설(H1) 설정
370    2. 유의수준 결정 (보통 α=0.05)
371    3. 검정 통계량 계산
372    4. p-value와 유의수준 비교
373    5. 결론 도출
374
375    p-value 해석:
376    - p < 0.05: 통계적으로 유의함
377    - p ≥ 0.05: 통계적으로 유의하지 않음
378
379    주의:
380    - 통계적 유의성 ≠ 실질적 중요성
381    - 효과 크기도 함께 보고
382    - 다중 비교 시 보정 필요 (Bonferroni 등)
383    """)
384
385
386if __name__ == "__main__":
387    main()