04_monte_carlo.py

  1"""
  2몬테카를로 방법 (Monte Carlo Methods) 구현
  3- First-visit MC Prediction
  4- Every-visit MC Prediction
  5- MC Control (Exploring Starts)
  6- On-policy MC Control (ε-greedy)
  7- Off-policy MC (Importance Sampling)
  8"""
  9import numpy as np
 10import matplotlib.pyplot as plt
 11from collections import defaultdict
 12import gymnasium as gym
 13
 14
 15def calculate_returns(episode, gamma=0.99):
 16    """
 17    에피소드에서 각 시점의 리턴 계산
 18
 19    Args:
 20        episode: [(state, action, reward), ...] 형태의 리스트
 21        gamma: 할인율
 22
 23    Returns:
 24        returns: [(state, G), ...] 각 시점의 리턴
 25    """
 26    G = 0  # 리턴 초기화
 27    returns = []
 28
 29    # 역순으로 계산 (효율적인 계산)
 30    for t in range(len(episode) - 1, -1, -1):
 31        state, action, reward = episode[t]
 32        G = reward + gamma * G  # 할인된 리턴
 33        returns.insert(0, (state, G))
 34
 35    return returns
 36
 37
 38def first_visit_mc_prediction(env, policy, n_episodes=10000, gamma=0.99):
 39    """
 40    First-visit MC 정책 평가
 41
 42    Args:
 43        env: Gymnasium 환경
 44        policy: 정책 함수 policy(state) -> action
 45        n_episodes: 에피소드 수
 46        gamma: 할인율
 47
 48    Returns:
 49        V: 상태 가치 함수
 50    """
 51    # 각 상태의 리턴 합과 방문 횟수
 52    returns_sum = defaultdict(float)
 53    returns_count = defaultdict(int)
 54    V = defaultdict(float)
 55
 56    for episode_num in range(n_episodes):
 57        # 에피소드 생성
 58        episode = []
 59        state, _ = env.reset()
 60        done = False
 61
 62        while not done:
 63            action = policy(state)
 64            next_state, reward, terminated, truncated, _ = env.step(action)
 65            episode.append((state, action, reward))
 66            state = next_state
 67            done = terminated or truncated
 68
 69        # First-visit: 각 상태의 첫 방문 인덱스 찾기
 70        visited = set()
 71        G = 0
 72
 73        # 역순으로 리턴 계산
 74        for t in range(len(episode) - 1, -1, -1):
 75            state_t, action_t, reward_t = episode[t]
 76
 77            G = gamma * G + reward_t
 78
 79            # First-visit 체크
 80            if state_t not in visited:
 81                visited.add(state_t)
 82                returns_sum[state_t] += G
 83                returns_count[state_t] += 1
 84                V[state_t] = returns_sum[state_t] / returns_count[state_t]
 85
 86        if (episode_num + 1) % 2000 == 0:
 87            print(f"Episode {episode_num + 1}/{n_episodes}")
 88
 89    return dict(V)
 90
 91
 92def every_visit_mc_prediction(env, policy, n_episodes=10000, gamma=0.99):
 93    """
 94    Every-visit MC 정책 평가
 95
 96    모든 방문을 카운트
 97    """
 98    returns_sum = defaultdict(float)
 99    returns_count = defaultdict(int)
100    V = defaultdict(float)
101
102    for episode_num in range(n_episodes):
103        episode = []
104        state, _ = env.reset()
105        done = False
106
107        while not done:
108            action = policy(state)
109            next_state, reward, terminated, truncated, _ = env.step(action)
110            episode.append((state, action, reward))
111            state = next_state
112            done = terminated or truncated
113
114        G = 0
115
116        # Every-visit: 모든 방문에서 업데이트
117        for t in range(len(episode) - 1, -1, -1):
118            state_t, action_t, reward_t = episode[t]
119
120            G = gamma * G + reward_t
121
122            # 모든 방문 카운트
123            returns_sum[state_t] += G
124            returns_count[state_t] += 1
125            V[state_t] = returns_sum[state_t] / returns_count[state_t]
126
127        if (episode_num + 1) % 2000 == 0:
128            print(f"Episode {episode_num + 1}/{n_episodes}")
129
130    return dict(V)
131
132
133def epsilon_greedy_policy(Q, state, n_actions, epsilon=0.1):
134    """
135    ε-탐욕 행동 선택
136
137    Args:
138        Q: 행동 가치 함수
139        state: 현재 상태
140        n_actions: 행동 수
141        epsilon: 탐험 확률
142
143    Returns:
144        action: 선택된 행동
145    """
146    if np.random.random() < epsilon:
147        # 탐험: 랜덤 행동
148        return np.random.randint(n_actions)
149    else:
150        # 활용: 최선의 행동
151        return np.argmax(Q[state])
152
153
154def mc_on_policy_control(env, n_episodes=100000, gamma=0.99,
155                         epsilon=0.1, epsilon_decay=0.9999):
156    """
157    On-policy MC 제어 (ε-greedy)
158
159    Args:
160        env: Gymnasium 환경
161        n_episodes: 에피소드 수
162        gamma: 할인율
163        epsilon: 탐험율
164        epsilon_decay: epsilon 감소율
165
166    Returns:
167        Q: 행동 가치 함수
168        policy: 학습된 정책
169        episode_rewards: 에피소드별 보상
170    """
171    n_actions = env.action_space.n
172
173    Q = defaultdict(lambda: np.zeros(n_actions))
174    returns_sum = defaultdict(lambda: np.zeros(n_actions))
175    returns_count = defaultdict(lambda: np.zeros(n_actions))
176
177    episode_rewards = []
178
179    print("MC On-Policy Control 학습 시작...")
180    for episode_num in range(n_episodes):
181        episode = []
182        state, _ = env.reset()
183        done = False
184        total_reward = 0
185
186        # ε-greedy 정책으로 에피소드 생성
187        while not done:
188            action = epsilon_greedy_policy(Q, state, n_actions, epsilon)
189            next_state, reward, terminated, truncated, _ = env.step(action)
190
191            episode.append((state, action, reward))
192            total_reward += reward
193
194            state = next_state
195            done = terminated or truncated
196
197        episode_rewards.append(total_reward)
198
199        # Q 업데이트 (First-visit)
200        G = 0
201        visited = set()
202
203        for t in range(len(episode) - 1, -1, -1):
204            state_t, action_t, reward_t = episode[t]
205            G = gamma * G + reward_t
206
207            if (state_t, action_t) not in visited:
208                visited.add((state_t, action_t))
209                returns_sum[state_t][action_t] += G
210                returns_count[state_t][action_t] += 1
211                Q[state_t][action_t] = (returns_sum[state_t][action_t] /
212                                        returns_count[state_t][action_t])
213
214        # epsilon 감소
215        epsilon = max(0.01, epsilon * epsilon_decay)
216
217        if (episode_num + 1) % 10000 == 0:
218            avg_reward = np.mean(episode_rewards[-1000:])
219            print(f"Episode {episode_num + 1}: avg_reward = {avg_reward:.3f}, "
220                  f"epsilon = {epsilon:.4f}")
221
222    # 최종 탐욕적 정책
223    policy = {}
224    for state in Q:
225        policy[state] = np.argmax(Q[state])
226
227    return dict(Q), policy, episode_rewards
228
229
230def mc_off_policy_control(env, n_episodes=100000, gamma=0.99):
231    """
232    Off-policy MC 제어 (Weighted Importance Sampling)
233
234    행동 정책: ε-greedy (탐험)
235    목표 정책: greedy (활용)
236
237    Returns:
238        Q: 행동 가치 함수
239        target_policy: 목표 정책
240        episode_rewards: 에피소드별 보상
241    """
242    n_actions = env.action_space.n
243
244    Q = defaultdict(lambda: np.zeros(n_actions))
245    C = defaultdict(lambda: np.zeros(n_actions))  # 가중치 합
246
247    episode_rewards = []
248    epsilon = 0.1  # 행동 정책의 epsilon
249
250    print("MC Off-Policy Control 학습 시작...")
251    for episode_num in range(n_episodes):
252        # 행동 정책 (ε-greedy)으로 에피소드 생성
253        episode = []
254        state, _ = env.reset()
255        done = False
256        total_reward = 0
257
258        while not done:
259            action = epsilon_greedy_policy(Q, state, n_actions, epsilon)
260            next_state, reward, terminated, truncated, _ = env.step(action)
261            episode.append((state, action, reward))
262            total_reward += reward
263            state = next_state
264            done = terminated or truncated
265
266        episode_rewards.append(total_reward)
267
268        G = 0
269        W = 1.0  # 중요도 샘플링 가중치
270
271        # 역순 처리
272        for t in range(len(episode) - 1, -1, -1):
273            state_t, action_t, reward_t = episode[t]
274            G = gamma * G + reward_t
275
276            # 가중 중요도 샘플링 업데이트
277            C[state_t][action_t] += W
278            Q[state_t][action_t] += (W / C[state_t][action_t] *
279                                     (G - Q[state_t][action_t]))
280
281            # 목표 정책에서의 행동 (greedy)
282            target_action = np.argmax(Q[state_t])
283
284            # 행동이 목표 정책과 다르면 중단
285            if action_t != target_action:
286                break
287
288            # 중요도 비율 업데이트
289            # π(a|s) = 1 (결정적), b(a|s) = (1-ε) + ε/|A| or ε/|A|
290            if action_t == target_action:
291                b_prob = (1 - epsilon) + epsilon / n_actions
292            else:
293                b_prob = epsilon / n_actions
294
295            W = W * 1.0 / b_prob
296
297        if (episode_num + 1) % 10000 == 0:
298            avg_reward = np.mean(episode_rewards[-1000:])
299            print(f"Episode {episode_num + 1}: avg_reward = {avg_reward:.3f}")
300
301    # 최종 탐욕적 정책
302    target_policy = {}
303    for state in Q:
304        target_policy[state] = np.argmax(Q[state])
305
306    return dict(Q), target_policy, episode_rewards
307
308
309def blackjack_example():
310    """블랙잭 환경에서 MC 학습"""
311    print("\n" + "=" * 60)
312    print("블랙잭 예제 - MC On-Policy Control")
313    print("=" * 60)
314
315    env = gym.make('Blackjack-v1', sab=True)
316
317    n_actions = env.action_space.n
318    Q = defaultdict(lambda: np.zeros(n_actions))
319    returns_sum = defaultdict(lambda: np.zeros(n_actions))
320    returns_count = defaultdict(lambda: np.zeros(n_actions))
321
322    n_episodes = 500000
323    gamma = 1.0
324    epsilon = 0.1
325
326    wins = 0
327    losses = 0
328    draws = 0
329
330    print(f"\n{n_episodes} 에피소드 학습 중...")
331    for ep in range(n_episodes):
332        episode = []
333        state, _ = env.reset()
334        done = False
335
336        # 에피소드 생성
337        while not done:
338            action = epsilon_greedy_policy(Q, state, n_actions, epsilon)
339            next_state, reward, terminated, truncated, _ = env.step(action)
340            episode.append((state, action, reward))
341            state = next_state
342            done = terminated or truncated
343
344        # 결과 기록
345        final_reward = episode[-1][2]
346        if final_reward == 1:
347            wins += 1
348        elif final_reward == -1:
349            losses += 1
350        else:
351            draws += 1
352
353        # Q 업데이트
354        G = 0
355        visited = set()
356
357        for t in range(len(episode) - 1, -1, -1):
358            state_t, action_t, reward_t = episode[t]
359            G = gamma * G + reward_t
360
361            if (state_t, action_t) not in visited:
362                visited.add((state_t, action_t))
363                returns_sum[state_t][action_t] += G
364                returns_count[state_t][action_t] += 1
365                Q[state_t][action_t] = (returns_sum[state_t][action_t] /
366                                        returns_count[state_t][action_t])
367
368        if (ep + 1) % 100000 == 0:
369            win_rate = wins / (ep + 1)
370            print(f"Episode {ep + 1}: 승률 = {win_rate:.3f}")
371
372    env.close()
373
374    # 최종 통계
375    print("\n학습 완료!")
376    print(f"총 에피소드: {n_episodes}")
377    print(f"승리: {wins} ({wins/n_episodes*100:.1f}%)")
378    print(f"패배: {losses} ({losses/n_episodes*100:.1f}%)")
379    print(f"무승부: {draws} ({draws/n_episodes*100:.1f}%)")
380    print(f"학습된 상태-행동 쌍 수: {len(Q)}")
381
382    # 정책 시각화
383    visualize_blackjack_policy(Q)
384
385    return Q
386
387
388def visualize_blackjack_policy(Q):
389    """블랙잭 정책 시각화"""
390    print("\n" + "=" * 60)
391    print("학습된 블랙잭 정책")
392    print("=" * 60)
393    print("H: Hit (카드 추가), S: Stick (패 유지)")
394
395    print("\n=== 사용 가능한 에이스가 없을 때 ===")
396    print("       딜러 카드")
397    print("합계   A  2  3  4  5  6  7  8  9  10")
398    print("-" * 50)
399
400    for player_sum in range(21, 11, -1):
401        row = f"{player_sum:2d}:   "
402        for dealer in range(1, 11):
403            state = (player_sum, dealer, False)
404            if state in Q:
405                action = np.argmax(Q[state])
406                row += "H  " if action == 1 else "S  "
407            else:
408                row += "?  "
409        print(row)
410
411    print("\n=== 사용 가능한 에이스가 있을 때 ===")
412    print("       딜러 카드")
413    print("합계   A  2  3  4  5  6  7  8  9  10")
414    print("-" * 50)
415
416    for player_sum in range(21, 11, -1):
417        row = f"{player_sum:2d}:   "
418        for dealer in range(1, 11):
419            state = (player_sum, dealer, True)
420            if state in Q:
421                action = np.argmax(Q[state])
422                row += "H  " if action == 1 else "S  "
423            else:
424                row += "?  "
425        print(row)
426
427
428def plot_learning_curve(episode_rewards, window=1000):
429    """학습 곡선 시각화"""
430    # 이동 평균 계산
431    moving_avg = []
432    for i in range(len(episode_rewards)):
433        start = max(0, i - window + 1)
434        moving_avg.append(np.mean(episode_rewards[start:i+1]))
435
436    plt.figure(figsize=(12, 6))
437    plt.plot(moving_avg, label=f'Moving Average (window={window})')
438    plt.xlabel('Episode')
439    plt.ylabel('Average Reward')
440    plt.title('Monte Carlo Learning Curve')
441    plt.legend()
442    plt.grid(True)
443    plt.tight_layout()
444    plt.savefig('mc_learning_curve.png', dpi=150)
445    print("학습 곡선 저장: mc_learning_curve.png")
446
447
448def compare_mc_methods():
449    """MC 방법 비교"""
450    print("=" * 60)
451    print("몬테카를로 방법 비교")
452    print("=" * 60)
453
454    env = gym.make('Blackjack-v1', sab=True)
455
456    # 1. First-visit MC Prediction
457    print("\n[1] First-visit MC Prediction (랜덤 정책)")
458    print("-" * 60)
459
460    def random_policy(state):
461        return env.action_space.sample()
462
463    V_first = first_visit_mc_prediction(env, random_policy, n_episodes=10000)
464    print(f"추정된 상태 수: {len(V_first)}")
465    print(f"샘플 상태 가치: {list(V_first.items())[:5]}")
466
467    # 2. Every-visit MC Prediction
468    print("\n[2] Every-visit MC Prediction (랜덤 정책)")
469    print("-" * 60)
470    V_every = every_visit_mc_prediction(env, random_policy, n_episodes=10000)
471    print(f"추정된 상태 수: {len(V_every)}")
472
473    # 3. On-policy MC Control
474    print("\n[3] On-policy MC Control (ε-greedy)")
475    print("-" * 60)
476    Q_on, policy_on, rewards_on = mc_on_policy_control(
477        env, n_episodes=50000, gamma=1.0, epsilon=0.1
478    )
479    print(f"학습된 상태-행동 쌍 수: {len(Q_on)}")
480    print(f"최종 평균 보상: {np.mean(rewards_on[-1000:]):.3f}")
481
482    # 4. Off-policy MC Control
483    print("\n[4] Off-policy MC Control (Importance Sampling)")
484    print("-" * 60)
485    Q_off, policy_off, rewards_off = mc_off_policy_control(
486        env, n_episodes=50000, gamma=1.0
487    )
488    print(f"학습된 상태-행동 쌍 수: {len(Q_off)}")
489    print(f"최종 평균 보상: {np.mean(rewards_off[-1000:]):.3f}")
490
491    env.close()
492
493    # 학습 곡선 비교
494    plt.figure(figsize=(12, 6))
495
496    window = 1000
497    moving_avg_on = [np.mean(rewards_on[max(0, i-window+1):i+1])
498                     for i in range(len(rewards_on))]
499    moving_avg_off = [np.mean(rewards_off[max(0, i-window+1):i+1])
500                      for i in range(len(rewards_off))]
501
502    plt.plot(moving_avg_on, label='On-policy MC', alpha=0.7)
503    plt.plot(moving_avg_off, label='Off-policy MC', alpha=0.7)
504    plt.xlabel('Episode')
505    plt.ylabel('Average Reward')
506    plt.title('On-policy vs Off-policy MC Control')
507    plt.legend()
508    plt.grid(True)
509    plt.tight_layout()
510    plt.savefig('mc_comparison.png', dpi=150)
511    print("\n비교 그래프 저장: mc_comparison.png")
512
513    return Q_on, policy_on, Q_off, policy_off
514
515
516if __name__ == "__main__":
517    # MC 방법 비교
518    try:
519        Q_on, policy_on, Q_off, policy_off = compare_mc_methods()
520
521        # 블랙잭 예제
522        Q_blackjack = blackjack_example()
523
524    except Exception as e:
525        print(f"\n실행 실패: {e}")
526        print("gymnasium 패키지가 설치되어 있는지 확인하세요: pip install gymnasium")
527
528    print("\n" + "=" * 60)
529    print("몬테카를로 방법 예제 완료!")
530    print("=" * 60)