07_transfer_learning.py

  1"""
  207. 전이학습 (Transfer Learning)
  3
  4사전 학습된 모델을 활용한 전이학습을 구현합니다.
  5"""
  6
  7import torch
  8import torch.nn as nn
  9import torch.nn.functional as F
 10from torch.utils.data import DataLoader, TensorDataset
 11import numpy as np
 12
 13print("=" * 60)
 14print("PyTorch 전이학습 (Transfer Learning)")
 15print("=" * 60)
 16
 17device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 18print(f"사용 장치: {device}")
 19
 20
 21# ============================================
 22# 1. 사전 학습 모델 로드
 23# ============================================
 24print("\n[1] 사전 학습 모델 로드")
 25print("-" * 40)
 26
 27try:
 28    import torchvision.models as models
 29
 30    # 다양한 사전 학습 모델
 31    print("사용 가능한 사전 학습 모델:")
 32    pretrained_models = {
 33        'ResNet-18': lambda: models.resnet18(weights='IMAGENET1K_V1'),
 34        'ResNet-50': lambda: models.resnet50(weights='IMAGENET1K_V2'),
 35        'EfficientNet-B0': lambda: models.efficientnet_b0(weights='IMAGENET1K_V1'),
 36        'MobileNet-V2': lambda: models.mobilenet_v2(weights='IMAGENET1K_V1'),
 37    }
 38
 39    for name, loader in pretrained_models.items():
 40        model = loader()
 41        params = sum(p.numel() for p in model.parameters())
 42        print(f"  {name}: {params:,} 파라미터")
 43
 44    TORCHVISION_AVAILABLE = True
 45except ImportError:
 46    print("torchvision이 설치되지 않았습니다. 데모 모드로 진행합니다.")
 47    TORCHVISION_AVAILABLE = False
 48
 49
 50# ============================================
 51# 2. 특성 추출 (Feature Extraction)
 52# ============================================
 53print("\n[2] 특성 추출 (Feature Extraction)")
 54print("-" * 40)
 55
 56if TORCHVISION_AVAILABLE:
 57    # ResNet-18 로드
 58    model = models.resnet18(weights='IMAGENET1K_V1')
 59
 60    # 원래 분류기 확인
 61    print(f"원래 FC 층: {model.fc}")
 62
 63    # 모든 가중치 고정
 64    for param in model.parameters():
 65        param.requires_grad = False
 66
 67    # 마지막 층 교체
 68    num_features = model.fc.in_features
 69    model.fc = nn.Sequential(
 70        nn.Dropout(0.5),
 71        nn.Linear(num_features, 10)  # 10 클래스
 72    )
 73
 74    print(f"새 FC 층: {model.fc}")
 75
 76    # 학습 가능한 파라미터 확인
 77    trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)
 78    total = sum(p.numel() for p in model.parameters())
 79    print(f"학습 가능 파라미터: {trainable:,} / {total:,} ({100*trainable/total:.1f}%)")
 80
 81
 82# ============================================
 83# 3. 미세 조정 (Fine-tuning)
 84# ============================================
 85print("\n[3] 미세 조정 (Fine-tuning)")
 86print("-" * 40)
 87
 88if TORCHVISION_AVAILABLE:
 89    # 새로운 모델 로드
 90    model = models.resnet18(weights='IMAGENET1K_V1')
 91
 92    # 마지막 층 교체
 93    model.fc = nn.Linear(model.fc.in_features, 10)
 94
 95    # 전체 학습 가능 (기본)
 96    print("전체 미세 조정:")
 97    trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)
 98    print(f"  학습 가능 파라미터: {trainable:,}")
 99
100
101# ============================================
102# 4. 점진적 해동 (Gradual Unfreezing)
103# ============================================
104print("\n[4] 점진적 해동 (Gradual Unfreezing)")
105print("-" * 40)
106
107if TORCHVISION_AVAILABLE:
108    model = models.resnet18(weights='IMAGENET1K_V1')
109
110    # 1단계: 모든 층 고정
111    for param in model.parameters():
112        param.requires_grad = False
113
114    # 마지막 층만 학습 가능
115    model.fc = nn.Linear(model.fc.in_features, 10)
116
117    def count_trainable(model):
118        return sum(p.numel() for p in model.parameters() if p.requires_grad)
119
120    print("점진적 해동 과정:")
121    print(f"  1단계 (FC만): {count_trainable(model):,} 파라미터")
122
123    # 2단계: layer4 해동
124    for param in model.layer4.parameters():
125        param.requires_grad = True
126    print(f"  2단계 (FC + layer4): {count_trainable(model):,} 파라미터")
127
128    # 3단계: layer3 해동
129    for param in model.layer3.parameters():
130        param.requires_grad = True
131    print(f"  3단계 (FC + layer4 + layer3): {count_trainable(model):,} 파라미터")
132
133    # 4단계: 전체 해동
134    for param in model.parameters():
135        param.requires_grad = True
136    print(f"  4단계 (전체): {count_trainable(model):,} 파라미터")
137
138
139# ============================================
140# 5. 차등 학습률 (Discriminative Learning Rates)
141# ============================================
142print("\n[5] 차등 학습률")
143print("-" * 40)
144
145if TORCHVISION_AVAILABLE:
146    model = models.resnet18(weights='IMAGENET1K_V1')
147    model.fc = nn.Linear(model.fc.in_features, 10)
148
149    # 층별 다른 학습률
150    optimizer = torch.optim.Adam([
151        {'params': model.conv1.parameters(), 'lr': 1e-5},
152        {'params': model.layer1.parameters(), 'lr': 2e-5},
153        {'params': model.layer2.parameters(), 'lr': 5e-5},
154        {'params': model.layer3.parameters(), 'lr': 1e-4},
155        {'params': model.layer4.parameters(), 'lr': 2e-4},
156        {'params': model.fc.parameters(), 'lr': 1e-3},
157    ])
158
159    print("층별 학습률:")
160    for i, group in enumerate(optimizer.param_groups):
161        print(f"  그룹 {i}: lr = {group['lr']}")
162
163
164# ============================================
165# 6. 데이터 전처리 (ImageNet 정규화)
166# ============================================
167print("\n[6] ImageNet 정규화")
168print("-" * 40)
169
170try:
171    from torchvision import transforms
172
173    # ImageNet 정규화 값
174    imagenet_mean = [0.485, 0.456, 0.406]
175    imagenet_std = [0.229, 0.224, 0.225]
176
177    train_transform = transforms.Compose([
178        transforms.RandomResizedCrop(224),
179        transforms.RandomHorizontalFlip(),
180        transforms.ToTensor(),
181        transforms.Normalize(imagenet_mean, imagenet_std)
182    ])
183
184    val_transform = transforms.Compose([
185        transforms.Resize(256),
186        transforms.CenterCrop(224),
187        transforms.ToTensor(),
188        transforms.Normalize(imagenet_mean, imagenet_std)
189    ])
190
191    print(f"ImageNet Mean: {imagenet_mean}")
192    print(f"ImageNet Std: {imagenet_std}")
193    print("훈련 변환: RandomResizedCrop, Flip, Normalize")
194    print("검증 변환: Resize, CenterCrop, Normalize")
195except:
196    print("transforms 로드 실패")
197
198
199# ============================================
200# 7. 전이학습 전체 파이프라인
201# ============================================
202print("\n[7] 전이학습 전체 파이프라인")
203print("-" * 40)
204
205class TransferLearningPipeline:
206    """전이학습 파이프라인"""
207
208    def __init__(self, backbone='resnet18', num_classes=10, strategy='finetune'):
209        self.strategy = strategy
210
211        if TORCHVISION_AVAILABLE:
212            # 백본 로드
213            if backbone == 'resnet18':
214                self.model = models.resnet18(weights='IMAGENET1K_V1')
215                in_features = self.model.fc.in_features
216                self.model.fc = nn.Linear(in_features, num_classes)
217            elif backbone == 'resnet50':
218                self.model = models.resnet50(weights='IMAGENET1K_V2')
219                in_features = self.model.fc.in_features
220                self.model.fc = nn.Linear(in_features, num_classes)
221            else:
222                raise ValueError(f"Unknown backbone: {backbone}")
223
224            # 전략에 따른 가중치 고정
225            if strategy == 'feature_extract':
226                self._freeze_backbone()
227            elif strategy == 'finetune':
228                pass  # 전체 학습 가능
229            elif strategy == 'gradual':
230                self._freeze_backbone()
231        else:
232            # 데모용 간단한 모델
233            self.model = nn.Sequential(
234                nn.Conv2d(3, 64, 3, padding=1),
235                nn.ReLU(),
236                nn.AdaptiveAvgPool2d(1),
237                nn.Flatten(),
238                nn.Linear(64, num_classes)
239            )
240
241    def _freeze_backbone(self):
242        """FC 제외 모든 층 고정"""
243        for name, param in self.model.named_parameters():
244            if 'fc' not in name:
245                param.requires_grad = False
246
247    def unfreeze_layer(self, layer_name):
248        """특정 층 해동"""
249        layer = getattr(self.model, layer_name, None)
250        if layer:
251            for param in layer.parameters():
252                param.requires_grad = True
253
254    def get_optimizer(self, lr=1e-4):
255        """최적화기 생성"""
256        if self.strategy == 'feature_extract':
257            # 학습 가능한 파라미터만
258            params = filter(lambda p: p.requires_grad, self.model.parameters())
259            return torch.optim.Adam(params, lr=lr)
260        else:
261            return torch.optim.Adam(self.model.parameters(), lr=lr)
262
263    def summary(self):
264        """모델 요약"""
265        trainable = sum(p.numel() for p in self.model.parameters() if p.requires_grad)
266        total = sum(p.numel() for p in self.model.parameters())
267        print(f"전략: {self.strategy}")
268        print(f"학습 가능: {trainable:,} / {total:,} ({100*trainable/total:.1f}%)")
269
270# 테스트
271print("\n전략별 비교:")
272for strategy in ['feature_extract', 'finetune']:
273    print(f"\n{strategy}:")
274    pipeline = TransferLearningPipeline('resnet18', 10, strategy)
275    pipeline.summary()
276
277
278# ============================================
279# 8. 더미 데이터로 학습 예시
280# ============================================
281print("\n[8] 학습 예시 (더미 데이터)")
282print("-" * 40)
283
284# 더미 데이터 생성
285X_train = torch.randn(100, 3, 224, 224)
286y_train = torch.randint(0, 10, (100,))
287
288train_dataset = TensorDataset(X_train, y_train)
289train_loader = DataLoader(train_dataset, batch_size=16, shuffle=True)
290
291# 파이프라인 설정
292pipeline = TransferLearningPipeline('resnet18', 10, 'feature_extract')
293model = pipeline.model.to(device)
294optimizer = pipeline.get_optimizer(lr=1e-3)
295criterion = nn.CrossEntropyLoss()
296
297# 간단한 학습
298model.train()
299for epoch in range(2):
300    epoch_loss = 0
301    for X_batch, y_batch in train_loader:
302        X_batch, y_batch = X_batch.to(device), y_batch.to(device)
303
304        outputs = model(X_batch)
305        loss = criterion(outputs, y_batch)
306
307        optimizer.zero_grad()
308        loss.backward()
309        optimizer.step()
310
311        epoch_loss += loss.item()
312
313    print(f"Epoch {epoch+1}: Loss = {epoch_loss/len(train_loader):.4f}")
314
315
316# ============================================
317# 9. 전이학습 체크리스트
318# ============================================
319print("\n[9] 전이학습 체크리스트")
320print("-" * 40)
321
322checklist = """
323✓ 사전 학습 모델 선택
324  - 작업과 유사한 데이터로 학습된 모델
325  - ImageNet 모델이 대부분의 경우 좋음
326
327✓ 전처리
328  - ImageNet 정규화 사용
329  - 모델 입력 크기 맞추기 (보통 224×224)
330
331✓ 전략 선택
332  - 데이터 적음: 특성 추출 (FC만 학습)
333  - 데이터 충분: 미세 조정 (전체 학습)
334  - 중간: 점진적 해동
335
336✓ 학습률
337  - 특성 추출: 1e-3 ~ 1e-2
338  - 미세 조정: 1e-5 ~ 1e-4
339  - 차등 학습률 고려
340
341✓ 정규화
342  - Dropout, Weight Decay
343  - 데이터 증강
344  - 조기 종료
345
346✓ 모드 전환
347  - 훈련: model.train()
348  - 평가: model.eval()
349"""
350print(checklist)
351
352
353# ============================================
354# 정리
355# ============================================
356print("\n" + "=" * 60)
357print("전이학습 정리")
358print("=" * 60)
359
360summary = """
361전이학습 전략:
362
3631. 특성 추출 (Feature Extraction)
364   - 사전 학습 가중치 고정
365   - 마지막 층만 학습
366   - 데이터 적을 때 적합
367
3682. 미세 조정 (Fine-tuning)
369   - 전체 네트워크 학습
370   - 낮은 학습률 사용
371   - 데이터 충분할 때
372
3733. 점진적 해동 (Gradual Unfreezing)
374   - 후반 층부터 순차적 해동
375   - 균형 잡힌 접근
376
377핵심 코드:
378    # 가중치 고정
379    for param in model.parameters():
380        param.requires_grad = False
381
382    # 마지막 층 교체
383    model.fc = nn.Linear(in_features, num_classes)
384
385    # ImageNet 정규화
386    transforms.Normalize([0.485, 0.456, 0.406],
387                        [0.229, 0.224, 0.225])
388"""
389print(summary)
390print("=" * 60)