模型概览
| 版本 | 图像输入 | CNN 层数 | BN | 噪声 | 准确率 | GPU 利用率 |
|---|---|---|---|---|---|---|
| v01 | 32×32 | 2 | ❌ | ✅ | 72.3% | 34% |
| v02 | 128×128 | 3 | ✅ | ❌ | 86.7% | 78% |
核心升级:三层 CNN + BN + 高分辨率输入 → 解决「看不清图」「GPU 吃不饱」两大痛点
实验日志(完整记录)
2025/11/6 · test_v_02.py (点击展开)
模型训练完成时间:2025.10.31
模型文件:multimodal_cifar10_epoch10.pth
结构升级:
2层图像特征解析 → 3层解析层
新增:BatchNorm 层
移除:训练时噪声注入
问题发现:
• 训练集分辨率过低(32×32),无法泛化到高分辨率图像
• 显卡算力增加,但利用率低(<40%)
• 可能原因:输入太小、batch_size 不足、数据加载瓶颈
模型文件:
• multimodal_model_epoch50.pth
• multimodal_model_epoch50_1.pth
结构:
• 双层图像特征解析
• BERT 预生成文本解码
问题:
• 模型严重依赖文本提示
• 为逼模型学习图像,加入大量噪声
• 但 CNN 结构极简 → 学到的图像特征过于浅层
下一步计划
-[ ] 升输入到 224×224
-[ ] 替换 CNN 为 ViT-tiny
-[ ] 加入 CLIP-style 对比学习
-[ ] 开放 Inference API