UprmT_T AI

UprmT_T

多模态图像分类 · 从依赖文本到真正看图


模型概览

版本 图像输入 CNN 层数 BN 噪声 准确率 GPU 利用率
v01 32×32 2 72.3% 34%
v02 128×128 3 86.7% 78%

核心升级:三层 CNN + BN + 高分辨率输入 → 解决「看不清图」「GPU 吃不饱」两大痛点


实验日志(完整记录)

2025/11/6 · test_v_02.py (点击展开)
模型训练完成时间:2025.10.31
模型文件:multimodal_cifar10_epoch10.pth

结构升级:
  2层图像特征解析 → 3层解析层
  新增:BatchNorm 层
  移除:训练时噪声注入

问题发现:
  • 训练集分辨率过低(32×32),无法泛化到高分辨率图像
  • 显卡算力增加,但利用率低(<40%)
  • 可能原因:输入太小、batch_size 不足、数据加载瓶颈

模型文件:
  • multimodal_model_epoch50.pth
  • multimodal_model_epoch50_1.pth

结构:
  • 双层图像特征解析
  • BERT 预生成文本解码

问题:
  • 模型严重依赖文本提示
  • 为逼模型学习图像,加入大量噪声
  • 但 CNN 结构极简 → 学到的图像特征过于浅层

下一步计划

 -[ ] 升输入到 224×224
 -[ ] 替换 CNN 为 ViT-tiny
 -[ ] 加入 CLIP-style 对比学习
 -[ ] 开放 Inference API
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train GQFth/Uprm-i1