MoTTS / CLAUDE.md
Mo2294's picture
Upload 619 files
92e51ac verified
# IndexTTS Projekt - Claude Erinnerungen
## Aktueller Status ✅
- IndexTTS2 Repository erfolgreich geklont
- Abhängigkeiten installiert (ohne DeepSpeed wegen Windows CUDA-Problemen)
- Modelle heruntergeladen (IndexTeam/IndexTTS-2)
- WebUI läuft erfolgreich auf http://localhost:7860
- GPU-Inferenz funktioniert
## Projektplan 🎯
### Phase 1: Lokales Testen (AKTUELL)
- [x] Setup und erste Tests mit GPU
- [ ] Verschiedene Stimmen und Emotionen testen
- [ ] Performance und Qualität bewerten
- [ ] Verstehen welche Features benötigt werden
### Phase 2: Optimierung für HuggingFace Spaces
- [ ] CPU-Version optimieren (ohne GPU-Abhängigkeiten)
- [ ] Modellgröße reduzieren falls möglich
- [ ] Memory-Usage optimieren
- [ ] Simplified WebUI für HF Spaces erstellen
- [ ] Requirements für CPU-only deployment anpassen
### Phase 3: HuggingFace Space Deployment
- [ ] Dockerfile/requirements.txt für HF Spaces anpassen
- [ ] Space erstellen und deployen
- [ ] Testen der CPU-Performance
- [ ] Public/Private Space Konfiguration
### Phase 4: Automatisierung
- [ ] API-Interface entwickeln
- [ ] Batch-Processing für Audio-Generierung
- [ ] Automatisierte Workflows einrichten
- [ ] Integration in bestehende Systeme
## Technische Details 📋
### Installierte Komponenten
- Python 3.10+
- UV Package Manager
- IndexTTS2 Modelle (2.3GB+ Gesamtgröße)
- WebUI mit Gradio
- Ohne DeepSpeed (Windows CUDA-Probleme)
### Wichtige Befehle
```bash
# WebUI starten
python -m uv run webui.py
# Mit CPU-only (für HF Spaces später)
python -m uv run webui.py --device cpu
# Abhängigkeiten für HF Spaces (nur WebUI)
python -m uv sync --extra webui
```
### HF Spaces Considerations
- CPU-only deployment wird deutlich langsamer sein
- Modellgröße könnte problematisch werden (2GB+ Limit?)
- Eventuell kleinere Modelle nutzen (IndexTTS-1.5?)
- Memory-Limits beachten
## Nächste Schritte 🚀
1. Lokale Tests fortsetzen - verschiedene Inputs ausprobieren
2. Performance-Benchmarks mit GPU vs CPU
3. Modellalternativen evaluieren für HF Spaces
4. Simplified Interface design für automatisierte Nutzung
## Notizen 📝
- DeepSpeed funktioniert nicht auf Windows ohne CUDA Toolkit
- WebUI läuft auf localhost:7860 (nicht 0.0.0.0:7860)
- Xet Storage Warnungen sind normal und beeinflussen Funktionalität nicht
- Projekt unterstützt Emotionserkennung und -steuerung
- Mehrsprachig (Chinesisch/Englisch)