Audio Multimodal Models - a danielrosehill Collection

danielrosehill 's Collections

Israel Open Data

Acronym Identification

LLMS-Im-Testing

Hebrew Puncutation Restoration

Hebrew Sentiment Classification Models

English Hebrew Translation

Hebrew OCR Models

Hebrew Diacritic Restoration Models

Streaming-Speech-To-Text

Agentic Code Gen 301225

MWP-TTS-Candidates

Video Understanding

Image Evaluations

Evaluation Datasets

Audio Understanding Datasets

Voxtral Originals (Mistral)

Audio Multimodal Models

My Whisper ACFT Fine Tunes

My Public Audio Datasets

My Whisper Fine-Tunes (V2)

ASR Beyond Whisper

Model Structures

Whisper Hebrish

My-ASR-Finetunes

ASR Benchmarking

Whisper Fine Tunes

API Price Comparisons

Video background removal

Architecture Related Models

STT Fine Tune Resources

Concept Outlines

STT Evaluations

Whisper Base + variants

Whisper variants

Voice Modality Apps

Entertainment Recommendations

Worlds (3D, Games)

Proofs of Concept

Background Noise Removal

Project Indexes

Real Time Video To Video

Voice Enhancement

Context Utilities

Voice Prompting

Resume Utilities

Multi LLM Experiments

Geolocation Utilities

Image Generation

Object Detection

Text Processing Utilities

Developer Utilities

Data Visualization

Hugging Face Utilities

Subtitle generation

Video editing utilities

Audio editing utilities

Prompt engineering

Interesting ideas

Data Processing Utilities

Background Removal

Image captioning

Video Generation Quants

TTS With Dialog Support

OCR & Document Processing

Fast video generation

Long speech synthesis

Agentic code generation capable

Browser use capable

Code Generation Models

Video Generation

General LLM Quants

Reasoning Models

Embedding Models

Instructional LLMs

Image Generation Models

Image Generation Quants

Local model collection

Vision Language Models

My Image Datasets

Text Transformation

Reference / Lookup Datasets

Sustainability Projects

Voice Note Audio And Training

Character Creation Datasets

My System Prompt Collections

Israel Photo Galleries

3D Human Digital Humans

Generative-AI-Favorites

Single Shot Image To Image (Reference)

Speech To Text (STT)

Text To Speech (TTS)

Image To Video (No Audio)

Music Generation

Image Editing Utilities

Character-Generation

Global Value Factor Database (GVFD) - Visualisation And Data

Text Reformatting Apps

Hebrew AI Spaces

Hebrew datasets

Fav-Code-Generation-Models

Hebrew Large Language Models

LLM-Experiments

Audio Multimodal Models

updated Dec 8, 2025

Open source models with audio understanding. Tracking mostly vendor releases in the audio and text to text subclassification of multimodal.