--- library_name: transformers license: apache-2.0 base_model: google/vit-base-patch16-224 tags: - image-classification - animals - transfer-learning - vision-transformer - vit - own-dataset - pytorch - huggingface - generated_from_trainer datasets: - imagefolder metrics: - accuracy model-index: - name: cv_animals results: - task: name: Image Classification type: image-classification dataset: name: animals type: imagefolder config: default split: train args: default metrics: - name: Accuracy type: accuracy value: 0.9833333333333333 --- # cv_animals ## Model description Dieses Modell ist ein feingetuntes Vision Transformer (ViT) Modell, das auf dem vortrainierten [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) basiert. Es wurde speziell für die Klassifikation von Bildern in 90 verschiedene Tierklassen trainiert. Die zugrunde liegenden Daten stammen aus dem öffentlich verfügbaren Animal Image Dataset, das Bilder aus Google aggregiert. Das Modell eignet sich für Anwendungen, bei denen Tiere auf Fotos automatisch erkannt und klassifiziert werden sollen. Typische Einsatzgebiete sind beispielsweise: - automatisierte Artenbestimmung - bildgestützte Tierdatenerfassung in Forschung und Lehre - edukative oder interaktive Anwendungen (z. B. in Museen oder Apps). Erzielte Resultate: - Loss: 0.0876 - Accuracy: 0.9833 ## Intended uses & limitations ### Vorgesehene Verwendungen Dieses Modell wurde für die Bildklassifikation von Tieren in 90 Kategorien entwickelt. Es eignet sich insbesondere für: - Bildbasierte Tiererkennung in Anwendungen wie Lernplattformen, mobilen Apps, oder interaktiven Tools - Unterstützung bei biologischer Arterkennung (z. B. für Bildungsprojekte oder Citizen Science) - Vergleich von Transfer-Learning-Modellen mit Zero-Shot-Modellen (z. B. CLIP) ### Einschränkungen - Die Vorhersagen sind stark abhängig von Bildqualität und Perspektive - Das Modell wurde nur mit Bildern aus dem Kaggle-Datensatz trainiert – es ist nicht garantiert, dass es bei anderen Tierarten oder in freier Wildbahn korrekt klassifiziert - Mehrdeutige oder unklare Bilder (z. B. mit mehreren Tieren, Zeichnungen, Verdeckungen) können zu falschen Vorhersagen führen ## Training and evaluation data Datensatz: Animal Image Dataset - 90 different animals Anzahl Bilder: 5.400 Klassen: 90 Tierarten (z. B. Hund, Katze, Elefant, Biene, Löwe etc.) Aufteilung: - 80 % Training (4.320 Bilder) - 10 % Validierung (540 Bilder) - 10 % Test (540 Bilder) ### Augmentierungen Zur Verbesserung der Generalisierbarkeit wurden folgende Transformationen auf die Trainingsbilder angewendet: - RandomHorizontalFlip() – zufälliges horizontales Spiegeln - RandomRotation(25) – zufällige Drehung um ±25° - ColorJitter() – zufällige Helligkeits-, Kontrast-, Sättigungs- und Farbtonänderungen ## Training procedure ### Training hyperparameters The following hyperparameters were used during training: - learning_rate: 0.0003 - train_batch_size: 16 - eval_batch_size: 8 - seed: 42 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments - lr_scheduler_type: linear - num_epochs: 5 ### Training results | Training Loss | Epoch | Step | Validation Loss | Accuracy | |:-------------:|:-----:|:----:|:---------------:|:--------:| | 1.1951 | 1.0 | 270 | 0.3316 | 0.9648 | | 0.2763 | 2.0 | 540 | 0.1710 | 0.9667 | | 0.1772 | 3.0 | 810 | 0.1482 | 0.9648 | | 0.1533 | 4.0 | 1080 | 0.1391 | 0.9704 | | 0.1462 | 5.0 | 1350 | 0.1350 | 0.9685 | ### Framework versions - Transformers 4.50.0 - Pytorch 2.6.0+cu124 - Datasets 3.4.1 - Tokenizers 0.21.1