CrossEncoder based on dbmdz/bert-base-italian-uncased

This is a Cross Encoder model finetuned from dbmdz/bert-base-italian-uncased on the json dataset using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text pair classification.

Model Details

Model Description

  • Model Type: Cross Encoder
  • Base model: dbmdz/bert-base-italian-uncased
  • Maximum Sequence Length: 512 tokens
  • Number of Output Labels: 3 labels
  • Training Dataset:
    • json

Model Sources

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import CrossEncoder

# Download from the 🤗 Hub
model = CrossEncoder("software-si/horeca-recensioni-ita-nli")
# Get scores for pairs of texts
pairs = [
    ["La nostra esperienza all'hotel è stata inizialmente turbata dal rumore proveniente dalle camere adiacenti, che ha reso difficile trovare una sera di relax. Tuttavia, la colazione fu una svolta positiva, con una vasta varietà di pietanze che ci hanno permesso di iniziare la giornata con energia e soddisfazione.", 'La camera era molto rumorosa.'],
    ["La mia esperienza all'hotel era un po' delusa. La stanza era calma e confortevole, ma il bagno lasciava molto a desiderare, con residui poco igienici che non potevano essere dimenticati. Inoltre, la reception sembrava avere personale scarso e alcuni membri della stessa mi apparvero maleducati, anche se devo dire che la stanza stessa era molto spaziosa e comoda.", 'Era difficile riposare a causa del rumore in camera.'],
    ["La nostra camera era un po' rumorosa, ma la sua grande dimensione faceva ampiamente per compensare la mancanza di isolamento. La stanza era spaziosa e accogliente, con arredi moderni e una vista piacevole. Sebbene ci siamo aspettati una maggiore quiete, la camera era comunque un ottimo valore per il prezzo.", 'La struttura ha tre piani.'],
    [' bevande annacquate e di scarsa qualità, poco spazio tra letto e mobili,', 'Abbiamo prenotato tramite un sito di viaggi online.'],
    ["Abbiamo trascorso una notte in questo albergo e siamo stati soddisfatti della sua comodità e del servizio eccellente offerto dal personale. L'area interna è ben arredata e ben distribuita, ma la colazione sembra essere stata un po' troppo limitata per le nostre aspettative.", 'La colazione non era soddisfacente.'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5, 3)

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 166,558 training samples
  • Columns: premises, hypothesis, and labels
  • Approximate statistics based on the first 1000 samples:
    premises hypothesis labels
    type string string int
    details
    • min: 44 characters
    • mean: 339.59 characters
    • max: 970 characters
    • min: 20 characters
    • mean: 42.2 characters
    • max: 74 characters
    • 0: ~31.40%
    • 1: ~32.40%
    • 2: ~36.20%
  • Samples:
    premises hypothesis labels
    La nostra esperienza all'hotel è stata piuttosto deludente. La pulizia degli spazi interni sembra essere scarsa, con pochi angoli puliti e ordinati. Tuttavia, la colazione è stata una delle parti più positive della nostra vacanza, grazie alle specialità locali servite in modo fresco e saporito. La camera in cui soggiornammo è stata un po' rumorosa e poco confortevole, ma di dimensioni sufficienti per sentirsi a proprio agio. Abbiamo prenotato tramite un sito di viaggi online. 2
    difficile trovare tranquillità, caffè e cappuccino eccellenti, C’erano molte prese di corrente disponibili. 2
    Siamo stati delusi dalla nostra esperienza all'albergo. Il rumore è stato un problema costante, con molti suoni provenienti dalle stanze adiacenti che ci hanno fatto difficoltà a dormire. La colazione è stata scarsa e insufficiente, non era sufficiente per soddisfare le nostre esigenze. Tuttavia, la pulizia dell'hotel è stata eccellente, tutto era in ordine e pulito. Un problema più grave è stato il personale, che era scarsamente disponibile e non ci sono stati membri del personale presenti durante tutta nostra permanenza. Il parcheggio è gratuito. 2
  • Loss: CrossEntropyLoss

Evaluation Dataset

json

  • Dataset: json
  • Size: 49,968 evaluation samples
  • Columns: premises, hypothesis, and labels
  • Approximate statistics based on the first 1000 samples:
    premises hypothesis labels
    type string string int
    details
    • min: 47 characters
    • mean: 348.5 characters
    • max: 919 characters
    • min: 20 characters
    • mean: 41.95 characters
    • max: 74 characters
    • 0: ~30.60%
    • 1: ~29.70%
    • 2: ~39.70%
  • Samples:
    premises hypothesis labels
    La nostra esperienza all'hotel è stata inizialmente turbata dal rumore proveniente dalle camere adiacenti, che ha reso difficile trovare una sera di relax. Tuttavia, la colazione fu una svolta positiva, con una vasta varietà di pietanze che ci hanno permesso di iniziare la giornata con energia e soddisfazione. La camera era molto rumorosa. 1
    La mia esperienza all'hotel era un po' delusa. La stanza era calma e confortevole, ma il bagno lasciava molto a desiderare, con residui poco igienici che non potevano essere dimenticati. Inoltre, la reception sembrava avere personale scarso e alcuni membri della stessa mi apparvero maleducati, anche se devo dire che la stanza stessa era molto spaziosa e comoda. Era difficile riposare a causa del rumore in camera. 0
    La nostra camera era un po' rumorosa, ma la sua grande dimensione faceva ampiamente per compensare la mancanza di isolamento. La stanza era spaziosa e accogliente, con arredi moderni e una vista piacevole. Sebbene ci siamo aspettati una maggiore quiete, la camera era comunque un ottimo valore per il prezzo. La struttura ha tre piani. 2
  • Loss: CrossEntropyLoss

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • learning_rate: 1e-05
  • num_train_epochs: 1
  • warmup_steps: 16655
  • bf16: True
  • load_best_model_at_end: True

Training Logs

Epoch Step Training Loss Validation Loss
0.0961 500 1.1048 1.0593
0.1921 1000 0.9536 0.7136
0.2882 1500 0.5584 0.4574
0.3842 2000 0.4524 0.4242
0.4803 2500 0.3931 0.3079
0.5764 3000 0.2722 0.1725
0.6724 3500 0.1674 0.1038
0.7685 4000 0.1 0.0669
0.8646 4500 0.075 0.0462
0.9606 5000 0.0528 0.0355

Framework Versions

  • Python: 3.12.3
  • Sentence Transformers: 5.1.1
  • Transformers: 4.56.2
  • PyTorch: 2.8.0+cu128
  • Accelerate: 1.10.1
  • Datasets: 4.1.1
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
Downloads last month
4
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for software-si/horeca-recensioni-ita-nli

Finetuned
(5)
this model

Space using software-si/horeca-recensioni-ita-nli 1