CrossEncoder based on dbmdz/bert-base-italian-uncased

This is a Cross Encoder model finetuned from dbmdz/bert-base-italian-uncased on the json dataset using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text pair classification.

Model Details

Model Description

Model Type: Cross Encoder
Base model: dbmdz/bert-base-italian-uncased
Maximum Sequence Length: 512 tokens
Number of Output Labels: 3 labels
Training Dataset:
- json

Model Sources

Documentation: Sentence Transformers Documentation
Documentation: Cross Encoder Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Cross Encoders on Hugging Face

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import CrossEncoder

# Download from the 🤗 Hub
model = CrossEncoder("software-si/horeca-recensioni-ita-nli")
# Get scores for pairs of texts
pairs = [
    ["La nostra esperienza all'hotel è stata inizialmente turbata dal rumore proveniente dalle camere adiacenti, che ha reso difficile trovare una sera di relax. Tuttavia, la colazione fu una svolta positiva, con una vasta varietà di pietanze che ci hanno permesso di iniziare la giornata con energia e soddisfazione.", 'La camera era molto rumorosa.'],
    ["La mia esperienza all'hotel era un po' delusa. La stanza era calma e confortevole, ma il bagno lasciava molto a desiderare, con residui poco igienici che non potevano essere dimenticati. Inoltre, la reception sembrava avere personale scarso e alcuni membri della stessa mi apparvero maleducati, anche se devo dire che la stanza stessa era molto spaziosa e comoda.", 'Era difficile riposare a causa del rumore in camera.'],
    ["La nostra camera era un po' rumorosa, ma la sua grande dimensione faceva ampiamente per compensare la mancanza di isolamento. La stanza era spaziosa e accogliente, con arredi moderni e una vista piacevole. Sebbene ci siamo aspettati una maggiore quiete, la camera era comunque un ottimo valore per il prezzo.", 'La struttura ha tre piani.'],
    [' bevande annacquate e di scarsa qualità, poco spazio tra letto e mobili,', 'Abbiamo prenotato tramite un sito di viaggi online.'],
    ["Abbiamo trascorso una notte in questo albergo e siamo stati soddisfatti della sua comodità e del servizio eccellente offerto dal personale. L'area interna è ben arredata e ben distribuita, ma la colazione sembra essere stata un po' troppo limitata per le nostre aspettative.", 'La colazione non era soddisfacente.'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5, 3)

Training Details

Training Dataset

json

Dataset: json
Size: 166,558 training samples
Columns: premises, hypothesis, and labels

Approximate statistics based on the first 1000 samples:

	premises	hypothesis	labels
type	string	string	int
details	min: 44 characters mean: 339.59 characters max: 970 characters	min: 20 characters mean: 42.2 characters max: 74 characters	0: ~31.40% 1: ~32.40% 2: ~36.20%

Samples:

premises	hypothesis	labels
`La nostra esperienza all'hotel è stata piuttosto deludente. La pulizia degli spazi interni sembra essere scarsa, con pochi angoli puliti e ordinati. Tuttavia, la colazione è stata una delle parti più positive della nostra vacanza, grazie alle specialità locali servite in modo fresco e saporito. La camera in cui soggiornammo è stata un po' rumorosa e poco confortevole, ma di dimensioni sufficienti per sentirsi a proprio agio.`	`Abbiamo prenotato tramite un sito di viaggi online.`	`2`
`difficile trovare tranquillità, caffè e cappuccino eccellenti,`	`C’erano molte prese di corrente disponibili.`	`2`
Siamo stati delusi dalla nostra esperienza all'albergo. Il rumore è stato un problema costante, con molti suoni provenienti dalle stanze adiacenti che ci hanno fatto difficoltà a dormire. La colazione è stata scarsa e insufficiente, non era sufficiente per soddisfare le nostre esigenze. Tuttavia, la pulizia dell'hotel è stata eccellente, tutto era in ordine e pulito. Un problema più grave è stato il personale, che era scarsamente disponibile e non ci sono stati membri del personale presenti durante tutta nostra permanenza.	`Il parcheggio è gratuito.`	`2`

Loss: CrossEntropyLoss

Evaluation Dataset

json

Dataset: json
Size: 49,968 evaluation samples
Columns: premises, hypothesis, and labels

Approximate statistics based on the first 1000 samples:

	premises	hypothesis	labels
type	string	string	int
details	min: 47 characters mean: 348.5 characters max: 919 characters	min: 20 characters mean: 41.95 characters max: 74 characters	0: ~30.60% 1: ~29.70% 2: ~39.70%

Samples:

premises	hypothesis	labels
`La nostra esperienza all'hotel è stata inizialmente turbata dal rumore proveniente dalle camere adiacenti, che ha reso difficile trovare una sera di relax. Tuttavia, la colazione fu una svolta positiva, con una vasta varietà di pietanze che ci hanno permesso di iniziare la giornata con energia e soddisfazione.`	`La camera era molto rumorosa.`	`1`
`La mia esperienza all'hotel era un po' delusa. La stanza era calma e confortevole, ma il bagno lasciava molto a desiderare, con residui poco igienici che non potevano essere dimenticati. Inoltre, la reception sembrava avere personale scarso e alcuni membri della stessa mi apparvero maleducati, anche se devo dire che la stanza stessa era molto spaziosa e comoda.`	`Era difficile riposare a causa del rumore in camera.`	`0`
`La nostra camera era un po' rumorosa, ma la sua grande dimensione faceva ampiamente per compensare la mancanza di isolamento. La stanza era spaziosa e accogliente, con arredi moderni e una vista piacevole. Sebbene ci siamo aspettati una maggiore quiete, la camera era comunque un ottimo valore per il prezzo.`	`La struttura ha tre piani.`	`2`

Loss: CrossEntropyLoss

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
per_device_train_batch_size: 32
per_device_eval_batch_size: 32
learning_rate: 1e-05
num_train_epochs: 1
warmup_steps: 16655
bf16: True
load_best_model_at_end: True

Training Logs

Epoch	Step	Training Loss	Validation Loss
0.0961	500	1.1048	1.0593
0.1921	1000	0.9536	0.7136
0.2882	1500	0.5584	0.4574
0.3842	2000	0.4524	0.4242
0.4803	2500	0.3931	0.3079
0.5764	3000	0.2722	0.1725
0.6724	3500	0.1674	0.1038
0.7685	4000	0.1	0.0669
0.8646	4500	0.075	0.0462
0.9606	5000	0.0528	0.0355

Framework Versions

Python: 3.12.3
Sentence Transformers: 5.1.1
Transformers: 4.56.2
PyTorch: 2.8.0+cu128
Accelerate: 1.10.1
Datasets: 4.1.1
Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

Downloads last month: 4

Safetensors

Model size

0.1B params

Tensor type

F32

Model tree for software-si/horeca-recensioni-ita-nli

Base model

dbmdz/bert-base-italian-uncased

Finetuned

(5)

this model

software-si
/

horeca-recensioni-ita-nli

CrossEncoder based on dbmdz/bert-base-italian-uncased

Model Details

Model Description

Model Sources

Usage

Direct Usage (Sentence Transformers)

Training Details

Training Dataset

json

Evaluation Dataset

json

Training Hyperparameters

Non-Default Hyperparameters

Training Logs

Framework Versions

Citation

BibTeX

Sentence Transformers

Model tree for software-si/horeca-recensioni-ita-nli

Space using software-si/horeca-recensioni-ita-nli 1