add RTEB, CoIR results

Browse files

Files changed (1) hide show

README.md +26 -11

README.md CHANGED Viewed

@@ -5,7 +5,6 @@ tags:
 - feature-extraction
 - dense
 - generated_from_trainer
-- dataset_size:1880853
 - loss:MultipleNegativesRankingLoss
 widget:
 - source_sentence: |-
@@ -801,6 +800,31 @@ base_model:
 This is a [answerdotai/ModernBERT-base](https://huggingface.co/answerdotai/ModernBERT-base) model trained on the [code_search_net](https://huggingface.co/datasets/code-search-net/code_search_net) dataset with
 [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with in-batch negatives. Model can be used for code retrieval and reranking.
 ## Model Details
 ### Model Description
@@ -808,16 +832,7 @@ This is a [answerdotai/ModernBERT-base](https://huggingface.co/answerdotai/Moder
 - **Maximum Sequence Length:** 8192 tokens
 - **Output Dimensionality:** 768
 - **Similarity Function:** Cosine Similarity
-### Full Model Architecture
-```
-SentenceTransformer(
-  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
-  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
-)
-```
 ## Usage

 - feature-extraction
 - dense
 - generated_from_trainer
 - loss:MultipleNegativesRankingLoss
 widget:
 - source_sentence: |-
 This is a [answerdotai/ModernBERT-base](https://huggingface.co/answerdotai/ModernBERT-base) model trained on the [code_search_net](https://huggingface.co/datasets/code-search-net/code_search_net) dataset with
 [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with in-batch negatives. Model can be used for code retrieval and reranking.
+## Perfomance on code retrieval benchmarks
+**RTEB**
+On 14.10.2025 the model is **6th** on RTEB leaderbord among models with <500M parameters:
+<details>
+  <summary>Click</summary>
+    <figure>
+      <img src="Rteb_top.jpg">
+    </figure>
+</details>
+Perfomance per task:
+| Model | AppsRetrieval | Code1Retrieval (Private) | DS1000Retrieval | FreshStackRetrieval | HumanEvalRetrieval | JapaneseCode1Retrieval (Private)| MBPPRetrieval | WikiSQLRetrieval |
+|-------|---------------|----------------|-----------------|---------------------|--------------------|------------------------|---------------|------------------|
+| english_code_retriever | 8.04 | 75.36 | 32.42 | 18.30 | 71.82 | 46.59 | 72.06 | 87.92 |
+**COIR**:
+| Model | AppsRetrieval | COIRCodeSearchNetRetrieval | CodeFeedbackMT | CodeFeedbackST | CodeSearchNetCCRetrieval | CodeTransOceanContest | CodeTransOceanDL | CosQA | StackOverflowQA | SyntheticText2SQL |
+|-------|---------------|----------------------------|----------------|----------------|--------------------------|------------------------|------------------|-------|------------------|-------------------|
+| english_code_retriever | 8.04 | 74.23 | 44.01 | 57.79 | 42.71 | 60.68 | 35.16 | 25.56 | 56.53 | 42.79 |
+more information you cand find [here](https://huggingface.co/spaces/mteb/leaderboard)
 ## Model Details
 ### Model Description
 - **Maximum Sequence Length:** 8192 tokens
 - **Output Dimensionality:** 768
 - **Similarity Function:** Cosine Similarity
+- **Poling** Mean pooling
 ## Usage