|
|
--- |
|
|
license: other |
|
|
language: |
|
|
- ar |
|
|
- en |
|
|
pipeline_tag: text-generation |
|
|
tags: |
|
|
- arabic |
|
|
- islamic-studies |
|
|
- closed-source |
|
|
- conversational |
|
|
- nlp |
|
|
- moe |
|
|
library_name: transformers |
|
|
privacy_policy: https://mubeen.masarat.sa/terms-of-service |
|
|
terms_of_service: https://mubeen.masarat.sa/terms-of-service |
|
|
--- |
|
|
|
|
|
# Mubeen v1.0 β | مُبين الإصدار الأول بيتا |
|
|
|
|
|
<div style="text-align: center;"> |
|
|
<img src="https://mubeen.masarat.sa/og-img/1200x630.png" alt="Mubeen AI" width="200"/> |
|
|
</div> |
|
|
|
|
|
## Model Details | تفاصيل النموذج |
|
|
|
|
|
### English |
|
|
**Mubeen** is a specialized Arabic language model developed by MASARAT SA, Saudi Arabia. It demonstrates superior performance compared to open Arabic models and advances beyond ChatGPT-4.1 in Arabic linguistic and heritage tasks. The model is currently available for free during its beta phase. |
|
|
|
|
|
### العربية |
|
|
**مُبين** نموذج لغوي عربي متخصص طوّرته شركة مسارات السعودية. يُظهر أداءً متفوقاً مقارنة بالنماذج العربية المفتوحة ويتقدم على ChatGPT-4.1 في المهام اللغوية والتراثية العربية. النموذج متاح مجاناً حالياً في مرحلته التجريبية. |
|
|
|
|
|
- **Developed by | طُوِّر من قِبل:** MASARAT SA, Saudi Arabia | مسارات السعودية |
|
|
- **Model type | نوع النموذج:** Text Generation | توليد النصوص |
|
|
- **Language(s) | اللغات:** Arabic, English | العربية، الإنجليزية |
|
|
- **License | الترخيص:** Custom (Closed Weights) | مخصص (أوزان مغلقة) |
|
|
- **Status | الحالة:** Free Public Beta | بيتا مجاني للعموم |
|
|
|
|
|
## Uses | الاستخدامات |
|
|
|
|
|
### Intended Use | الاستخدام المقصود |
|
|
|
|
|
#### English |
|
|
Mubeen is designed for: |
|
|
- **Arabic Language Processing**: Grammar analysis, morphology, prosody, rhetoric, and literary criticism |
|
|
- **Islamic Studies**: Quranic interpretation, Islamic jurisprudence, Hadith studies, and biographical studies |
|
|
- **Translation**: High-accuracy Arabic ↔ English translation with cultural and religious context awareness |
|
|
- **Educational Support**: Academic assistance in Arabic linguistics and Islamic studies |
|
|
- **Research**: Supporting scholarly work in Arabic heritage and Islamic civilization |
|
|
|
|
|
#### العربية |
|
|
صُمم مُبين لـ: |
|
|
- **معالجة اللغة العربية**: الإعراب والصرف والعروض والبلاغة والنقد الأدبي |
|
|
- **الدراسات الإسلامية**: التفسير والفقه والحديث والتراجم |
|
|
- **الترجمة**: ترجمة عربي ↔ إنجليزي عالية الدقة مع مراعاة السياق الثقافي والديني |
|
|
- **الدعم التعليمي**: المساعدة الأكاديمية في اللسانيات العربية والدراسات الإسلامية |
|
|
- **البحث**: دعم العمل العلمي في التراث العربي والحضارة الإسلامية |
|
|
|
|
|
### Out-of-Scope Use | الاستخدامات خارج النطاق |
|
|
|
|
|
#### English |
|
|
- Religious legal rulings (Fatwa) - consult qualified scholars |
|
|
- Medical advice - consult healthcare professionals |
|
|
- Legal advice - consult legal professionals |
|
|
- Financial advice - consult financial advisors |
|
|
- Content that promotes hate speech or misinformation |
|
|
|
|
|
#### العربية |
|
|
- الفتاوى الشرعية - استشر العلماء المتخصصين |
|
|
- النصائح الطبية - استشر المهنيين الطبيين |
|
|
- النصائح القانونية - استشر المهنيين القانونيين |
|
|
- النصائح المالية - استشر المستشارين الماليين |
|
|
- المحتوى الذي يروج لخطاب الكراهية أو المعلومات المضللة |
|
|
|
|
|
## Bias, Risks, and Limitations | التحيز والمخاطر والقيود |
|
|
|
|
|
### English |
|
|
- **Cultural Context**: Optimized for Arabic and Islamic cultural contexts; may not perform equally well for other cultural perspectives |
|
|
- **Verification Required**: Users should verify information accuracy, especially for sensitive topics |
|
|
- **Not Professional Advice**: Does not replace consultation with specialists in relevant fields |
|
|
- **Beta Limitations**: Current version has basic reasoning capabilities that will be enhanced in future releases |
|
|
- **Language Preference**: Primarily optimized for Arabic; English capabilities are secondary |
|
|
|
|
|
### العربية |
|
|
- **السياق الثقافي**: محسّن للسياقات الثقافية العربية والإسلامية؛ قد لا يؤدي بنفس الكفاءة للمنظورات الثقافية الأخرى |
|
|
- **مطلوب التحقق**: يجب على المستخدمين التحقق من دقة المعلومات، خاصة للمواضيع الحساسة |
|
|
- **ليس مشورة مهنية**: لا يُغني عن استشارة المتخصصين في المجالات ذات الصلة |
|
|
- **قيود البيتا**: النسخة الحالية لها قدرات استدلالية أساسية ستُحسّن في الإصدارات المستقبلية |
|
|
- **تفضيل اللغة**: محسّن أساساً للعربية؛ قدرات الإنجليزية ثانوية |
|
|
|
|
|
## Training Details | تفاصيل التدريب |
|
|
|
|
|
### Training Data | بيانات التدريب |
|
|
|
|
|
#### English |
|
|
- **Curated Arabic Texts**: Grammar, rhetoric, poetry, Quranic interpretations, and research papers |
|
|
- **Bilingual Translation Data**: Hand-selected high-quality Arabic-English translation pairs |
|
|
- **Mathematical and Logic Collections**: Reviewed datasets for problem-solving capabilities |
|
|
- **Multimodal Data**: Arabic OCR and document analysis datasets |
|
|
- **Ethical Filtering**: Multi-stage cultural and ethical content filtering |
|
|
|
|
|
#### العربية |
|
|
- **نصوص عربية منقّحة**: نحو وبلاغة وشعر وتفاسير وأوراق بحثية |
|
|
- **بيانات ترجمة ثنائية**: أزواج ترجمة عربي-إنجليزي عالية الجودة مختارة يدوياً |
|
|
- **مجموعات رياضيات ومنطق**: مجموعات بيانات مُراجعة لقدرات حل المشكلات |
|
|
- **بيانات متعددة الوسائط**: مجموعات بيانات التعرف الضوئي على الحروف العربية وتحليل الوثائق |
|
|
- **التصفية الأخلاقية**: تصفية محتوى ثقافية وأخلاقية متعددة المراحل |
|
|
|
|
|
### Training Procedure | إجراء التدريب |
|
|
|
|
|
Training details are proprietary. The model uses state-of-the-art techniques optimized for Arabic language understanding and generation. |
|
|
|
|
|
تفاصيل التدريب ملكية خاصة. يستخدم النموذج تقنيات حديثة محسّنة لفهم وتوليد اللغة العربية. |
|
|
|
|
|
## Evaluation | التقييم |
|
|
|
|
|
### Testing Data & Metrics | بيانات الاختبار والمقاييس |
|
|
|
|
|
| Benchmark | Mubeen | Best Open Arabic | ChatGPT-4.1 | |
|
|
|-----------|---------|------------------|--------------| |
|
|
| ArabicMMLU (45 questions) | **97%** | 58% (Falcon-H1) | 80% | |
|
|
| ALUE (40 questions) | **89%** | 70% (Jais-70B) | 85% | |
|
|
| ACVA (20 questions) | **91%** | 76% (Jais-70B) | 88% | |
|
|
| ArabicaQA (15 questions) | **92%** | 83% (Jais-70B) | 90% | |
|
|
| AlGhafa (10 questions) | **94%** | 78% (Falcon-H1) | 85% | |
|
|
| Additional Tasks (5 questions) | **96.8%** | 87% (Fanar-1-9B) | 95% | |
|
|
| **Composite Average** | **93.3%** | 70% (Falcon-H1) | 88.0% | |
|
|
|
|
|
### Results Summary | ملخص النتائج |
|
|
|
|
|
#### English |
|
|
Mubeen demonstrates superior performance across all major Arabic NLP benchmarks, achieving a 93.3% composite average compared to 70% for the best open Arabic model and 88% for ChatGPT-4.1. |
|
|
|
|
|
#### العربية |
|
|
يُظهر مُبين أداءً متفوقاً عبر جميع معايير معالجة اللغة العربية الرئيسية، محققاً متوسطاً مركباً قدره 93.3% مقارنة بـ 70% لأفضل نموذج عربي مفتوح و88% لـ ChatGPT-4.1. |
|
|
|
|
|
## Environmental Impact | التأثير البيئي |
|
|
|
|
|
Environmental impact details are not publicly available due to the proprietary nature of the training infrastructure. |
|
|
|
|
|
تفاصيل التأثير البيئي غير متاحة للعموم بسبب الطبيعة الملكية لبنية التدريب. |
|
|
|
|
|
## Technical Specifications | المواصفات التقنية |
|
|
|
|
|
### Model Architecture | بنية النموذج |
|
|
- **Architecture**: Proprietary transformer-based architecture (MoE-enabled) | بنية محوّل مملوكة تدعم مزيج الخبراء |
|
|
- **Parameters**: Not disclosed | غير معلن |
|
|
- **Context Length**: Not disclosed | غير معلن |
|
|
- **Precision**: Not disclosed | غير معلن |
|
|
- **MoE**: Enabled – details undisclosed | مفعَّل – التفاصيل غير معلنة |
|
|
|
|
|
### Capabilities | القدرات |
|
|
|
|
|
#### Multimodal | متعدد الوسائط |
|
|
- **Arabic OCR**: Text extraction from images and PDFs | استخراج النص من الصور و PDF |
|
|
- **Document Analysis**: Historical manuscripts and documents | تحليل المخطوطات والوثائق التاريخية |
|
|
- **Visual Content Analysis**: Image description and analysis | وصف وتحليل المحتوى البصري |
|
|
|
|
|
## How to Get Started | كيفية البدء |
|
|
|
|
|
### English |
|
|
Currently available for free during beta phase at [mubeen.masarat.sa](https://mubeen.masarat.sa). API access is under development with security testing. |
|
|
|
|
|
### العربية |
|
|
متاح حالياً مجاناً في المرحلة التجريبية على [mubeen.masarat.sa](https://mubeen.masarat.sa). الوصول عبر API قيد التطوير مع اختبارات الأمان. |
|
|
|
|
|
## Future Development | التطوير المستقبلي |
|
|
|
|
|
### In Development | قيد التطوير |
|
|
- **Advanced Reasoning**: Enhanced analytical capabilities | قدرات تحليلية معززة |
|
|
- **API Interface**: Developer tools and application integration | أدوات المطورين والتكامل مع التطبيقات |
|
|
- **Batch Processing**: Research application capabilities | قدرات التطبيقات البحثية |
|
|
|
|
|
### Future Plans | الخطط المستقبلية |
|
|
- **Advanced Visual Capabilities**: Historical document processing | معالجة الوثائق التاريخية |
|
|
- **Visual Content Generation**: Arabic calligraphy production | إنتاج الخط العربي |
|
|
- **Advanced Research Tools**: Scientific collaboration features | ميزات التعاون العلمي |
|
|
|
|
|
## Citation | الاستشهاد |
|
|
|
|
|
```bibtex |
|
|
@misc{mubeen2025, |
|
|
title={Mubeen: A Specialized Arabic Language Model}, |
|
|
author={MASARAT SA}, |
|
|
year={2025}, |
|
|
month={July}, |
|
|
url={https://mubeen.masarat.sa}, |
|
|
note={Version 1.0 Beta} |
|
|
} |
|
|
``` |
|
|
|
|
|
## Model Evaluation & Testing | تقييم واختبار النموذج |
|
|
|
|
|
### For Researchers & Evaluators | للباحثين والمقيّمين |
|
|
|
|
|
#### English |
|
|
We welcome independent evaluation and testing of Mubeen by researchers and institutions. To ensure fair and comprehensive evaluation: |
|
|
|
|
|
**📊 Recommended Benchmarks:** |
|
|
- ArabicMMLU, ALUE, ACVA, ArabicaQA, AlGhafa |
|
|
- Custom Arabic linguistic tasks (morphology, syntax, semantics) |
|
|
- Islamic studies and heritage knowledge assessments |
|
|
- Arabic-English translation quality evaluations |
|
|
|
|
|
**🔬 Evaluation Access:** |
|
|
- Research institutions can request evaluation access via [[email protected]](mailto:[email protected]) |
|
|
- Academic collaboration opportunities available |
|
|
- Custom evaluation protocols can be discussed for specific research needs |
|
|
|
|
|
**📋 Evaluation Guidelines:** |
|
|
- Use identical prompting strategies across compared models |
|
|
- Consider cultural and linguistic context in evaluation design |
|
|
- Report evaluation methodology transparently |
|
|
- We provide evaluation datasets and protocols upon request |
|
|
|
|
|
**🤝 Independent Verification:** |
|
|
- We encourage third-party evaluation and benchmarking |
|
|
- Evaluation results can be published with proper attribution |
|
|
- Contact us for evaluation dataset access and technical specifications |
|
|
|
|
|
#### العربية |
|
|
نرحب بالتقييم والاختبار المستقل لمُبين من قِبل الباحثين والمؤسسات. لضمان تقييم عادل وشامل: |
|
|
|
|
|
**📊 المعايير المُوصى بها:** |
|
|
- ArabicMMLU، ALUE، ACVA، ArabicaQA، AlGhafa |
|
|
- مهام لسانية عربية مخصصة (صرف، نحو، دلالة) |
|
|
- تقييمات معرفة الدراسات الإسلامية والتراث |
|
|
- تقييمات جودة الترجمة العربية-الإنجليزية |
|
|
|
|
|
**🔬 الوصول للتقييم:** |
|
|
- يمكن للمؤسسات البحثية طلب وصول التقييم عبر [[email protected]](mailto:[email protected]) |
|
|
- فرص التعاون الأكاديمي متاحة |
|
|
- يمكن مناقشة بروتوكولات تقييم مخصصة للاحتياجات البحثية المحددة |
|
|
|
|
|
**📋 إرشادات التقييم:** |
|
|
- استخدام استراتيجيات تحفيز متطابقة عبر النماذج المقارنة |
|
|
- مراعاة السياق الثقافي واللساني في تصميم التقييم |
|
|
- الإبلاغ عن منهجية التقييم بشفافية |
|
|
- نوفر مجموعات بيانات التقييم والبروتوكولات عند الطلب |
|
|
|
|
|
**🤝 التحقق المستقل:** |
|
|
- نشجع التقييم والمعايرة من طرف ثالث |
|
|
- يمكن نشر نتائج التقييم مع الإسناد المناسب |
|
|
- تواصل معنا للوصول لمجموعات بيانات التقييم والمواصفات التقنية |
|
|
|
|
|
### Evaluation Request Process | عملية طلب التقييم |
|
|
|
|
|
#### English |
|
|
1. **Submit Request**: Email [[email protected]](mailto:[email protected]) with: |
|
|
- Research institution affiliation |
|
|
- Evaluation objectives and methodology |
|
|
- Timeline and expected deliverables |
|
|
- Publication intentions |
|
|
|
|
|
2. **Review Process**: 5-10 business days for evaluation access approval |
|
|
|
|
|
3. **Access Provision**: Evaluation environment access and documentation |
|
|
|
|
|
4. **Support**: Technical support during evaluation period |
|
|
|
|
|
5. **Results Sharing**: Optional results sharing for research advancement |
|
|
|
|
|
#### العربية |
|
|
1. **تقديم الطلب**: أرسل لـ [[email protected]](mailto:[email protected]) مع: |
|
|
- انتماء المؤسسة البحثية |
|
|
- أهداف ومنهجية التقييم |
|
|
- الجدول الزمني والنتائج المتوقعة |
|
|
- نوايا النشر |
|
|
|
|
|
2. **عملية المراجعة**: 5-10 أيام عمل لموافقة وصول التقييم |
|
|
|
|
|
3. **توفير الوصول**: وصول لبيئة التقييم والوثائق |
|
|
|
|
|
4. **الدعم**: دعم تقني خلال فترة التقييم |
|
|
|
|
|
5. **مشاركة النتائج**: مشاركة اختيارية للنتائج لتقدم البحث |
|
|
|
|
|
## Contact | التواصل |
|
|
|
|
|
- **Website | الموقع**: [mubeen.masarat.sa](https://mubeen.masarat.sa) |
|
|
- **Technical Support | الدعم التقني**: [[email protected]](mailto:[email protected]) |
|
|
- **Research & Evaluation | البحث والتقييم**: [[email protected]](mailto:[email protected]) |
|
|
- **General Inquiries | الاستفسارات العامة**: [[email protected]](mailto:[email protected]) |
|
|
- **Business | الأعمال**: [[email protected]](mailto:[email protected]) |
|
|
- **Community | المجتمع**: [HuggingFace Discussions](https://huggingface.co/MASARAT-SA/mubeen/discussions) |
|
|
|
|
|
## Supporting Saudi Vision 2030 | دعم رؤية السعودية 2030 |
|
|
|
|
|
Mubeen supports Saudi Vision 2030 objectives through digitizing Arabic-Islamic heritage, developing the knowledge economy, and establishing Saudi Arabia's global leadership in Arabic AI technology. |
|
|
|
|
|
يدعم مُبين أهداف رؤية المملكة 2030 من خلال رقمنة التراث العربي الإسلامي وتطوير اقتصاد المعرفة وترسيخ مكانة السعودية كرائدة عالمياً في تقنيات الذكاء الاصطناعي العربي. |
|
|
|
|
|
--- |
|
|
|
|
|
**© 2025 MASARAT SA - All Rights Reserved | جميع الحقوق محفوظة** |
|
|
|
|
|
*"العِلم ما نفع" - Beneficial Arabic AI that preserves heritage and serves the future* |