このモデルの実行には、 flash-linear-attentionのインストールが必要です。

pip install flash-linear-attention

OpenMOSE/RWKV-24B-A2B-wakaba-2601

hxa07d

Model Overview

OpenMOSE/RWKV-24B-A2B-wakaba-2601 は、
高価なGPUを必要とせず、より多くの人がローカル環境で実用的なLLMを扱えることを目的として設計された
RWKVハイブリッド + Aggressive Sparse MoE モデルです。

近年、AIインフラ投資の急激な拡大により、GPUおよびメモリ価格は著しく高騰しています。
2023年には 24GB VRAM クラスのGPUに約13万円でアクセス可能でしたが、
現在では同等の環境を用意することは容易ではありません。

本モデルは、こうした状況を背景に、

「限られたメモリ・計算資源でも、実用レベルのLLM体験を提供する」

ことを設計目標としています。


Motivation

小規模モデル(2B / 4B クラス)は動作自体は可能ですが、
推論品質・指示追従性・会話安定性の面では、依然として制約があります。

特に 32GB メモリの iGPU PC 環境では、

  • OS が約 16GB を占有
  • 実質利用可能メモリは 16GB 前後
  • iGPU のため TFLOPS にも強い制約(平均的には2TFLOPS前後)

という現実的な制限があります。

本モデルは、こうした 厳しいローカル環境を前提条件として受け入れた上で

  • 24B パラメータ規模
  • Aggressive Sparse MoE(Active Experts = 6)
  • 実効アクティブパラメータ ≒ 2B(A2B)

という設計により、
「小さく見えるが、実用的」なモデルを目指しています。


Architecture & Conversion Pipeline

本モデルは Qwen3-30B-A3B-Instruct-2507 をベースに、
以下の変換・最適化プロセスを経て構築されました。

Conversion Steps

  1. RWKV hxa07D + NoPE Attention ハイブリッド化

  2. Cerebras REAPによる MoE Pruning

    • キャリブレーションデータによって、MoE Expert を 約25%削減し、冗長性を圧縮
  3. Active Experts の削減(8 → 6)

    • 推論時のアクティブパラメータをさらに低減
  4. 教師モデルとの KL-Divergence による性能復元

    • 削減による性能劣化を最小限に抑制

Model Characteristics

  • 非線形容量は意図的に削減されているため、
    純粋な知識タスクや長文暗記型ベンチマークは得意ではありません
  • 一方で、
    • RAG(Retrieval-Augmented Generation)
    • 外部知識ベースとの併用
    • ツール・エージェント統合 などと組み合わせることで、実運用に耐える構成を目指しています

Model Specifications

Item Value
Total Parameters 24B
Active Parameters ~2B (A2B)
Total Layers 48
RWKV Layers 40
NoPE Attention Layers 8

Intended Use

  • ローカル LLM 実行(iGPU / 低〜中級 GPU 環境)
  • RAG + Chat / Agent ベースのアプリケーション
  • 低メモリ環境での研究・検証用途
  • RWKV / Hybrid Architecture の実験的検証

Limitations

  • 大規模知識暗記タスクには不向き
  • 教師モデル(30Bクラス)と同等性能を保証するものではありません
  • 依然として「育成途中」のモデルです

Acknowledgements

本モデルは、Recursal AI, Featherless AI による
計算資源および技術的支援によって実現しました。
ここに深く感謝の意を表します。 AMD Instinct MI325X x 8 110h total


Datasets

kldivを行う上で、データセットとしては、DCLM-10Bから長文ソートで、10%、Instructデータとして、Qwen3-235B-Instructの合成データを作成し使用しました。 データセットBiasによる弊害をさけるため、SFTは行っていません。



Closing Notes

モデル名の通り、本モデルはまだ 「若葉(wakaba)」 の段階です。
しかし、一つひとつ改善と検証を重ねながら、
「誰もが手の届く高性能AI」 を目指して育てていきます。

今後の成長を、ぜひ温かい目で見守っていただければ幸いです。


OpenMOSE — 2026

Downloads last month
-
Safetensors
Model size
24B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for OpenMOSE/RWKV-24B-A2B-wakaba-2601

Finetuned
(1)
this model
Quantizations
1 model

Collection including OpenMOSE/RWKV-24B-A2B-wakaba-2601