sequelbox
/

Ministral-3-14B-Reasoning-2512-PlumEsper1.1

shining-valiant

ministral-3-14b

science-reasoning

machine-learning

artificial-intelligence

computer-science

information-theory

self-improvement

complex-systems

knowledge-management

problem-solving

Model card Files Files and versions

PlumEsper

This is a merge of pre-trained language models created using mergekit, combining the specialty and general reasoning skills of Esper 3.1 14b and Shining Valiant 3 14b.

Merge Details

Merge Method

This model was merged using the DELLA merge method using mistralai/Ministral-3-14B-Reasoning-2512 as a base.

Models Merged

The following models were included in the merge:

Configuration

The following YAML configuration was used to produce this model:

merge_method: della
dtype: bfloat16
parameters:
  normalize: true
tokenizer:
  source: "base"
models:
  - model: ValiantLabs/Ministral-3-14B-Reasoning-2512-Esper3.1
    parameters:
      density: 0.5
      weight: 0.8
  - model: ValiantLabs/Ministral-3-14B-Reasoning-2512-ShiningValiant3
    parameters:
      density: 0.5
      weight: 0.8
base_model: mistralai/Ministral-3-14B-Reasoning-2512

Downloads last month: 7

Safetensors

Model size

14B params

Tensor type

BF16

·

Model tree for sequelbox/Ministral-3-14B-Reasoning-2512-PlumEsper1.1

ValiantLabs/Ministral-3-14B-Reasoning-2512-Esper3.1

ValiantLabs/Ministral-3-14B-Reasoning-2512-ShiningValiant3

mistralai/Ministral-3-14B-Reasoning-2512

Merge model

this model

Quantizations

Datasets used to train sequelbox/Ministral-3-14B-Reasoning-2512-PlumEsper1.1

Paper for sequelbox/Ministral-3-14B-Reasoning-2512-PlumEsper1.1

DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling

Paper • 2406.11617 • Published Jun 17, 2024 • 8