aditya-6122
/

Tiny-Stories-GRU-LanguageModel-ByteLevelEncoding

@@ -7,7 +7,7 @@ tags:
 - rnn
 - text-generation
 datasets:
-- aditya-6122/tinystories-custom-dataset-17783-v1-test
 pipeline_tag: text-generation
 ---
@@ -36,24 +36,24 @@ Not intended for production use without further validation.
 ## Training Details
 ### Training Data
-The model was trained on the [aditya-6122/tinystories-custom-dataset-17783-v1-test](https://huggingface.co/datasets/aditya-6122/tinystories-custom-dataset-17783-v1-test) dataset.
 ### Training Procedure
 - **Training Regime**: Standard language model training with cross-entropy loss
-- **Epochs**: 1
-- **Batch Size**: 2
 - **Learning Rate**: 0.001
 - **Optimizer**: Adam (assumed)
 - **Hardware**: Apple Silicon MPS (if available) or CPU
 ### Tokenizer
-The model uses the [aditya-6122/tinystories-tokenizer-vb-17783-char_bpe-v1-test](https://huggingface.co/aditya-6122/tinystories-tokenizer-vb-17783-char_bpe-v1-test) tokenizer.
 ### Model Architecture
 - **Architecture Type**: RNN-based language model with GRU cells
 - **Embedding Dimension**: 512
 - **Hidden Dimension**: 1024
-- **Vocabulary Size**: 17783
 - **Architecture Diagram**: See `model_arch.jpg` for visual representation
 ## Files

 - rnn
 - text-generation
 datasets:
+- aditya-6122/tinystories-custom-dataset-18542-v2-test
 pipeline_tag: text-generation
 ---
 ## Training Details
 ### Training Data
+The model was trained on the [aditya-6122/tinystories-custom-dataset-18542-v2-test](https://huggingface.co/datasets/aditya-6122/tinystories-custom-dataset-18542-v2-test) dataset.
 ### Training Procedure
 - **Training Regime**: Standard language model training with cross-entropy loss
+- **Epochs**: 5
+- **Batch Size**: 128
 - **Learning Rate**: 0.001
 - **Optimizer**: Adam (assumed)
 - **Hardware**: Apple Silicon MPS (if available) or CPU
 ### Tokenizer
+The model uses the [aditya-6122/tinystories-tokenizer-vb-18542-byte_level_bpe-v3-test](https://huggingface.co/aditya-6122/tinystories-tokenizer-vb-18542-byte_level_bpe-v3-test) tokenizer.
 ### Model Architecture
 - **Architecture Type**: RNN-based language model with GRU cells
 - **Embedding Dimension**: 512
 - **Hidden Dimension**: 1024
+- **Vocabulary Size**: 18542
 - **Architecture Diagram**: See `model_arch.jpg` for visual representation
 ## Files