Tay_Embedding / tokenizer_config.json

Tay–Vietnamese embedding trained with contrastive learning

180af21 verified 4 months ago

418 Bytes

	{
	"add_prefix_space": true,
	"backend": "tokenizers",
	"bos_token": "<s>",
	"clean_up_tokenization_spaces": true,
	"cls_token": "<s>",
	"eos_token": "</s>",
	"is_local": true,
	"mask_token": "<mask>",
	"model_max_length": 8192,
	"model_specific_special_tokens": {},
	"pad_token": "<pad>",
	"sep_token": "</s>",
	"sp_model_kwargs": {},
	"tokenizer_class": "XLMRobertaTokenizer",
	"unk_token": "<unk>"
	}