atasoglu
/

vit-bert-flickr8k

Image-to-Text

Transformers

PyTorch

Safetensors

English

vision-encoder-decoder

image-text-to-text

image

vision

Model card Files Files and versions

xet

Community

vit-bert-flickr8k

File size: 325 Bytes

407bf73

{
  "do_normalize": true,
  "do_rescale": true,
  "do_resize": true,
  "image_mean": [
    0.5,
    0.5,
    0.5
  ],
  "image_processor_type": "ViTImageProcessor",
  "image_std": [
    0.5,
    0.5,
    0.5
  ],
  "resample": 2,
  "rescale_factor": 0.00392156862745098,
  "size": {
    "height": 224,
    "width": 224
  }
}