acsfid
/

PaddleOCR-VL-1.5-VisionEncoder

@@ -22,6 +22,7 @@ FULL_VISUAL_PREFIX = "visual."
 FULL_PROJECTOR_PREFIX = "mlp_AR."
 STANDALONE_VISUAL_PREFIX = "visual."
 STANDALONE_PROJECTOR_PREFIX = "projector."
 def _read_json(path: Union[str, Path]) -> Dict[str, Any]:
@@ -360,7 +361,9 @@ class PaddleOCRVLVisionTower(torch.nn.Module):
     ) -> Dict[str, Any]:
         image_processor = image_processor or PaddleOCRVLImageProcessor(
             patch_size=self.config.vision_config.patch_size,
-            temporal_patch_size=self.config.vision_config.temporal_patch_size,
             merge_size=self.config.vision_config.spatial_merge_size,
         )
         encoded: BatchFeature = image_processor(

 FULL_PROJECTOR_PREFIX = "mlp_AR."
 STANDALONE_VISUAL_PREFIX = "visual."
 STANDALONE_PROJECTOR_PREFIX = "projector."
+IMAGE_PROCESSOR_TEMPORAL_PATCH_SIZE = 1
 def _read_json(path: Union[str, Path]) -> Dict[str, Any]:
     ) -> Dict[str, Any]:
         image_processor = image_processor or PaddleOCRVLImageProcessor(
             patch_size=self.config.vision_config.patch_size,
+            # The current image preprocessing implementation is image-only and asserts
+            # `temporal_patch_size == 1`, even though the vision model config may store 2.
+            temporal_patch_size=IMAGE_PROCESSOR_TEMPORAL_PATCH_SIZE,
             merge_size=self.config.vision_config.spatial_merge_size,
         )
         encoded: BatchFeature = image_processor(