Vision Tasks - a alecccdd Collection

alecccdd 's Collections

Impressive Large Models

Vision Tasks (Watermark)

Vision Tasks (Humans)

Vision Datasets

Vision Datasets (Human)

Diffusion Tasks

Text Generation

Text Datasets (Reasoning)

Text Datasets (Grammar)

small & highly efficient

Vision Tasks

updated May 27

BAAI/seggpt-vit-large

0.4B • Updated 1 day ago • 13.4k • 5
q-future/one-align

Zero-Shot Image Classification • Updated May 14, 2024 • 194k • 44
Running on Zero

Agents

17

Qwen-VL Object-Detection

✨

17

Compare Qwen-VL models for object detection.
Running

Agents

39

Joycaption Watermark Detection

🔥

39

Watermark detection
Configuration error

Agents

Featured

41

SAM3 VLM-FO1

👁

41

Complex text label dection using SAM3 with VLM-FO1
SnJake/Ref2Font

Text-to-Image • Updated Feb 12 • 8 • 37
facebook/DepthLM

Image-Text-to-Text • 13B • Updated Feb 7 • 30 • 40
Running on Zero

Agents

Featured

47

DA-2

⚽

47

Official demo of DA^2: Depth Anything in Any Direction
DepthLM: Metric Depth From Vision Language Models

Paper • 2509.25413 • Published Sep 29, 2025 • 8
RekaAI/reka-edge-2603

Image-Text-to-Text • 7B • Updated Apr 24 • 320 • 131
RedRocket/Hydra

Image Classification • Updated 9 days ago • 39
nvidia/LocateAnything-3B

Image-Text-to-Text • 4B • Updated Jun 12 • 1.5M • 2.72k