CalamitousFelicitousness commited on Jun 3

Commit

7a47263

verified ·

1 Parent(s): 5c1c1f1

Upload folder using huggingface_hub

Browse files

Files changed (28) hide show

.gitattributes +1 -0
LICENSE.md +55 -0
README.md +350 -0
model_index.json +28 -0
scheduler/scheduler_config.json +18 -0
text_encoder/config.json +65 -0
text_encoder/model-00001-of-00004.safetensors +3 -0
text_encoder/model-00002-of-00004.safetensors +3 -0
text_encoder/model-00003-of-00004.safetensors +3 -0
text_encoder/model-00004-of-00004.safetensors +3 -0
text_encoder/model.safetensors.index.json +756 -0
tokenizer/chat_template.jinja +120 -0
tokenizer/tokenizer.json +3 -0
tokenizer/tokenizer_config.json +30 -0
transformer/config.json +18 -0
transformer/diffusion_pytorch_model-00001-of-00004.safetensors +3 -0
transformer/diffusion_pytorch_model-00002-of-00004.safetensors +3 -0
transformer/diffusion_pytorch_model-00003-of-00004.safetensors +3 -0
transformer/diffusion_pytorch_model-00004-of-00004.safetensors +3 -0
transformer/diffusion_pytorch_model.safetensors.index.json +465 -0
unconditional_transformer/config.json +18 -0
unconditional_transformer/diffusion_pytorch_model-00001-of-00004.safetensors +3 -0
unconditional_transformer/diffusion_pytorch_model-00002-of-00004.safetensors +3 -0
unconditional_transformer/diffusion_pytorch_model-00003-of-00004.safetensors +3 -0
unconditional_transformer/diffusion_pytorch_model-00004-of-00004.safetensors +3 -0
unconditional_transformer/diffusion_pytorch_model.safetensors.index.json +465 -0
vae/config.json +40 -0
vae/diffusion_pytorch_model.safetensors +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer/tokenizer.json filter=lfs diff=lfs merge=lfs -text

LICENSE.md ADDED Viewed

	@@ -0,0 +1,55 @@

+Ideogram Non-Commercial Model Agreement
+Last Updated: June 3, 2026
+This Ideogram Non-Commercial Model Agreement (“Agreement”) is a legal agreement between you and Ideogram, Inc. (“Company”, “we” or “us”). This Agreement governs your access to and use of the Models (as defined below) that we make available to you under this Agreement. You expressly agree that if you accept the terms of this Agreement or if you otherwise download, access, use or Distribute any portion of the Model or Model Derivatives, then you agree to be bound by this Agreement. Company may designate certain materials that are designed to be used with the Models (such as related inference code) under a separate license or agreement, and nothing in this Agreement will be deemed to restrict or limit any other rights or licenses granted by Company in such other materials.
+If you are entering into this Agreement on behalf of an entity, then “you” means that entity, and you represent and warrant that (a) you are an authorized representative of the entity with the authority to bind the entity to this Agreement and (b) you agree to this Agreement on the entity’s behalf.
+1. Definitions.
+(a) “Distribution” or “Distribute” means any distribution, making available, transmission, publication or other sharing of the Model or any Model Derivative with or to a third party, including by providing or making the Model or its functionality available as a hosted service via API, web access or any other electronic or remote means (“Hosted Service”), and including by incorporating the Model into products or services that you make available to third parties.
+(b) “Model” means the machine learning model, software, algorithms, trained model weights, parameters and documentation that Company designates as subject to this Agreement. For clarity, the following are considered Models subject to this Agreement: Ideogram 4.
+(c) “Model Derivative” means all (i) modifications to, and fine-tuned versions of, the Model, (ii) any other machine learning model which is created by transferring the weights and parameters of the Model (or patterns thereof) to such model in a manner that causes it to perform similar to the Model, or (iii) any other derivatives of the Model. For clarity, an Output is not a Model Derivative.
+(d) “Non-Commercial Purposes” means activity or use that fits in any of the following categories: (i) use that does not directly or indirectly generate revenue and is not otherwise intended for or directed towards commercial advantage or monetary compensation, (ii) use by a for-profit entity solely for testing, evaluation, or research and development in a “non-production environment” (an environment that is not deployed in live systems, customer-facing applications or any other environment beyond internal development, testing or prototyping), (iii) personal use for research, experimentation, testing purposes as part of a personal study, private entertainment or hobby project, or (iv) use by a charitable organization for charitable purposes. Without limiting the foregoing, any use that involves training, fine tuning, or distilling AI models for commercial use or that involves generating Output to include in, or to advertise or promote, revenue-generating products or services, in each case, is not a Non-Commercial Purpose.
+(e) “Output” means any content or other output generated by the inference operation of the Model or any Model Derivative, in response to an input or prompt provided by the user. For the avoidance of doubt, Outputs do not include any components of a Model, such as any fine-tuned versions of the Model, the weights, or parameters.
+2. Grant of Rights.
+We hereby permit you to use, reproduce, Distribute, copy, create derivative works of (including Model Derivatives), and make modifications to the Model for Non-Commercial Purposes subject to the terms of this Agreement, including any use restrictions set forth below. For clarity, you are only authorized to exercise the rights under this Agreement for Non-Commercial Purposes only, and may not exercise any of the rights under this Agreement for other purposes unless or until Company otherwise expressly grants you such rights in a separate agreement, which Company may grant or not grant in its sole discretion.
+3. Redistribution and Use.
+You may reproduce or Distribute copies of the Model or Model Derivatives only if you meet all of the following conditions: (i) all permitted use of the reproduced and re-Distributed Model or Model Derivatives must be on terms that are no less restrictive than those set forth in this Agreement for the Model (e.g., including the same standards for Non-Commercial Purposes as set forth in Section 2 above and at least the same use restrictions set forth in Section 4 below), (ii) you provide all third party recipients of the Model or Model Derivative a copy of this Agreement; (iii) you retain in all copies of the Model or Model Derivatives that you Distribute the following attribution notice within a “Notice” text file that accompanies such copy: “Ideogram 4 is provided under and subject to the Ideogram Non-Commercial Model Agreement available at https://github.com/ideogram-oss/ideogram-4/model_licenses/LICENSE-IDEOGRAM-4-NON-COMMERCIAL. All rights reserved. Copyright © Ideogram, Inc.”; (iv) you cause any modified files to carry prominent notices stating that you modified the files; (v) any terms and conditions you impose on third-party recipients must include a disclaimer of warranties and limitation of liability provisions that are at least as protective of Company as those set forth herein; and (vi) you must not misrepresent or imply that any Model Derivative made by you is an official product of Company or has been endorsed, approved or validated by Company.
+4. Use Restrictions.
+Your use of the Model and any Model Derivative must comply with applicable laws and regulations (including trade compliance laws and regulations) and adhere to the Acceptable Use Policy available at https://ideogram.ai/legal/usage-policy, which is hereby incorporated by reference into this Agreement. Without limiting the foregoing, you will not (and will not permit or enable any third party to) use the Model or any Model Derivative: (a) for military purposes or purposes of surveillance, including any research or development relating to surveillance; (b) for biometric processing; (c) in any manner that infringes, misappropriates, or otherwise violates any third party’s legal rights, including rights of publicity; (d) to generate unlawful content, including child sexual abuse material or non-consensual intimate images; (e) in any manner that violates any applicable privacy or data protection laws; or (f) to make automated decisions in domains that affect material or individual rights or well-being (e.g., finance, legal, employment, healthcare, housing, insurance and social welfare) or otherwise in a manner that poses a significant risk of harm to the health, safety or fundamental rights of persons, including to influence any “consequential decision” under applicable law or for any other use case that is categorized as “high risk” under applicable law (“High Risk Use Cases”). You are responsible for implementing appropriate safety measures, including content filters and human oversight, suitable for your use case and to prevent the creation, display, generation or reproduction of unlawful or infringing content, and for including any legally required disclosure (or other provenance measures) to disclose that the Output was generated or modified using artificial intelligence technologies. However, we may also implement certain safety measures, content protections and other technological measures for the Model, including content filters and watermarking, and you agree that you will not circumvent, remove, alter, deactivate, degrade or thwart any such measures. To the extent required under applicable law, you must ensure any Output includes disclosure or other indication that the Output was generated or modified using artificial intelligence technologies.
+5. Disclaimer of Warranty.
+UNLESS REQUIRED BY APPLICABLE LAW, THE MODEL, ANY MODEL DERIVATIVE AND ANY OUTPUT AND RESULTS THEREFROM ARE PROVIDED ON AN “AS IS” BASIS, WITHOUT WARRANTIES OF ANY KIND, AND WE DISCLAIM ALL WARRANTIES OF ANY KIND, BOTH EXPRESS AND IMPLIED, INCLUDING, WITHOUT LIMITATION, ANY WARRANTIES OF TITLE, NON-INFRINGEMENT, MERCHANTABILITY, OR FITNESS FOR A PARTICULAR PURPOSE. YOU ARE SOLELY RESPONSIBLE FOR DETERMINING THE APPROPRIATENESS OF, AND ASSUME ALL RISKS ASSOCIATED WITH, USING, REPRODUCING, MODIFYING, PERFORMING, DISPLAYING OR DISTRIBUTING THE MODEL, ANY MODEL DERIVATIVE OR ANY OUTPUT. YOU AGREE THAT THE MODEL AND ANY MODEL DERIVATIVE ARE NOT DESIGNED OR INTENDED FOR HIGH RISK USE CASES OR AS PART OF HIGH RISK AI SYSTEMS (AS DEFINED UNDER APPLICABLE LAWS), AND ANY SUCH USE IS IN VIOLATION OF THIS AGREEMENT AND AT YOUR OWN RISK.
+6. Limitation of Liability.
+IN NO EVENT WILL COMPANY OR ITS AFFILIATES BE LIABLE UNDER ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, TORT, NEGLIGENCE, PRODUCTS LIABILITY, OR OTHERWISE, ARISING OUT OF THIS AGREEMENT, FOR DAMAGES OF ANY KIND, INCLUDING DIRECT, INDIRECT, SPECIAL, CONSEQUENTIAL, INCIDENTAL, EXEMPLARY OR PUNITIVE DAMAGES OR LOST PROFITS OF ANY KIND, EVEN IF COMPANY OR ITS AFFILIATES HAVE BEEN ADVISED OF THE POSSIBILITY OF ANY OF THE FOREGOING.
+7. Intellectual Property.
+Company reserves any rights not expressly granted herein. Nothing in this Agreement grants you any rights to use Company’s trademarks, trade names, or logos (except as required for the attribution described above). Subject to Company’s ownership of the Model and Model Derivatives made by or for Company, with respect to any Model Derivatives that are made by you, as between you and Company, you own any incremental rights in such Model Derivatives beyond Company’s rights in the underlying Model or its own Model Derivatives. We claim no rights in outputs you generate using the Model. You are responsible for outputs and their subsequent uses. You may not use any Output to develop, train, fine-tune or distill a model or other product or services that is competitive with the Model or any of Company’s other products or services.
+8. Indemnification.
+You will indemnify and hold harmless the Company and its affiliates and each of their respective shareholders, directors, officers, employees, agents, successors, and assigns (collectively, the “Company Parties”) from and against any losses, liabilities, damages, fines, penalties, and expenses (including reasonable attorneys’ fees) incurred by any Company Party in connection with any claim, demand, allegation, lawsuit, proceeding, or investigation arising out of or related to your use, access, hosting or Distribution of the Model or Model Derivatives or any Outputs or your breach of this Agreement.
+9. Term and Termination.
+This Agreement continues in full force and effect until terminated in accordance with the terms and conditions herein. We may terminate this Agreement at any time upon notice to you. We may also terminate this Agreement if you are in breach of any term or condition of this Agreement. If you institute litigation or other proceedings against Company or any entity (including a cross-claim or counterclaim in a lawsuit) alleging that the Model, Model Derivative or output, or any portion of any of the foregoing, constitutes infringement of intellectual property or other rights owned or licensable by you, then any licenses granted to you under this Agreement shall terminate as of the date such litigation or claim is filed or instituted. Upon termination of this Agreement, you shall delete and cease use or Distribution of the Model and any Model Derivative. Sections 5–10 shall survive the termination of this Agreement.
+10. General.
+This Agreement will be governed and construed under the laws of the State of New York without regard to conflicts of law provisions. If any provision or part of a provision of this Agreement is unlawful, void or unenforceable, that provision or part of the provision is deemed severed from this Agreement, and will not affect the validity and enforceability of any remaining provisions. The failure of Company to exercise or enforce any right or provision of this Agreement will not operate as a waiver of such right or provision. This Agreement does not confer any third-party beneficiary rights upon any other person or entity. This Agreement contains the entire understanding between you and Company regarding the subject matter of this Agreement, and supersedes all other written or oral agreements and understandings between you and Company regarding such subject matter. You may not assign or transfer this Agreement, including any of your rights or obligations hereunder, without the prior written consent of Company. Any purported assignment not in accordance with this Section will be null and void. We may modify this Agreement from time to time in which case we will update the “Last Updated” date at the top of these Terms. It is your sole responsibility to review this Agreement from time to time to view any such changes. The updated Agreement will be effective as of the time of posting, or such later date as may be specified in the updated Agreement. Your continued access or use of the Model or any Model Derivatives after the modifications have become effective will be deemed your acceptance of the modified Agreement.

README.md ADDED Viewed

	@@ -0,0 +1,350 @@

+---
+license: other
+license_name: ideogram-4-non-commercial
+license_link: https://huggingface.co/ideogram-ai/ideogram-4-fp8/blob/main/LICENSE.md
+pipeline_tag: text-to-image
+tags:
+  - text-to-image
+  - image-generation
+  - diffusion
+  - flow-matching
+  - dit
+  - ideogram
+---
+# bf16 Diffusers conversion of [Ideogram 4](https://huggingface.co/ideogram-ai/ideogram-4-fp8)
+<p align="center"><a href="https://ideogram.ai/" target="_blank" rel="noopener noreferrer"><img src="https://raw.githubusercontent.com/ideogram-oss/ideogram4/main/assets/ideogram_logo.svg" alt="Ideogram" width="500"></a></p>
+<p align="center"><em>Ideogram 4: Open image model at the forefront of design</em></p>
+<p align="center">
+  <a href="https://ideogram.ai/blog/ideogram-4.0/" target="_blank" rel="noopener noreferrer"><img src="https://img.shields.io/badge/Blog-Post-orange" alt="Blog Post"></a>
+  <a href="https://github.com/ideogram-oss/ideogram4" target="_blank" rel="noopener noreferrer"><img src="https://img.shields.io/badge/Code-GitHub-181717?logo=github" alt="Code"></a>
+  <a href="https://huggingface.co/collections/ideogram-ai/ideogram-4" target="_blank" rel="noopener noreferrer"><img src="https://img.shields.io/badge/Model-HuggingFace-blue?logo=huggingface" alt="Model"></a>
+  <a href="https://developer.ideogram.ai/" target="_blank" rel="noopener noreferrer"><img src="https://img.shields.io/badge/API-developer.ideogram.ai-purple" alt="API"></a>
+  <a href="https://ideogram.ai/" target="_blank" rel="noopener noreferrer"><img src="https://img.shields.io/badge/Official%20Site-ideogram.ai-ff69b4" alt="Official Site"></a>
+</p>
+<p align="center">
+  <img src="https://raw.githubusercontent.com/ideogram-oss/ideogram4/main/assets/samples/collage_landscape.jpg" alt="A collage of Ideogram 4 samples spanning photorealism, illustration, typography, and poster design">
+</p>
+Ideogram 4 is **[Ideogram](https://ideogram.ai)'s first open weight text-to-image model**. It is a **state-of-the-art foundation model trained from scratch** — not a fine-tune of any existing model. It introduces a new structured JSON prompting interface, with best-in-class multilingual text rendering, deep language understanding, explicit bounding-box layout and color-palette controls, and native 2k resolution images. The easiest way to try the model is online at **[ideogram.ai](https://ideogram.ai/)**.
+We believe openness drives innovation, and we invite the research community to innovate with us on the forefront of visual intelligence.
+## Table of Contents
+1. [News](#news)
+2. [Model Zoo](#model-zoo)
+3. [Performance](#performance)
+4. [Quick Start](#quick-start)
+5. [Model Summary](#model-summary)
+6. [Prompting Guide](#prompting-guide)
+7. [Documentation](#documentation)
+8. [Citation](#citation)
+## News
+* **[2026-06-03]** **Ideogram 4 released!** Inference code and weights
+  are now public, and our [technical blog post](https://ideogram.ai/blog/ideogram-4.0/) is live. See the
+  [Quick Start](#quick-start) section to generate your first image, or try the
+  model online at [ideogram.ai](https://ideogram.ai/).
+## Model Zoo
+| Model | Params | Weight Quantization | Supported Hardware | Diffusers Support | License |
+| :---  | :---:  | :---:        | :---:   | :---:   | :---:   |
+| **[Ideogram 4 (nf4)](https://huggingface.co/ideogram-ai/ideogram-4-nf4)** | 9.3B | nf4 | CUDA | Yes | [Ideogram 4 Non-Commercial](https://huggingface.co/ideogram-ai/ideogram-4-nf4/blob/main/LICENSE.md) |
+| **[Ideogram 4 (fp8)](https://huggingface.co/ideogram-ai/ideogram-4-fp8)** | 9.3B | fp8 | All | No | [Ideogram 4 Non-Commercial](https://huggingface.co/ideogram-ai/ideogram-4-fp8/blob/main/LICENSE.md) |
+We plan to support more quantizations in the future.
+## Performance
+We evaluate Ideogram 4 across third-party arenas and benchmarks, standard
+open-source benchmarks, and our own internal human-preference benchmark. Across
+all of them, **Ideogram 4 is the best open-weight image model by far, and sits
+at the frontier of design.**
+### Design Arena
+[Design Arena](https://www.designarena.ai/) is a third-party image Elo
+leaderboard focused specifically on design-oriented generation. On the overall
+board, Ideogram 4 is the top-ranked open-weight model, trailing only proprietary
+GPT and Gemini models:
+<p align="center">
+  <img src="https://raw.githubusercontent.com/ideogram-oss/ideogram4/main/assets/benchmarks/design_arena.png" alt="Design Arena overall image Elo leaderboard with Ideogram 4.0 as the top open-weight model">
+</p>
+Filtered to open-weight models only, Ideogram 4 leads by a commanding margin,
+well ahead of the next-best open model:
+<p align="center">
+  <img src="https://raw.githubusercontent.com/ideogram-oss/ideogram4/main/assets/benchmarks/design_arena2.png" alt="Design Arena open-weight image Elo leaderboard, with Ideogram 4.0 well ahead of all other open models">
+</p>
+### ContraLabs
+[ContraLabs](https://contralabs.com/research) ran a blind typography evaluation judged by
+ten professional designers from Contra's top-earning talent. Ideogram 4 leads on
+first-place win rate, picked as the best of four models 47.9% of the time
+overall — well ahead of Gemini 3.1 Flash Image Preview (Nano Banana 2) at 30.0%,
+FLUX.2 [max] (15.5%), and Grok Imagine 1.0 (15.0%):
+<p align="center">
+  <img src="https://raw.githubusercontent.com/ideogram-oss/ideogram4/main/assets/benchmarks/contralabs_typography.png" alt="ContraLabs typography first-place win rate, with Ideogram v4 leading">
+</p>
+It also wins on practical usability: asked "Would you use this in real client
+work?", the same designers rated Ideogram 4 highest at 3.55 / 5 — significantly
+above Nano Banana 2 (2.84), Grok Imagine 1.0 (2.61), and FLUX.2 [max] (2.49):
+<p align="center">
+  <img src="https://raw.githubusercontent.com/ideogram-oss/ideogram4/main/assets/benchmarks/contralabs_typography2.png" alt="ContraLabs 'would you use this in real client work?' rating, with Ideogram v4 leading">
+</p>
+### LMArena
+On [LMArena](https://lmarena.ai/), a third-party text-to-image leaderboard that
+measures general-purpose text-to-image use cases, Ideogram is the top-ranked
+open-weight lab and a top-5 image generation lab overall — beaten only by giant
+companies with vastly larger budgets and resources:
+<p align="center">
+  <img src="https://raw.githubusercontent.com/ideogram-oss/ideogram4/main/assets/benchmarks/lmarena_benchmark.png" alt="LMArena text-to-image lab leaderboard with Ideogram">
+</p>
+### Ideogram internal eval
+For our internal human-preference benchmark, focused on graphic design and
+photography, we had graphic designers deeply familiar with professional design
+work do the rating blind. Bradley-Terry scores rank Ideogram 4 #2 overall —
+behind only GPT Image 2 medium — and the top open-weight model:
+<p align="center">
+  <img src="https://raw.githubusercontent.com/ideogram-oss/ideogram4/main/assets/benchmarks/ideogram_benchmark.png" alt="Ideogram internal design leaderboard with Ideogram 4.0">
+</p>
+### Open-source benchmarks
+On standard open-source benchmarks measuring core capabilities — layout control
+(7Bench), spatial reasoning and object fidelity (SpatialGenEval), text rendering
+(X-Omni OCR), and prompt alignment (Prism) — Ideogram 4 closes the gap to the
+leading closed-source models across every axis. On layout control (7Bench), it
+is significantly better than all closed-source models:
+<p align="center">
+  <img src="https://raw.githubusercontent.com/ideogram-oss/ideogram4/main/assets/benchmarks/opensource.png" alt="Five-axis capability radar comparing Ideogram 4.0 to leading closed-source models on layout control, spatial reasoning, object fidelity, prompt alignment, and text rendering">
+</p>
+At 9.3B parameters, Ideogram 4 delivers the best text rendering of any open-weight
+release we benchmarked — ahead of much larger models like Qwen-Image (20B),
+FLUX.2 [dev] (32B), and HunyuanImage 3.0 (80B MoE):
+<p align="center">
+  <img src="https://raw.githubusercontent.com/ideogram-oss/ideogram4/main/assets/benchmarks/opensource2.png" alt="Parameter-efficiency scatter plot showing Ideogram 4.0 at 9.3B parameters leading all other open-weight models on text rendering">
+</p>
+## Quick Start
+### Install
+The inference code lives in the [`ideogram4`](https://github.com/ideogram-oss/ideogram4) GitHub repo. Clone it, then from the repo root:
+```bash
+pip install .
+```
+If you plan to modify the code, install in editable mode instead so changes
+under `src/ideogram4/` take effect without reinstalling:
+```bash
+pip install -e .
+```
+### Model access
+The model weights are **gated** on Hugging Face, so you must accept the gate and
+authenticate before the code can download them — otherwise the download fails
+with a `404` / `GatedRepoError`.
+1. Open the model page — [ideogram-ai/ideogram-4-nf4](https://huggingface.co/ideogram-ai/ideogram-4-nf4)
+   (or [ideogram-ai/ideogram-4-fp8](https://huggingface.co/ideogram-ai/ideogram-4-fp8)) — and click
+   **Agree and access repository** to accept the license gate.
+2. Create a Hugging Face access token at
+   [huggingface.co/settings/tokens](https://huggingface.co/settings/tokens) and log in so the
+   download is authenticated:
+   ```bash
+   hf auth login
+   ```
+   Alternatively, export the token directly: `export HF_TOKEN="hf_..."`.
+### CLI
+The plain `--prompt` is rewritten into the structured JSON caption the model
+expects by a "magic prompt" LLM. By default this uses Ideogram's hosted
+magic-prompt API, which is **free** and does the expansion server-side (no local
+model or system prompt needed). It reads `IDEOGRAM_API_KEY` — get a key at
+[developer.ideogram.ai](https://developer.ideogram.ai/):
+```bash
+python run_inference.py \
+  --prompt "a ginger cat wearing a tiny wizard hat reading a spellbook" \
+  --output out.png \
+  --quantization "nf4" \
+  --magic-prompt-key "$IDEOGRAM_API_KEY"
+```
+You can also run the expansion through your own LLM provider — one of our magic-prompt
+system prompt is **open source**. See the
+[Prompting Guide](https://github.com/ideogram-oss/ideogram4/blob/main/docs/prompting.md#magic-prompt) for details.
+For the highest-quality images, set `--height 2048 --width 2048` and
+`--sampler-preset V4_QUALITY_48`.
+#### Safety screening with Hive
+Prompt and output safety screening is performed via [Hive](https://thehive.ai/).
+Sign up and create a Text Moderation key and a Visual Content Moderation key,
+then export them as `HIVE_TEXT_MODERATION_KEY` and `HIVE_VISUAL_MODERATION_KEY`
+(or pass them via `--hive-text-key` / `--hive-visual-key`).
+```bash
+python run_inference.py \
+  --prompt "an isometric illustration of a tiny city floating in the clouds" \
+  --output out.png \
+  --quantization "nf4" \
+  --magic-prompt-key "$MAGIC_PROMPT_API_KEY" \
+  --hive-text-key "$HIVE_TEXT_MODERATION_KEY" \
+  --hive-visual-key "$HIVE_VISUAL_MODERATION_KEY"
+```
+For sampler presets, parameter reference, and optimization tips, see
+[docs/inference.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/inference.md).
+## Model Summary
+Ideogram 4 is a **foundation model trained entirely from scratch**, not a
+fine-tune or distillation of any existing checkpoint. It is a flow-matching
+text-to-image model built on a **fully single-stream** Diffusion Transformer
+(DiT) architecture.
+**Architecture:**
+- **Fully single-stream DiT.** Text and image tokens are concatenated into one
+  unified sequence and processed through the same 34-layer transformer, with no
+  separate text or image branches. This enables deep cross-modal interaction at
+  every layer.
+- **Vision-language model as text encoder.** Instead of a text-only encoder
+  like CLIP or T5, Ideogram 4 uses
+  [Qwen3-VL-8B-Instruct](https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct),
+  a full vision-language model that provides far richer understanding of visual
+  concepts. Hidden states are extracted from **13 intermediate layers** and
+  concatenated, giving the model multi-scale semantic features ranging from
+  surface-level token information to deep compositional understanding.
+- **Dual-branch classifier-free guidance.** The conditional (positive) and
+  unconditional (negative) branches can be independently refined, enabling
+  separate control over prompt adherence and image quality.
+- **Flexible resolution.** Native support for any resolution from 256 to 2048
+  (multiples of 16), with aspect ratios up to 6:1. A single model handles
+  everything from square thumbnails to ultrawide banners, with the noise
+  schedule auto-adjusting per resolution.
+**Key Capabilities:**
+- **Extreme controllability.** Ideogram 4 is trained on structured JSON
+  captions, giving users unprecedented control over composition, style,
+  lighting, color palette, typography, and spatial layout, all from a single
+  prompt.
+- **State-of-the-art text rendering.** Ideogram 4 delivers best-in-class
+  in-image text generation (signage, logos, captions, watermarks, multi-line
+  text) with high fidelity directly from the prompt.
+- **Spatial layout control.** Bounding-box coordinates in the prompt allow
+  explicit placement of subjects, text elements, and background regions.
+- **Color palette conditioning.** Specify hex colors in the prompt to steer the
+  image's dominant color scheme.
+For full architecture details, see
+[docs/model_architecture.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/model_architecture.md). For a walkthrough of
+how the pipeline components fit together, see
+[docs/pipeline.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/pipeline.md).
+## Prompting Guide
+Ideogram 4 is trained exclusively on **structured JSON captions**. While
+plain-text prompts work, you will get the best results by providing a JSON
+object that follows our caption schema.
+Key points:
+- **Use JSON prompts** for maximum controllability — the model was trained on
+  them and understands the structure natively.
+- **Color palette conditioning** — specify a `colour_palette` array of hex
+  colors in the style description to steer the image's color scheme.
+- **Aspect ratio flexibility** — Ideogram 4 supports a wide range of aspect
+  ratios (any multiple-of-16 resolution from 256 to 2048 on each side). This
+  is a key advantage for practical use: portraits, landscapes, banners,
+  phone wallpapers, social media formats, etc.
+- **Bounding-box layout** — specify `bbox` coordinates in the prompt to
+  explicitly place subjects, text elements, and background regions.
+- **Compositional control** — use `compositional_deconstruction` with bounding
+  boxes and per-element descriptions for precise spatial layout.
+**Why JSON-only training?** We train exclusively on JSON so that training
+and inference share a single, common prompt format. The training captions themselves are deliberately
+**extremely descriptive**: each JSON exhaustively describes everything in
+the image to maximize training efficiency. The more
+text-to-image relationships each caption pins down, the more grounded
+supervision the model extracts from a single training pair, rather than
+having to infer those relationships across many sparsely-captioned samples.
+**Why JSON at inference time?** Because the model was trained on captions
+that name every object explicitly, the most reliable way to get every
+requested object rendered is to mirror that pattern. Plain-text prompts still work, but
+won't perform as well since the model was only trained on structured JSON captions.
+**Don't want to write JSON by hand?** That's what *magic prompt* is for: it uses
+an LLM to expand a plain-text prompt into a full structured caption before
+generation, so you get JSON-quality results from a casual prompt. It runs by
+default in `run_inference.py` (see the [CLI](#cli) section).
+See [docs/prompting.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/prompting.md) for a full guide.
+## Documentation
+| Document | Description |
+| :------- | :---------- |
+| [docs/prompting.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/prompting.md) | How to write JSON prompts, color palette conditioning, aspect ratios |
+| [docs/inference.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/inference.md) | Sampler presets, parameter reference, resolutions, optimization tips |
+| [docs/model_architecture.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/model_architecture.md) | Architecture diagram, DiT spec, component details |
+| [docs/pipeline.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/pipeline.md) | Conceptual pipeline walkthrough — how all components fit together |
+| [docs/development.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/development.md) | Dev setup, pre-commit hooks, contributing |
+| [docs/safety.md](https://github.com/ideogram-oss/ideogram4/blob/main/docs/safety.md) | Pre-training, post-training, and inference-time safety mitigations; how to report violations |
+## Citation
+If you find the provided code or models useful for your research, consider citing them as:
+```bibtex
+@misc{ideogram-4-2026,
+    author={Ideogram AI},
+    title={{Ideogram 4}},
+    year={2026},
+    howpublished={\url{https://ideogram.ai/blog/ideogram-4.0/}},
+}
+```
+## We're Hiring!
+We're looking for **Research Scientists** and **Research Engineers** to
+work on next-generation generative models and the products built on top of
+them. Interested candidates please apply https://jobs.ashbyhq.com/ideogram

model_index.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_class_name": "Ideogram4Pipeline",
+  "_diffusers_version": "0.39.0.dev0",
+  "scheduler": [
+    "diffusers",
+    "FlowMatchEulerDiscreteScheduler"
+  ],
+  "text_encoder": [
+    "transformers",
+    "Qwen3VLModel"
+  ],
+  "tokenizer": [
+    "transformers",
+    "Qwen2Tokenizer"
+  ],
+  "transformer": [
+    "diffusers",
+    "Ideogram4Transformer2DModel"
+  ],
+  "unconditional_transformer": [
+    "diffusers",
+    "Ideogram4Transformer2DModel"
+  ],
+  "vae": [
+    "diffusers",
+    "AutoencoderKLFlux2"
+  ]
+}

scheduler/scheduler_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "_class_name": "FlowMatchEulerDiscreteScheduler",
+  "_diffusers_version": "0.39.0.dev0",
+  "base_image_seq_len": 256,
+  "base_shift": 0.5,
+  "invert_sigmas": false,
+  "max_image_seq_len": 4096,
+  "max_shift": 1.15,
+  "num_train_timesteps": 1000,
+  "shift": 1.0,
+  "shift_terminal": null,
+  "stochastic_sampling": false,
+  "time_shift_type": "exponential",
+  "use_beta_sigmas": false,
+  "use_dynamic_shifting": false,
+  "use_exponential_sigmas": false,
+  "use_karras_sigmas": false
+}

text_encoder/config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "architectures": [
+    "Qwen3VLModel"
+  ],
+  "dtype": "bfloat16",
+  "image_token_id": 151655,
+  "model_type": "qwen3_vl",
+  "text_config": {
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "dtype": "bfloat16",
+    "eos_token_id": 151645,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 4096,
+    "initializer_range": 0.02,
+    "intermediate_size": 12288,
+    "max_position_embeddings": 262144,
+    "model_type": "qwen3_vl_text",
+    "num_attention_heads": 32,
+    "num_hidden_layers": 36,
+    "num_key_value_heads": 8,
+    "pad_token_id": null,
+    "rms_norm_eps": 1e-06,
+    "rope_parameters": {
+      "mrope_interleaved": true,
+      "mrope_section": [
+        24,
+        20,
+        20
+      ],
+      "rope_theta": 5000000,
+      "rope_type": "default"
+    },
+    "use_cache": true,
+    "vocab_size": 151936
+  },
+  "tie_word_embeddings": false,
+  "transformers_version": "5.8.0",
+  "video_token_id": 151656,
+  "vision_config": {
+    "deepstack_visual_indexes": [
+      8,
+      16,
+      24
+    ],
+    "depth": 27,
+    "dtype": "bfloat16",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "in_channels": 3,
+    "initializer_range": 0.02,
+    "intermediate_size": 4304,
+    "model_type": "qwen3_vl_vision",
+    "num_heads": 16,
+    "num_position_embeddings": 2304,
+    "out_hidden_size": 4096,
+    "patch_size": 16,
+    "spatial_merge_size": 2,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652
+}

text_encoder/model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c66bea2ff963798b6c4e57167c91f80a9b4479114e9fa135e7c001028be493f
+size 4979322768

text_encoder/model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93f7dc55d51731d8b321dd3f68094d57ca15f97d9c2e320c5ea7b70076f7a20a
+size 4940904688

text_encoder/model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9cd3dda9bbbf1b5401c252ef4530e47a4f6ea9f4df6e570937db5ae3c9e51191
+size 4944530888

text_encoder/model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3061edc2b953b3a1ae58c8e0d2379fa0452d90b8eaba73022bef7fda14a8a905
+size 1424916784

text_encoder/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,756 @@

+{
+  "metadata": {
+    "total_size": 16289587680
+  },
+  "weight_map": {
+    "language_model.layers.11.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.25.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.30.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.19.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.norm2.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.16.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.35.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.14.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.13.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.5.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.norm2.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.28.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.35.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.35.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.28.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.31.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.norm1.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.33.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.18.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.norm1.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.10.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.norm2.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.16.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.norm2.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.norm1.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.19.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.9.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.22.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.19.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.24.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.27.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.14.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.10.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.30.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.merger.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.28.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.10.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.norm2.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.15.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.18.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.32.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.12.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.33.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.merger.norm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.norm1.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "visual.deepstack_merger_list.2.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.33.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.29.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.25.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.norm2.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "visual.deepstack_merger_list.1.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.20.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.27.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.17.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.13.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.28.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.norm2.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.28.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "visual.deepstack_merger_list.0.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.29.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.15.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.25.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.7.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.19.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.1.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.19.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.norm2.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.11.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.32.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.26.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.20.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.29.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.35.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.norm1.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.norm2.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.6.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.12.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.21.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.norm2.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.31.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.34.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.23.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.norm1.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.24.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.12.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.norm2.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.9.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.31.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "visual.deepstack_merger_list.1.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.26.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.norm1.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.14.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.31.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.deepstack_merger_list.2.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.16.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.23.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.32.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.18.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "visual.deepstack_merger_list.0.norm.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.10.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "visual.merger.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "visual.deepstack_merger_list.1.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.16.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.35.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.9.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.26.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.11.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.25.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.24.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.20.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.norm2.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.10.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.26.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.14.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.21.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.10.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.18.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.8.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.11.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.20.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.patch_embed.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.norm2.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.20.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.norm2.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.33.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.18.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.24.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.28.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.25.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.10.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.norm2.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.30.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.32.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "visual.deepstack_merger_list.2.norm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.norm1.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.norm1.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.13.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.33.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.26.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.2.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.29.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.norm2.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.14.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.norm2.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.norm2.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.23.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.23.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.34.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.13.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.13.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.15.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "language_model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.layers.22.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.14.norm2.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.3.mlp.linear_fc2.bias": "model-00002-of-00004.safetensors",
+    "language_model.layers.26.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.26.mlp.linear_fc2.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.12.attn.proj.bias": "model-00002-of-00004.safetensors",
+    "visual.deepstack_merger_list.0.linear_fc2.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.5.attn.proj.bias": "model-00002-of-00004.safetensors",
+    "visual.deepstack_merger_list.1.linear_fc2.bias": "model-00002-of-00004.safetensors",
+    "language_model.layers.2.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.14.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.4.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.27.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.0.mlp.linear_fc1.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.26.attn.qkv.weight": "model-00002-of-00004.safetensors",
+    "visual.patch_embed.proj.bias": "model-00002-of-00004.safetensors",
+    "language_model.layers.28.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.16.mlp.linear_fc2.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.11.norm2.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.31.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.17.norm1.bias": "model-00002-of-00004.safetensors",
+    "language_model.layers.1.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.5.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.9.attn.proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.25.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.6.norm1.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.4.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.9.mlp.linear_fc2.bias": "model-00002-of-00004.safetensors",
+    "language_model.layers.24.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.5.mlp.linear_fc2.bias": "model-00002-of-00004.safetensors",
+    "language_model.layers.1.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.4.attn.qkv.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.19.norm2.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.3.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.35.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.6.attn.qkv.bias": "model-00002-of-00004.safetensors",
+    "language_model.layers.22.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.23.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.9.mlp.linear_fc2.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.28.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.21.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.28.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.18.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.22.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.3.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.21.norm2.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.24.norm2.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.16.mlp.linear_fc1.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.4.mlp.linear_fc1.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.8.norm2.bias": "model-00002-of-00004.safetensors",
+    "language_model.layers.29.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.21.attn.proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.2.attn.qkv.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.17.attn.proj.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.25.norm2.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.10.norm1.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.2.norm2.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.23.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.18.mlp.linear_fc2.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.2.norm1.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.21.mlp.linear_fc1.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.9.attn.qkv.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.20.attn.qkv.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.1.mlp.linear_fc2.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.18.norm1.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.18.attn.qkv.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.26.mlp.linear_fc1.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.34.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.26.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.10.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.10.norm2.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.12.attn.qkv.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.23.attn.qkv.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.21.norm2.bias": "model-00002-of-00004.safetensors",
+    "language_model.layers.29.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.29.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.4.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.25.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.20.mlp.linear_fc1.bias": "model-00002-of-00004.safetensors",
+    "language_model.layers.29.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.29.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.30.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.32.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.20.norm1.bias": "model-00002-of-00004.safetensors",
+    "language_model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.2.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.32.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.27.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.norm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.12.mlp.linear_fc1.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.18.mlp.linear_fc1.bias": "model-00002-of-00004.safetensors",
+    "language_model.layers.24.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.3.attn.proj.bias": "model-00002-of-00004.safetensors",
+    "language_model.layers.11.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.2.attn.qkv.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.26.norm1.weight": "model-00002-of-00004.safetensors",
+    "visual.deepstack_merger_list.1.norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.6.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.29.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.1.norm1.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.24.mlp.linear_fc2.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.0.attn.proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.14.mlp.linear_fc2.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.5.norm2.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.12.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.0.norm1.bias": "model-00002-of-00004.safetensors",
+    "language_model.layers.22.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.26.norm1.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.4.attn.proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.0.norm1.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.22.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.8.attn.proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.20.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.23.attn.qkv.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.28.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.21.attn.proj.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.1.norm2.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.19.norm1.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.11.norm1.bias": "model-00002-of-00004.safetensors",
+    "visual.blocks.19.norm1.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.20.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.pos_embed.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.35.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.5.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.11.norm1.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.7.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.30.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.25.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.6.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.2.mlp.linear_fc1.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.20.mlp.linear_fc2.bias": "model-00002-of-00004.safetensors",
+    "language_model.embed_tokens.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.35.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.12.norm1.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "visual.blocks.7.attn.qkv.weight": "model-00002-of-00004.safetensors",
+    "language_model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.16.mlp.linear_fc2.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.4.norm2.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.6.mlp.linear_fc1.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.35.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.7.mlp.linear_fc1.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.27.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.4.norm2.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.15.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.8.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.10.norm1.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.1.mlp.linear_fc1.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.9.norm1.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.0.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "visual.deepstack_merger_list.0.linear_fc1.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.26.mlp.linear_fc2.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.17.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.8.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.16.attn.qkv.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.8.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.11.mlp.linear_fc1.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.13.mlp.linear_fc1.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.5.attn.qkv.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.5.mlp.linear_fc1.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.20.norm2.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.5.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.11.attn.qkv.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.9.attn.qkv.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.6.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.3.norm1.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.1.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.18.mlp.linear_fc1.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.22.mlp.linear_fc2.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.11.attn.proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.7.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.7.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.9.mlp.linear_fc1.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.13.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.14.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.33.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.23.norm2.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.16.norm1.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.5.attn.proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.5.mlp.linear_fc1.bias": "model-00003-of-00004.safetensors",
+    "visual.deepstack_merger_list.2.linear_fc2.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.15.mlp.linear_fc1.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.16.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.2.norm1.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.3.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.18.norm2.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.26.attn.qkv.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.24.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.22.norm2.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.4.attn.proj.bias": "model-00003-of-00004.safetensors",
+    "visual.deepstack_merger_list.0.linear_fc2.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.3.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.13.attn.proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.11.mlp.linear_fc2.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.22.mlp.linear_fc1.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.34.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.13.attn.proj.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.33.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.25.mlp.linear_fc2.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.22.attn.proj.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.0.mlp.linear_fc2.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.9.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.16.norm2.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.25.mlp.linear_fc1.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.7.attn.proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.22.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.4.mlp.linear_fc2.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.24.norm2.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.0.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.34.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.1.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.23.norm1.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.15.mlp.linear_fc1.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.4.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.17.mlp.linear_fc2.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.23.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.22.attn.qkv.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.0.mlp.linear_fc2.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.16.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.5.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.16.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.17.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.6.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.25.mlp.linear_fc1.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.17.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.15.attn.proj.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.8.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.6.mlp.linear_fc2.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.3.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.7.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.8.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.8.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.34.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.22.attn.qkv.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.10.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.16.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.12.attn.qkv.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.6.attn.proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.5.norm2.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.24.attn.proj.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.17.attn.proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.0.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.6.attn.proj.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.35.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.2.mlp.linear_fc1.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.14.attn.proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.13.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.8.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.merger.linear_fc1.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.14.mlp.linear_fc2.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.11.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.9.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.deepstack_merger_list.2.norm.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.15.norm2.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.20.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.33.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.34.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.32.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.6.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.17.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.13.attn.qkv.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.3.mlp.linear_fc1.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.3.norm2.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.15.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.0.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.17.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.0.attn.qkv.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.10.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.16.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.23.norm1.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.7.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.10.attn.qkv.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.21.norm1.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.16.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.deepstack_merger_list.1.norm.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.25.attn.proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.9.norm2.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.21.mlp.linear_fc1.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.14.norm1.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.1.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.3.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.7.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.34.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.33.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.13.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.2.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.33.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.merger.norm.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.0.mlp.linear_fc1.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.9.norm1.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.18.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.18.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.19.attn.qkv.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.18.attn.qkv.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.25.attn.proj.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.6.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.17.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.3.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.0.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.15.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.35.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.4.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.20.mlp.linear_fc1.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.1.attn.proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.19.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.6.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.15.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.19.attn.proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.20.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.18.norm2.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.16.norm1.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.5.norm1.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.24.attn.qkv.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.32.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.7.attn.proj.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.31.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.14.attn.qkv.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.15.attn.qkv.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.3.attn.qkv.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.8.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.12.norm1.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.23.mlp.linear_fc1.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.15.norm1.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.24.mlp.linear_fc1.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.4.mlp.linear_fc1.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.12.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.12.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.25.attn.qkv.bias": "model-00003-of-00004.safetensors",
+    "visual.deepstack_merger_list.0.norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.32.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.10.mlp.linear_fc1.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.18.attn.proj.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.6.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.11.mlp.linear_fc1.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.3.norm2.bias": "model-00003-of-00004.safetensors",
+    "visual.blocks.22.mlp.linear_fc2.bias": "model-00003-of-00004.safetensors",
+    "language_model.layers.0.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.17.attn.qkv.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "visual.blocks.13.norm2.weight": "model-00003-of-00004.safetensors",
+    "language_model.layers.34.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.8.norm1.bias": "model-00004-of-00004.safetensors",
+    "language_model.layers.12.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.22.mlp.linear_fc1.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.22.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.7.mlp.linear_fc2.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.7.norm1.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.19.mlp.linear_fc1.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.8.attn.proj.bias": "model-00004-of-00004.safetensors",
+    "language_model.layers.13.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.9.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.8.attn.qkv.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.31.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.30.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.34.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.17.mlp.linear_fc1.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.3.mlp.linear_fc1.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.4.norm1.bias": "model-00004-of-00004.safetensors",
+    "language_model.layers.1.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.11.mlp.linear_fc2.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.21.attn.qkv.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.11.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.20.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.2.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.13.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.25.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.9.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.17.attn.qkv.bias": "model-00004-of-00004.safetensors",
+    "language_model.layers.24.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.29.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.2.attn.proj.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.22.norm2.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.27.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.1.mlp.linear_fc2.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.23.mlp.linear_fc2.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.14.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.18.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.3.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.12.attn.proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.20.norm1.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.27.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.11.attn.proj.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.14.mlp.linear_fc1.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.21.mlp.linear_fc2.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.0.attn.qkv.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.24.norm1.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.26.norm2.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.20.norm2.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.17.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.25.norm1.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.19.attn.qkv.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.30.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.20.attn.proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.2.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.7.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.deepstack_merger_list.2.linear_fc1.bias": "model-00004-of-00004.safetensors",
+    "language_model.layers.6.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.4.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.15.mlp.linear_fc2.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.26.attn.proj.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.4.attn.qkv.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.8.norm1.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.13.norm1.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.19.attn.proj.bias": "model-00004-of-00004.safetensors",
+    "language_model.layers.32.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.15.attn.proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.6.norm2.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.19.mlp.linear_fc2.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.19.norm2.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.7.attn.qkv.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.14.mlp.linear_fc1.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.33.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.25.mlp.linear_fc2.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.30.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.merger.linear_fc2.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.32.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.9.mlp.linear_fc1.bias": "model-00004-of-00004.safetensors",
+    "language_model.layers.22.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.24.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.4.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.16.norm2.bias": "model-00004-of-00004.safetensors",
+    "language_model.layers.1.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.34.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.13.mlp.linear_fc2.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.5.norm1.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.3.attn.qkv.bias": "model-00004-of-00004.safetensors",
+    "language_model.layers.21.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.9.attn.proj.bias": "model-00004-of-00004.safetensors",
+    "language_model.layers.21.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.2.mlp.linear_fc2.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.12.norm2.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.23.attn.proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.layers.12.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.2.norm2.bias": "model-00004-of-00004.safetensors",
+    "language_model.layers.5.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.4.mlp.linear_fc2.bias": "model-00004-of-00004.safetensors",
+    "visual.blocks.26.mlp.linear_fc1.bias": "model-00004-of-00004.safetensors"
+  }
+}

tokenizer/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,120 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {%- if messages[0].content is string %}
+            {{- messages[0].content }}
+        {%- else %}
+            {%- for content in messages[0].content %}
+                {%- if 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' }}
+        {%- if messages[0].content is string %}
+            {{- messages[0].content }}
+        {%- else %}
+            {%- for content in messages[0].content %}
+                {%- if 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set image_count = namespace(value=0) %}
+{%- set video_count = namespace(value=0) %}
+{%- for message in messages %}
+    {%- if message.role == "user" %}
+        {{- '<|im_start|>' + message.role + '\n' }}
+        {%- if message.content is string %}
+            {{- message.content }}
+        {%- else %}
+            {%- for content in message.content %}
+                {%- if content.type == 'image' or 'image' in content or 'image_url' in content %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                    {%- if add_vision_id %}Picture {{ image_count.value }}: {% endif -%}
+                    <|vision_start|><|image_pad|><|vision_end|>
+                {%- elif content.type == 'video' or 'video' in content %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                    {%- if add_vision_id %}Video {{ video_count.value }}: {% endif -%}
+                    <|vision_start|><|video_pad|><|vision_end|>
+                {%- elif 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role + '\n' }}
+        {%- if message.content is string %}
+            {{- message.content }}
+        {%- else %}
+            {%- for content_item in message.content %}
+                {%- if 'text' in content_item %}
+                    {{- content_item.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and message.content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {%- if message.content is string %}
+            {{- message.content }}
+        {%- else %}
+            {%- for content in message.content %}
+                {%- if content.type == 'image' or 'image' in content or 'image_url' in content %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                    {%- if add_vision_id %}Picture {{ image_count.value }}: {% endif -%}
+                    <|vision_start|><|image_pad|><|vision_end|>
+                {%- elif content.type == 'video' or 'video' in content %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                    {%- if add_vision_id %}Video {{ video_count.value }}: {% endif -%}
+                    <|vision_start|><|video_pad|><|vision_end|>
+                {%- elif 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

tokenizer/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be75606093db2094d7cd20f3c2f385c212750648bd6ea4fb2bf507a6a4c55506
+size 11422650

tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "add_prefix_space": false,
+  "backend": "tokenizers",
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "is_local": true,
+  "local_files_only": false,
+  "model_max_length": 262144,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

transformer/config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "_class_name": "Ideogram4Transformer2DModel",
+  "_diffusers_version": "0.39.0.dev0",
+  "adaln_dim": 512,
+  "attention_head_dim": 256,
+  "in_channels": 128,
+  "intermediate_size": 12288,
+  "llm_features_dim": 53248,
+  "mrope_section": [
+    24,
+    20,
+    20
+  ],
+  "norm_eps": 0.00001,
+  "num_attention_heads": 18,
+  "num_layers": 34,
+  "rope_theta": 5000000
+}

transformer/diffusion_pytorch_model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:388e7053e6fcb2864c0bf89d75c6e3ec3e8852d1d384f4689d601a6f928ade62
+size 4914262704

transformer/diffusion_pytorch_model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a462fa655459d183fd73759254cfb2678c044bea52fdc1530f3e5d25160d56ea
+size 4899932552

transformer/diffusion_pytorch_model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9efa4b627a087d997c4bf0affa03ca0b9f685ed20007af6b34b5180ee472f0b
+size 4931596616

transformer/diffusion_pytorch_model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51e8fb275ec3dba37b4693adc6ff6b36baf9d84b7fc2d887bf7e198b3ceb625b
+size 3812833752

transformer/diffusion_pytorch_model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,465 @@

+{
+  "metadata": {
+    "total_size": 18558576896
+  },
+  "weight_map": {
+    "layers.2.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.3.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.19.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.23.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.27.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.28.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.12.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.16.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.28.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "input_proj.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.33.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.24.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.23.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.19.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.16.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.6.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.25.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.6.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.6.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.10.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.11.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.5.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.6.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "final_layer.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.22.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.6.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.21.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.12.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.12.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.7.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.16.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.1.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.28.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.0.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.10.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.2.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.32.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.24.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.27.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.29.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.1.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.16.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.13.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.24.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.2.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.33.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "t_embedding.mlp_out.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.0.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.27.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.20.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.0.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.3.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.3.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.29.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.0.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.6.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.17.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.5.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.26.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "final_layer.linear.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.14.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.18.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.21.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.33.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.23.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.30.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.17.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.8.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.18.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.5.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.16.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.15.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.11.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.2.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.22.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.28.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.19.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.31.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.22.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.31.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.18.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.33.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.26.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.2.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.3.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.30.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.31.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.23.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.23.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.14.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.14.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.21.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.16.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.21.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.10.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.27.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.28.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.32.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.7.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.22.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.4.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.32.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.31.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.33.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.2.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.3.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.28.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.12.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.18.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.23.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.10.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "llm_cond_proj.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "final_layer.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.13.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.32.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.19.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.33.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.0.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.2.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.27.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.8.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.17.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.2.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.21.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.3.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.7.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.4.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.28.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.32.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.17.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.19.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.26.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.33.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.23.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.1.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.18.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.4.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.6.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.7.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.24.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.27.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.21.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.19.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.25.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.17.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.11.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.10.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.15.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.16.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.21.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.13.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.2.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.1.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.21.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.23.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.17.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.14.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.30.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.14.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.4.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.15.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.3.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.28.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.14.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.10.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.22.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.14.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.7.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.3.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.30.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "final_layer.linear.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.1.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.24.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.31.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.0.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.2.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.14.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "embed_image_indicator.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.12.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.13.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.13.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.22.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.12.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "t_embedding.mlp_in.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.29.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.4.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.11.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.26.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.28.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.19.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.32.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.7.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.21.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.32.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.10.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.27.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.17.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.26.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.14.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "adaln_proj.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.15.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.10.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.8.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.12.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.9.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.31.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.0.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.11.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.32.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.7.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.30.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.3.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.15.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.22.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.15.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.6.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.5.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.22.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.10.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.7.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.11.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.2.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.24.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.13.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.0.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.13.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.13.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.23.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.26.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.19.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.5.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.18.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.29.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.19.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.22.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.7.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.30.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.15.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.26.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.25.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.24.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.8.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.10.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.19.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.6.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.7.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.18.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.18.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.12.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.6.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.6.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.2.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.12.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.23.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.19.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.4.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.4.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.25.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.5.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.25.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.13.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.22.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.15.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.16.adaln_modulation.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.25.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.26.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.19.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.24.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.1.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.0.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.9.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.27.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.19.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.32.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.30.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.4.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.15.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.21.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "llm_cond_norm.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.28.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.30.attention.qkv.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.21.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.26.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.25.adaln_modulation.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.1.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.8.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.18.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.27.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.13.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.8.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.28.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.4.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.14.attention.qkv.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "t_embedding.mlp_in.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.23.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.25.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.29.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.21.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.12.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.3.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.8.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.27.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.6.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.11.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.29.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.31.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "llm_cond_proj.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.8.attention.qkv.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.29.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.15.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.14.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.10.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "input_proj.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.20.attention.qkv.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.22.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.13.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.31.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.4.adaln_modulation.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.11.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.11.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.10.attention.qkv.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.33.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.20.adaln_modulation.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.24.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.18.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.27.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.27.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.26.adaln_modulation.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.5.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.1.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.9.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.33.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.26.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.24.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.15.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.12.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.16.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.14.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.17.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.12.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.33.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.7.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.17.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.14.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.27.attention.qkv.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.1.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.31.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.17.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.23.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "adaln_proj.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.33.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.7.adaln_modulation.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.9.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.3.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.24.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.33.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.24.adaln_modulation.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.33.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.0.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.13.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "t_embedding.mlp_out.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.31.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.8.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.31.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.16.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.5.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.32.attention.qkv.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.20.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.30.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.28.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.5.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.6.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.2.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.20.attention.o.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.30.adaln_modulation.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.1.ffn_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.4.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.32.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.11.attention.o.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.18.ffn_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.28.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.11.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.13.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.5.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.5.ffn_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.16.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.17.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.5.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.26.attention_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.0.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.29.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.10.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.29.ffn_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.11.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.1.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.25.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.8.adaln_modulation.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.16.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.15.ffn_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.3.ffn_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.18.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.7.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.30.ffn_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.29.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.22.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.31.ffn_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.32.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.23.ffn_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.29.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.0.adaln_modulation.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.16.attention_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.31.attention.qkv.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.4.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.8.ffn_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.1.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.32.attention_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.25.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.9.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.1.adaln_modulation.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.29.attention_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.24.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.21.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.17.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.12.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.25.attention.o.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.22.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.30.attention.o.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.15.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.11.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.30.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.25.ffn_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.8.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.3.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.26.adaln_modulation.bias": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.4.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.0.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.25.attention_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.5.attention.qkv.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.8.ffn_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.29.attention.qkv.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.18.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.17.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors"
+  }
+}

unconditional_transformer/config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "_class_name": "Ideogram4Transformer2DModel",
+  "_diffusers_version": "0.39.0.dev0",
+  "adaln_dim": 512,
+  "attention_head_dim": 256,
+  "in_channels": 128,
+  "intermediate_size": 12288,
+  "llm_features_dim": 53248,
+  "mrope_section": [
+    24,
+    20,
+    20
+  ],
+  "norm_eps": 0.00001,
+  "num_attention_heads": 18,
+  "num_layers": 34,
+  "rope_theta": 5000000
+}

unconditional_transformer/diffusion_pytorch_model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61b7122330f12be903fb26001d112f84ed8a3b7aa2d7dc5093eb914f146cb871
+size 4914262704

unconditional_transformer/diffusion_pytorch_model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1a4c984a7e8bcf0a8f0cf96bcdefdb6469d74fb187ca0f52585364446a5a065
+size 4899932552

unconditional_transformer/diffusion_pytorch_model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:890a937f132d6dfb44d48a852045d895b61be246275b18f9208ab1be4231c9d6
+size 4931596616

unconditional_transformer/diffusion_pytorch_model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5370e2a4e772971e0b8712cec872ba0f4bde1775aff7726bd83871d7378eb365
+size 3812833752

unconditional_transformer/diffusion_pytorch_model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,465 @@

+{
+  "metadata": {
+    "total_size": 18558576896
+  },
+  "weight_map": {
+    "layers.2.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.3.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.19.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.23.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.27.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.28.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.12.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.16.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.28.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "input_proj.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.33.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.24.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.23.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.19.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.16.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.6.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.25.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.6.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.6.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.10.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.11.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.5.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.6.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "final_layer.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.22.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.6.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.21.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.12.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.12.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.7.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.16.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.1.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.28.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.0.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.10.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.2.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.32.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.24.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.27.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.29.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.1.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.16.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.13.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.24.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.2.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.33.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "t_embedding.mlp_out.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.0.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.27.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.20.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.0.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.3.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.3.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.29.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.0.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.6.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.17.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.5.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.26.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "final_layer.linear.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.14.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.18.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.21.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.33.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.23.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.30.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.17.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.8.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.18.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.5.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.16.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.15.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.11.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.2.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.22.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.28.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.19.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.31.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.22.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.31.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.18.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.33.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.26.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.2.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.3.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.30.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.31.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.23.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.23.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.14.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.14.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.21.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.16.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.21.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.10.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.27.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.28.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.32.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.7.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.22.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.4.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.32.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.31.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.33.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.2.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.3.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.28.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.12.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.18.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.23.attention.qkv.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.10.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "llm_cond_proj.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "final_layer.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.13.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.32.adaln_modulation.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.19.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.33.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.0.adaln_modulation.bias": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.2.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.27.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.8.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.17.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.2.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.21.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.3.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.7.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.4.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.9.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.28.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.32.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.17.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.19.attention.o.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.26.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.33.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.23.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.1.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.18.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00004.safetensors",
+    "layers.4.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.6.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.7.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.24.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.27.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.21.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.19.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.25.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.17.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.11.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.10.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.15.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.16.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.21.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.13.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.2.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.1.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.21.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.23.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.17.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.14.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.30.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.14.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.4.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.15.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.3.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.28.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.14.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.10.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.22.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.14.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.7.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.3.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.30.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "final_layer.linear.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.1.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.24.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.31.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.0.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.2.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.14.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "embed_image_indicator.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.12.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.13.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.13.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.22.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.12.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "t_embedding.mlp_in.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.29.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.4.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.11.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.26.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.28.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.19.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.32.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.7.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.21.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.32.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.10.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.27.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.17.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.26.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.14.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "adaln_proj.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.15.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.10.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.8.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.12.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.9.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.31.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.0.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.11.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.32.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.7.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.30.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.3.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.15.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.22.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.15.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.6.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.5.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.22.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.10.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.7.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.11.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.2.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.24.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.13.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.0.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.13.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.13.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.23.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.26.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.19.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.5.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.18.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.29.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.19.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.22.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.7.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.30.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.15.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.26.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.25.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.24.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.8.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.10.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.19.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.6.attention.o.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.7.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.18.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.18.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.12.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.6.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.6.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.2.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.12.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.23.adaln_modulation.bias": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.19.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.4.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.20.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.4.attention.qkv.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.25.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.5.adaln_modulation.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.25.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.13.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.22.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00004.safetensors",
+    "layers.15.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.16.adaln_modulation.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.25.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.26.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.19.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.24.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.1.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.0.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.9.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.27.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.19.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.32.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.30.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.4.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.15.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.21.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "llm_cond_norm.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.28.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.30.attention.qkv.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.21.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.26.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.25.adaln_modulation.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.1.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.8.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.18.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.27.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.13.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.8.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.28.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.4.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.14.attention.qkv.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "t_embedding.mlp_in.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.23.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.25.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.29.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.21.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.12.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.3.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.8.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.27.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.6.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.11.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.29.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.31.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "llm_cond_proj.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.8.attention.qkv.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.29.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.15.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.14.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.10.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "input_proj.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.20.attention.qkv.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.22.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.13.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.31.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.4.adaln_modulation.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.11.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.11.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.10.attention.qkv.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.33.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.20.adaln_modulation.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.24.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.18.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.27.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.27.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.26.adaln_modulation.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.5.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.1.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.9.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.33.attention.norm_k.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.26.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.24.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.15.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.12.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.16.attention.norm_q.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.14.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.17.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.12.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.33.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.7.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.17.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.14.feed_forward.w1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.27.attention.qkv.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.1.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.31.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.17.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.23.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "adaln_proj.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.33.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.7.adaln_modulation.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.9.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.3.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.24.attention_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.33.feed_forward.w2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.24.adaln_modulation.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.33.attention.o.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.0.ffn_norm2.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.13.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "t_embedding.mlp_out.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.31.adaln_modulation.bias": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.8.attention_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.31.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.16.ffn_norm1.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.5.feed_forward.w3.weight": "diffusion_pytorch_model-00003-of-00004.safetensors",
+    "layers.32.attention.qkv.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.20.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.30.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.28.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.5.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.6.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.2.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.20.attention.o.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.30.adaln_modulation.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.1.ffn_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.4.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.32.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.11.attention.o.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.18.ffn_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.28.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.11.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.13.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.5.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.5.ffn_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.16.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.17.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.5.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.26.attention_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.0.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.29.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.10.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.29.ffn_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.11.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.1.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.25.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.8.adaln_modulation.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.16.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.15.ffn_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.3.ffn_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.18.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.7.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.30.ffn_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.29.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.22.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.31.ffn_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.32.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.23.ffn_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.29.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.0.adaln_modulation.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.16.attention_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.31.attention.qkv.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.4.feed_forward.w2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.8.ffn_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.1.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.32.attention_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.25.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.9.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.1.adaln_modulation.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.29.attention_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.24.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.21.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.17.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.12.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.25.attention.o.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.22.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.30.attention.o.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.15.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.11.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.30.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.25.ffn_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.8.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.3.feed_forward.w1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.26.adaln_modulation.bias": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.4.attention.norm_q.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.0.attention.norm_k.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.25.attention_norm1.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.5.attention.qkv.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.8.ffn_norm2.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.29.attention.qkv.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.18.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors",
+    "layers.17.feed_forward.w3.weight": "diffusion_pytorch_model-00004-of-00004.safetensors"
+  }
+}

vae/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_class_name": "AutoencoderKLFlux2",
+  "_diffusers_version": "0.39.0.dev0",
+  "act_fn": "silu",
+  "batch_norm_eps": 0.0001,
+  "batch_norm_momentum": 0.1,
+  "block_out_channels": [
+    128,
+    256,
+    512,
+    512
+  ],
+  "decoder_block_out_channels": null,
+  "down_block_types": [
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D"
+  ],
+  "force_upcast": true,
+  "in_channels": 3,
+  "latent_channels": 32,
+  "layers_per_block": 2,
+  "mid_block_add_attention": true,
+  "norm_num_groups": 32,
+  "out_channels": 3,
+  "patch_size": [
+    2,
+    2
+  ],
+  "sample_size": 1024,
+  "up_block_types": [
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D"
+  ],
+  "use_post_quant_conv": true,
+  "use_quant_conv": true
+}

vae/diffusion_pytorch_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:925ce3a08e8759174667f5e89384ba2b54dd81a87b7379dadb68a1a87b70b052
+size 168120878