deepgenteam
/

DeepGen-1.0-diffusers

Text-to-Image

Diffusers

Safetensors

Model card Files Files and versions

xet

Community

KevinZonda commited on 2 days ago

Commit

c44d57e

verified ·

1 Parent(s): 85c2ed2

fix: typo in lmm leads infer cannot work

Browse files

Files changed (1) hide show

deepgen_pipeline.py +6 -6

deepgen_pipeline.py CHANGED Viewed

@@ -1185,15 +1185,15 @@ class DeepGenPipeline(DiffusionPipeline):
         else:
             input_ids = input_ids[:, :-l]
             if image_embeds is None:
-                inputs_embeds = self.llm.get_input_embeddings()(input_ids)
             else:
                 inputs_embeds = torch.zeros(
-                    *input_ids.shape, self.llm.config.hidden_size,
                     device=self._gpu_device, dtype=self.transformer.dtype)
                 inputs_embeds[input_ids == self.image_token_id] = \
-                    image_embeds.contiguous().view(-1, self.llm.config.hidden_size)
                 inputs_embeds[input_ids != self.image_token_id] = \
-                    self.llm.get_input_embeddings()(input_ids[input_ids != self.image_token_id])
             inputs_embeds = torch.cat([inputs_embeds, query_embeds], dim=1)
         return dict(inputs_embeds=inputs_embeds, attention_mask=attention_mask,
@@ -1334,7 +1334,7 @@ class DeepGenPipeline(DiffusionPipeline):
         hidden_states = self.connector_module.meta_queries[None].expand(
             2 * b, self.num_queries, -1)
         inputs = self.prepare_forward_input(query_embeds=hidden_states, **text_inputs)
-        output = self.llm(**inputs, return_dict=True, output_hidden_states=True)
         # SCB: extract multi-layer hidden states
         hidden_states = output.hidden_states
@@ -1391,4 +1391,4 @@ class DeepGenPipeline(DiffusionPipeline):
             img = torch.clamp(127.5 * img + 128.0, 0, 255).to("cpu", dtype=torch.uint8).numpy()
             images.append(Image.fromarray(img))
-        return SimpleNamespace(images=images)

         else:
             input_ids = input_ids[:, :-l]
             if image_embeds is None:
+                inputs_embeds = self.lmm.get_input_embeddings()(input_ids)
             else:
                 inputs_embeds = torch.zeros(
+                    *input_ids.shape, self.lmm.config.hidden_size,
                     device=self._gpu_device, dtype=self.transformer.dtype)
                 inputs_embeds[input_ids == self.image_token_id] = \
+                    image_embeds.contiguous().view(-1, self.lmm.config.hidden_size)
                 inputs_embeds[input_ids != self.image_token_id] = \
+                    self.lmm.get_input_embeddings()(input_ids[input_ids != self.image_token_id])
             inputs_embeds = torch.cat([inputs_embeds, query_embeds], dim=1)
         return dict(inputs_embeds=inputs_embeds, attention_mask=attention_mask,
         hidden_states = self.connector_module.meta_queries[None].expand(
             2 * b, self.num_queries, -1)
         inputs = self.prepare_forward_input(query_embeds=hidden_states, **text_inputs)
+        output = self.lmm(**inputs, return_dict=True, output_hidden_states=True)
         # SCB: extract multi-layer hidden states
         hidden_states = output.hidden_states
             img = torch.clamp(127.5 * img + 128.0, 0, 255).to("cpu", dtype=torch.uint8).numpy()
             images.append(Image.fromarray(img))
+        return SimpleNamespace(images=images)