xlangai
/

OpenCUA-32B

@@ -67,6 +67,10 @@ class OpenCUAPreTrainedModel(PreTrainedModel):
     _skip_keys_device_placement = "past_key_values"
     _supports_flash_attn_2 = True
     def _init_weights(self, module):
         # important: this ported version of Llava isn't meant for training from scratch - only
         # inference and fine-tuning - so the proper init weights code has been removed - the original codebase
@@ -95,11 +99,8 @@ class OpenCUAForConditionalGeneration(OpenCUAPreTrainedModel):
         super().__init__(config)
         self.vision_tower = Qwen2_5_VisionTransformerPretrainedModel(config.vision_config)
         self.language_model = Qwen2ForCausalLM(config.text_config)
         self.post_init()
-    @property
-    def _supports_sdpa(self):
-        return self.language_model._supports_sdpa
     # 使用 property 来创建动态属性
     @property

     _skip_keys_device_placement = "past_key_values"
     _supports_flash_attn_2 = True
+    supports_gradient_checkpointing = True
+    _supports_sdpa = True
     def _init_weights(self, module):
         # important: this ported version of Llava isn't meant for training from scratch - only
         # inference and fine-tuning - so the proper init weights code has been removed - the original codebase
         super().__init__(config)
         self.vision_tower = Qwen2_5_VisionTransformerPretrainedModel(config.vision_config)
         self.language_model = Qwen2ForCausalLM(config.text_config)
+        self._supports_sdpa = True
         self.post_init()
     # 使用 property 来创建动态属性
     @property