Spaces:

alrahrooh
/

cgt-llm-chatbot-v2

Runtime error

App Files Files Community

arahrooh commited on 15 days ago

Commit

2437458

1 Parent(s): bdad35b

Fix: Use text_generation API directly for better reliability

Browse files

Files changed (2) hide show

app.py +26 -49
requirements.txt +1 -1

app.py CHANGED Viewed

@@ -193,39 +193,27 @@ class InferenceAPIBot:
     def generate_answer(self, prompt: str, **kwargs) -> str:
         """Generate answer using Inference API"""
         try:
-            # Use text generation API (more reliable than chat.completions)
-            # The InferenceClient supports both formats, but text_generation is more stable
             max_tokens = kwargs.get('max_new_tokens', 512)
             temperature = kwargs.get('temperature', 0.2)
             top_p = kwargs.get('top_p', 0.9)
-            # Try chat.completions first (newer API)
-            try:
-                messages = [{"role": "user", "content": prompt}]
-                completion = self.client.chat.completions.create(
-                    model=self.current_model,
-                    messages=messages,
-                    max_tokens=max_tokens,
-                    temperature=temperature,
-                    top_p=top_p,
-                )
-                answer = completion.choices[0].message.content
-                return answer
-            except (AttributeError, TypeError) as e:
-                # Fallback to text generation API if chat.completions not available
-                logger.warning(f"chat.completions not available, using text_generation: {e}")
-                response = self.client.text_generation(
-                    prompt,
-                    model=self.current_model,
-                    max_new_tokens=max_tokens,
-                    temperature=temperature,
-                    top_p=top_p,
-                    return_full_text=False,
-                )
-                return response
         except Exception as e:
             logger.error(f"Error calling Inference API: {e}", exc_info=True)
-            return f"Error generating answer: {str(e)}"
     def enhance_readability(self, answer: str, target_level: str = "middle_school") -> Tuple[str, float]:
         """Enhance readability using Inference API"""
@@ -279,31 +267,20 @@ class InferenceAPIBot:
                 {"role": "user", "content": user_message}
             ]
-            # Call Inference API
             max_tokens = 512 if target_level in ["college", "doctoral"] else 384
             temperature = 0.4 if target_level in ["college", "doctoral"] else 0.3
-            try:
-                # Try chat.completions first
-                completion = self.client.chat.completions.create(
-                    model=self.current_model,
-                    messages=messages,
-                    max_tokens=max_tokens,
-                    temperature=temperature,
-                )
-                enhanced_answer = completion.choices[0].message.content
-            except (AttributeError, TypeError) as e:
-                # Fallback to text generation
-                logger.warning(f"chat.completions not available for readability, using text_generation: {e}")
-                # Combine system and user messages for text generation
-                combined_prompt = f"{system_message}\n\n{user_message}"
-                enhanced_answer = self.client.text_generation(
-                    combined_prompt,
-                    model=self.current_model,
-                    max_new_tokens=max_tokens,
-                    temperature=temperature,
-                    return_full_text=False,
-                )
             # Clean the answer (same as bot.py)
             cleaned = self.bot._clean_readability_answer(enhanced_answer, target_level)

     def generate_answer(self, prompt: str, **kwargs) -> str:
         """Generate answer using Inference API"""
         try:
             max_tokens = kwargs.get('max_new_tokens', 512)
             temperature = kwargs.get('temperature', 0.2)
             top_p = kwargs.get('top_p', 0.9)
+            # Use text_generation API directly (more reliable and widely supported)
+            logger.info(f"Calling Inference API for model: {self.current_model}")
+            response = self.client.text_generation(
+                prompt,
+                model=self.current_model,
+                max_new_tokens=max_tokens,
+                temperature=temperature,
+                top_p=top_p,
+                return_full_text=False,
+            )
+            logger.info(f"Inference API response received (length: {len(response) if response else 0})")
+            return response
         except Exception as e:
             logger.error(f"Error calling Inference API: {e}", exc_info=True)
+            import traceback
+            logger.error(f"Traceback: {traceback.format_exc()}")
+            return f"Error generating answer: {str(e)}. Please check the logs for details."
     def enhance_readability(self, answer: str, target_level: str = "middle_school") -> Tuple[str, float]:
         """Enhance readability using Inference API"""
                 {"role": "user", "content": user_message}
             ]
+            # Call Inference API using text_generation (more reliable)
             max_tokens = 512 if target_level in ["college", "doctoral"] else 384
             temperature = 0.4 if target_level in ["college", "doctoral"] else 0.3
+            # Combine system and user messages for text generation
+            combined_prompt = f"{system_message}\n\n{user_message}"
+            logger.info(f"Enhancing readability for {target_level} level")
+            enhanced_answer = self.client.text_generation(
+                combined_prompt,
+                model=self.current_model,
+                max_new_tokens=max_tokens,
+                temperature=temperature,
+                return_full_text=False,
+            )
             # Clean the answer (same as bot.py)
             cleaned = self.bot._clean_readability_answer(enhanced_answer, target_level)

requirements.txt CHANGED Viewed

@@ -6,7 +6,7 @@
 # Core ML/AI Framework
 torch>=2.0.0                    # PyTorch for model inference
 transformers>=4.30.0            # Hugging Face transformers
-huggingface_hub>=0.20.0        # Hugging Face Hub API (for Inference API)
 accelerate>=0.20.0              # Model loading optimization
 safetensors>=0.3.0              # Safe model loading

 # Core ML/AI Framework
 torch>=2.0.0                    # PyTorch for model inference
 transformers>=4.30.0            # Hugging Face transformers
+huggingface_hub>=0.23.0        # Hugging Face Hub API (for Inference API)
 accelerate>=0.20.0              # Model loading optimization
 safetensors>=0.3.0              # Safe model loading