Improved AI response generation quality

UtkarshTheDev · UtkarshTheDev · commit b1c7d10879da · 2025-05-16T23:15:45.000+05:30
diff --git a/locallab/model_manager.py b/locallab/model_manager.py
@@ -434,19 +434,27 @@ async def generate(
             from .config import get_model_generation_params
             gen_params = get_model_generation_params(self.current_model)
 
-            # Set balanced defaults for quality and speed
+            # Set optimized defaults for high-quality responses
             if not max_length and not max_new_tokens:
-                # Use a reasonable default max_length that balances quality and speed
+                # Use a higher default max_length for more complete, high-quality responses
                 # Don't limit it too much to ensure complete responses
-                gen_params["max_length"] = min(gen_params.get("max_length", DEFAULT_MAX_LENGTH), 1024)
+                gen_params["max_length"] = min(gen_params.get("max_length", DEFAULT_MAX_LENGTH), 4096)
 
             if not temperature:
-                # Use a balanced temperature for good quality responses
+                # Use a balanced temperature for high-quality responses
                 gen_params["temperature"] = gen_params.get("temperature", DEFAULT_TEMPERATURE)
 
             if not top_k:
-                # Add top_k for better quality sampling
-                gen_params["top_k"] = 50
+                # Use a higher top_k for better quality sampling
+                gen_params["top_k"] = 80  # Increased from 50 to 80 for better quality
+
+            if not top_p:
+                # Use a higher top_p for better quality
+                gen_params["top_p"] = 0.92  # Increased for better quality
+
+            if not repetition_penalty:
+                # Use a higher repetition_penalty for better quality
+                gen_params["repetition_penalty"] = 1.15  # Increased from 1.1 to 1.15
 
             # Handle max_new_tokens parameter (map to max_length)
             if max_new_tokens is not None:
@@ -503,31 +511,50 @@ async def generate(
 
             with torch.no_grad():
                 try:
+                    # Generate parameters optimized for high-quality responses
                     generate_params = {
                         **inputs,
                         "max_new_tokens": gen_params["max_length"],
                         "temperature": gen_params["temperature"],
                         "top_p": gen_params["top_p"],
+                        "top_k": gen_params.get("top_k", 80),  # Default to 80 for better quality
                         "do_sample": gen_params.get("do_sample", True),
                         "pad_token_id": self.tokenizer.eos_token_id,
                         # Fix the early stopping warning by setting num_beams explicitly
                         "num_beams": 1,
-                        # Add repetition penalty by default for better quality
-                        "repetition_penalty": 1.1
+                        # Add repetition penalty for better quality
+                        "repetition_penalty": gen_params.get("repetition_penalty", 1.15)  # Increased from 1.1 to 1.15
                     }
 
-                    # Add optional parameters if present in gen_params
-                    if "top_k" in gen_params:
-                        generate_params["top_k"] = gen_params["top_k"]
-                    if "repetition_penalty" in gen_params:
-                        generate_params["repetition_penalty"] = gen_params["repetition_penalty"]
-
                     # Set a reasonable max time for generation to prevent hanging
-                    # Use the DEFAULT_MAX_TIME from config (120 seconds)
+                    # Use the DEFAULT_MAX_TIME from config (increased to 180 seconds)
                     if "max_time" not in generate_params and not stream:
                         from .config import DEFAULT_MAX_TIME
                         generate_params["max_time"] = DEFAULT_MAX_TIME  # Use the default max time from config
 
+                    # Define comprehensive stop sequences for proper termination
+                    stop_sequences = [
+                        "</s>", "<|endoftext|>", "<|im_end|>",
+                        "<eos>", "<end>", "<|end|>", "<|EOS|>",
+                        "###", "Assistant:", "Human:", "User:"
+                    ]
+
+                    # Add stop sequences to generation parameters if supported by the model
+                    if hasattr(self.model.config, "stop_token_ids") or hasattr(self.model.generation_config, "stopping_criteria"):
+                        # Convert stop sequences to token IDs
+                        stop_token_ids = []
+                        for seq in stop_sequences:
+                            try:
+                                ids = self.tokenizer.encode(seq, add_special_tokens=False)
+                                if ids:
+                                    stop_token_ids.extend(ids)
+                            except:
+                                pass
+
+                        # Add stop token IDs to generation parameters if supported
+                        if hasattr(self.model.config, "stop_token_ids"):
+                            self.model.config.stop_token_ids = stop_token_ids
+
                     # Use efficient attention implementation if available
                     if hasattr(self.model.config, "attn_implementation"):
                         generate_params["attn_implementation"] = "flash_attention_2"
@@ -568,16 +595,25 @@ async def generate(
                         response = response[:marker_pos]
                     break
 
-            # Additional cleanup for any remaining special tokens
-            special_tokens = ["<|", "|>"]
-            for token in special_tokens:
-                if token in response:
-                    # Check if it's part of a special token pattern
-                    pattern = r'<\|[a-zA-Z0-9_]+\|>'
-                    matches = re.finditer(pattern, response)
-                    for match in matches:
-                        # Replace the special token with empty string
-                        response = response.replace(match.group(0), "")
+            # Additional cleanup for any remaining special tokens using regex
+            special_token_pattern = r'<\|[a-zA-Z0-9_]+\|>'
+            response = re.sub(special_token_pattern, '', response)
+
+            # Check for repetition patterns that indicate the model is stuck
+            if len(response) > 200:
+                # Look for repeating patterns of 20+ characters that repeat 3+ times
+                for pattern_len in range(20, 40):
+                    if pattern_len < len(response) // 3:
+                        for i in range(len(response) - pattern_len * 3):
+                            pattern = response[i:i+pattern_len]
+                            if pattern and not pattern.isspace():
+                                if response[i:].count(pattern) >= 3:
+                                    # Found a repeating pattern, truncate at the second occurrence
+                                    second_pos = response.find(pattern, i + pattern_len)
+                                    if second_pos > 0:
+                                        logger.info(f"Detected repetition pattern, truncating response")
+                                        response = response[:second_pos + pattern_len]
+                                        break
 
             # Cache the cleaned response if we have a cache key
             if cache_key:
diff --git a/locallab/routes/generate.py b/locallab/routes/generate.py
@@ -137,28 +137,29 @@ async def generate_text(request: GenerationRequest) -> GenerationResponse:
         # Get model-specific generation parameters
         model_params = get_model_generation_params(model_manager.current_model)
 
-        # Update with request parameters
+        # Update with request parameters and optimized defaults for high-quality responses
         generation_params = {
             "max_new_tokens": request.max_tokens,
             "temperature": request.temperature,
-            "top_p": request.top_p,
-            "top_k": request.top_k,
-            "repetition_penalty": request.repetition_penalty,
+            "top_p": request.top_p if request.top_p is not None else 0.92,  # Optimized default
+            "top_k": request.top_k if request.top_k is not None else 80,  # Optimized default
+            "repetition_penalty": request.repetition_penalty if request.repetition_penalty is not None else 1.15,  # Optimized default
             "do_sample": model_params.get("do_sample", True)  # Pass do_sample from model params
         }
 
         # Merge model-specific params with request params
+        # This ensures we get the best of both worlds - model-specific optimizations
+        # and our high-quality parameters
         generation_params.update(model_params)
 
-        # Generate text - properly await the async call
+        # Generate text with optimized parameters - properly await the async call
         generated_text = await model_manager.generate_text(
             prompt=request.prompt,
             system_prompt=request.system_prompt,
             **generation_params
         )
 
         # Additional cleanup for any special tokens that might have slipped through
-        import re
         special_token_pattern = r'<\|[a-zA-Z0-9_]+\|>'
         cleaned_text = re.sub(special_token_pattern, '', generated_text)
 
@@ -172,6 +173,22 @@ async def generate_text(request: GenerationRequest) -> GenerationResponse:
                     cleaned_text = cleaned_text[:marker_pos]
                 break
 
+        # Check for repetition patterns that indicate the model is stuck
+        if len(cleaned_text) > 200:
+            # Look for repeating patterns of 20+ characters that repeat 3+ times
+            for pattern_len in range(20, 40):
+                if pattern_len < len(cleaned_text) // 3:
+                    for i in range(len(cleaned_text) - pattern_len * 3):
+                        pattern = cleaned_text[i:i+pattern_len]
+                        if pattern and not pattern.isspace():
+                            if cleaned_text[i:].count(pattern) >= 3:
+                                # Found a repeating pattern, truncate at the second occurrence
+                                second_pos = cleaned_text.find(pattern, i + pattern_len)
+                                if second_pos > 0:
+                                    logger.info(f"Detected repetition pattern in text generation, truncating response")
+                                    cleaned_text = cleaned_text[:second_pos + pattern_len]
+                                    break
+
         return GenerationResponse(
             text=cleaned_text,
             model=model_manager.current_model
@@ -203,27 +220,28 @@ async def chat_completion(request: ChatRequest) -> ChatResponse:
         # Get model-specific generation parameters
         model_params = get_model_generation_params(model_manager.current_model)
 
-        # Prepare generation parameters
+        # Prepare generation parameters with optimized defaults for high-quality responses
         generation_params = {
             "max_new_tokens": request.max_tokens,
             "temperature": request.temperature,
-            "top_p": request.top_p,
-            "top_k": request.top_k,
-            "repetition_penalty": request.repetition_penalty,
+            "top_p": request.top_p if request.top_p is not None else 0.92,  # Optimized default
+            "top_k": request.top_k if request.top_k is not None else 80,  # Optimized default
+            "repetition_penalty": request.repetition_penalty if request.repetition_penalty is not None else 1.15,  # Optimized default
             "do_sample": model_params.get("do_sample", True)  # Pass do_sample from model params
         }
 
         # Merge model-specific params with request params
+        # This ensures we get the best of both worlds - model-specific optimizations
+        # and our high-quality parameters
         generation_params.update(model_params)
 
-        # Generate completion
+        # Generate completion with optimized parameters
         generated_text = await model_manager.generate_text(
             prompt=formatted_prompt,
             **generation_params
         )
 
         # Additional cleanup for any special tokens that might have slipped through
-        import re
         special_token_pattern = r'<\|[a-zA-Z0-9_]+\|>'
         cleaned_text = re.sub(special_token_pattern, '', generated_text)
 
@@ -237,6 +255,22 @@ async def chat_completion(request: ChatRequest) -> ChatResponse:
                     cleaned_text = cleaned_text[:marker_pos]
                 break
 
+        # Check for repetition patterns that indicate the model is stuck
+        if len(cleaned_text) > 200:
+            # Look for repeating patterns of 20+ characters that repeat 3+ times
+            for pattern_len in range(20, 40):
+                if pattern_len < len(cleaned_text) // 3:
+                    for i in range(len(cleaned_text) - pattern_len * 3):
+                        pattern = cleaned_text[i:i+pattern_len]
+                        if pattern and not pattern.isspace():
+                            if cleaned_text[i:].count(pattern) >= 3:
+                                # Found a repeating pattern, truncate at the second occurrence
+                                second_pos = cleaned_text.find(pattern, i + pattern_len)
+                                if second_pos > 0:
+                                    logger.info(f"Detected repetition pattern in chat completion, truncating response")
+                                    cleaned_text = cleaned_text[:second_pos + pattern_len]
+                                    break
+
         # Format response with cleaned text
         return ChatResponse(
             choices=[{
@@ -388,7 +422,7 @@ async def stream_chat(
 @router.post("/generate/batch", response_model=BatchGenerationResponse)
 async def batch_generate(request: BatchGenerationRequest) -> BatchGenerationResponse:
     """
-    Generate text for multiple prompts in a single request
+    Generate high-quality text for multiple prompts in a single request
     """
     if not model_manager.current_model:
         raise HTTPException(status_code=400, detail="No model is currently loaded")
@@ -397,29 +431,31 @@ async def batch_generate(request: BatchGenerationRequest) -> BatchGenerationResp
         # Get model-specific generation parameters
         model_params = get_model_generation_params(model_manager.current_model)
 
-        # Update with request parameters
+        # Update with request parameters and optimized defaults for high-quality responses
         generation_params = {
             "max_new_tokens": request.max_tokens,
             "temperature": request.temperature,
-            "top_p": request.top_p,
-            "top_k": request.top_k,
-            "repetition_penalty": request.repetition_penalty,
+            "top_p": request.top_p if request.top_p is not None else 0.92,  # Optimized default
+            "top_k": request.top_k if request.top_k is not None else 80,  # Optimized default
+            "repetition_penalty": request.repetition_penalty if request.repetition_penalty is not None else 1.15,  # Optimized default
             "do_sample": model_params.get("do_sample", True)  # Pass do_sample from model params
         }
 
         # Merge model-specific params with request params
+        # This ensures we get the best of both worlds - model-specific optimizations
+        # and our high-quality parameters
         generation_params.update(model_params)
 
         responses = []
         for prompt in request.prompts:
+            # Generate text with optimized parameters
             generated_text = await model_manager.generate_text(
                 prompt=prompt,
                 system_prompt=request.system_prompt,
                 **generation_params
             )
 
             # Additional cleanup for any special tokens that might have slipped through
-            import re
             special_token_pattern = r'<\|[a-zA-Z0-9_]+\|>'
             cleaned_text = re.sub(special_token_pattern, '', generated_text)
 
@@ -433,6 +469,22 @@ async def batch_generate(request: BatchGenerationRequest) -> BatchGenerationResp
                         cleaned_text = cleaned_text[:marker_pos]
                     break
 
+            # Check for repetition patterns that indicate the model is stuck
+            if len(cleaned_text) > 200:
+                # Look for repeating patterns of 20+ characters that repeat 3+ times
+                for pattern_len in range(20, 40):
+                    if pattern_len < len(cleaned_text) // 3:
+                        for i in range(len(cleaned_text) - pattern_len * 3):
+                            pattern = cleaned_text[i:i+pattern_len]
+                            if pattern and not pattern.isspace():
+                                if cleaned_text[i:].count(pattern) >= 3:
+                                    # Found a repeating pattern, truncate at the second occurrence
+                                    second_pos = cleaned_text.find(pattern, i + pattern_len)
+                                    if second_pos > 0:
+                                        logger.info(f"Detected repetition pattern in batch generation, truncating response")
+                                        cleaned_text = cleaned_text[:second_pos + pattern_len]
+                                        break
+
             responses.append(cleaned_text)
 
         return BatchGenerationResponse(responses=responses)