Spaces:

DataQuests
/

DeepCritical

Running

App Files Files Community

Joseph Pollack commited on 14 days ago

Commit

96aa062

unverified ·

1 Parent(s): f78d2c1

adds tests , integration tests , github readme , and more!

Browse files

Files changed (25) hide show

.github/README.md +203 -0
CONTRIBUTING.md +1 -0
README.md +98 -18
docs/CONFIGURATION.md +3 -0
docs/architecture/graph_orchestration.md +3 -0
docs/examples/writer_agents_usage.md +3 -0
src/agent_factory/graph_builder.py +1 -1
src/agent_factory/judges.py +1 -1
src/app.py +1 -1
src/orchestrator/graph_orchestrator.py +23 -2
src/orchestrator/planner_agent.py +11 -1
src/tools/pubmed.py +19 -6
src/utils/llm_factory.py +1 -1
tests/unit/agent_factory/test_graph_builder.py +4 -4
tests/unit/agent_factory/test_judges_factory.py +1 -1
tests/unit/agents/test_long_writer.py +19 -13
tests/unit/agents/test_proofreader.py +37 -24
tests/unit/agents/test_writer.py +17 -14
tests/unit/orchestrator/test_graph_orchestrator.py +47 -11
tests/unit/orchestrator/test_planner_agent.py +9 -10
tests/unit/orchestrator/test_research_flow.py +2 -2
tests/unit/services/test_embeddings.py +10 -2
tests/unit/test_no_webtool_references.py +5 -1
tests/unit/tools/test_pubmed.py +33 -16
tests/unit/tools/test_rag_tool.py +2 -2

.github/README.md ADDED Viewed

	@@ -0,0 +1,203 @@

+---
+title: DeepCritical
+emoji: 🧬
+colorFrom: blue
+colorTo: purple
+sdk: gradio
+sdk_version: "6.0.1"
+python_version: "3.11"
+app_file: src/app.py
+pinned: false
+license: mit
+tags:
+  - mcp-in-action-track-enterprise
+  - mcp-hackathon
+  - drug-repurposing
+  - biomedical-ai
+  - pydantic-ai
+  - llamaindex
+  - modal
+---
+# DeepCritical
+## Intro
+## Features
+- **Multi-Source Search**: PubMed, ClinicalTrials.gov, bioRxiv/medRxiv
+- **MCP Integration**: Use our tools from Claude Desktop or any MCP client
+- **Modal Sandbox**: Secure execution of AI-generated statistical code
+- **LlamaIndex RAG**: Semantic search and evidence synthesis
+- **HuggingfaceInference**:
+- **HuggingfaceMCP Custom Config To Use Community Tools**:
+- **Strongly Typed Composable Graphs**:
+- **Specialized Research Teams of Agents**:
+## Quick Start
+### 1. Environment Setup
+```bash
+# Install uv if you haven't already
+pip install uv
+# Sync dependencies
+uv sync
+```
+### 2. Run the UI
+```bash
+# Start the Gradio app
+uv run gradio run src/app.py
+```
+Open your browser to `http://localhost:7860`.
+### 3. Connect via MCP
+This application exposes a Model Context Protocol (MCP) server, allowing you to use its search tools directly from Claude Desktop or other MCP clients.
+**MCP Server URL**: `http://localhost:7860/gradio_api/mcp/`
+**Claude Desktop Configuration**:
+Add this to your `claude_desktop_config.json`:
+```json
+{
+  "mcpServers": {
+    "deepcritical": {
+      "url": "http://localhost:7860/gradio_api/mcp/"
+    }
+  }
+}
+```
+**Available Tools**:
+- `search_pubmed`: Search peer-reviewed biomedical literature.
+- `search_clinical_trials`: Search ClinicalTrials.gov.
+- `search_biorxiv`: Search bioRxiv/medRxiv preprints.
+- `search_all`: Search all sources simultaneously.
+- `analyze_hypothesis`: Secure statistical analysis using Modal sandboxes.
+## Deep Research Flows
+- iterativeResearch
+- deepResearch
+- researchTeam
+### Iterative Research
+sequenceDiagram
+    participant IterativeFlow
+    participant ThinkingAgent
+    participant KnowledgeGapAgent
+    participant ToolSelector
+    participant ToolExecutor
+    participant JudgeHandler
+    participant WriterAgent
+    IterativeFlow->>IterativeFlow: run(query)
+    loop Until complete or max_iterations
+        IterativeFlow->>ThinkingAgent: generate_observations()
+        ThinkingAgent-->>IterativeFlow: observations
+        IterativeFlow->>KnowledgeGapAgent: evaluate_gaps()
+        KnowledgeGapAgent-->>IterativeFlow: KnowledgeGapOutput
+        alt Research complete
+            IterativeFlow->>WriterAgent: create_final_report()
+            WriterAgent-->>IterativeFlow: final_report
+        else Gaps remain
+            IterativeFlow->>ToolSelector: select_agents(gap)
+            ToolSelector-->>IterativeFlow: AgentSelectionPlan
+            IterativeFlow->>ToolExecutor: execute_tool_tasks()
+            ToolExecutor-->>IterativeFlow: ToolAgentOutput[]
+            IterativeFlow->>JudgeHandler: assess_evidence()
+            JudgeHandler-->>IterativeFlow: should_continue
+        end
+    end
+### Deep Research
+sequenceDiagram
+    actor User
+    participant GraphOrchestrator
+    participant InputParser
+    participant GraphBuilder
+    participant GraphExecutor
+    participant Agent
+    participant BudgetTracker
+    participant WorkflowState
+    User->>GraphOrchestrator: run(query)
+    GraphOrchestrator->>InputParser: detect_research_mode(query)
+    InputParser-->>GraphOrchestrator: mode (iterative/deep)
+    GraphOrchestrator->>GraphBuilder: build_graph(mode)
+    GraphBuilder-->>GraphOrchestrator: ResearchGraph
+    GraphOrchestrator->>WorkflowState: init_workflow_state()
+    GraphOrchestrator->>BudgetTracker: create_budget()
+    GraphOrchestrator->>GraphExecutor: _execute_graph(graph)
+    loop For each node in graph
+        GraphExecutor->>Agent: execute_node(agent_node)
+        Agent->>Agent: process_input
+        Agent-->>GraphExecutor: result
+        GraphExecutor->>WorkflowState: update_state(result)
+        GraphExecutor->>BudgetTracker: add_tokens(used)
+        GraphExecutor->>BudgetTracker: check_budget()
+        alt Budget exceeded
+            GraphExecutor->>GraphOrchestrator: emit(error_event)
+        else Continue
+            GraphExecutor->>GraphOrchestrator: emit(progress_event)
+        end
+    end
+    GraphOrchestrator->>User: AsyncGenerator[AgentEvent]
+### Research Team
+Critical Deep Research Agent
+## Development
+### Run Tests
+```bash
+uv run pytest
+```
+### Run Checks
+```bash
+make check
+```
+## Architecture
+DeepCritical uses a Vertical Slice Architecture:
+1.  **Search Slice**: Retrieving evidence from PubMed, ClinicalTrials.gov, and bioRxiv.
+2.  **Judge Slice**: Evaluating evidence quality using LLMs.
+3.  **Orchestrator Slice**: Managing the research loop and UI.
+Built with:
+- **PydanticAI**: For robust agent interactions.
+- **Gradio**: For the streaming user interface.
+- **PubMed, ClinicalTrials.gov, bioRxiv**: For biomedical data.
+- **MCP**: For universal tool access.
+- **Modal**: For secure code execution.
+## Team
+- The-Obstacle-Is-The-Way
+- MarioAderman
+- Josephrp
+## Links
+- [GitHub Repository](https://github.com/The-Obstacle-Is-The-Way/DeepCritical-1)

CONTRIBUTING.md ADDED Viewed

	@@ -0,0 +1 @@


1	+ make sure you run the full pre-commit checks before opening a PR (not draft) otherwise Obstacle is the Way will loose his mind

README.md CHANGED Viewed

@@ -21,7 +21,7 @@ tags:
 # DeepCritical
-AI-Powered Drug Repurposing Research Agent
 ## Features
@@ -29,6 +29,10 @@ AI-Powered Drug Repurposing Research Agent
 - **MCP Integration**: Use our tools from Claude Desktop or any MCP client
 - **Modal Sandbox**: Secure execution of AI-generated statistical code
 - **LlamaIndex RAG**: Semantic search and evidence synthesis
 ## Quick Start
@@ -46,7 +50,7 @@ uv sync
 ```bash
 # Start the Gradio app
-uv run python src/app.py
 ```
 Open your browser to `http://localhost:7860`.
@@ -76,6 +80,97 @@ Add this to your `claude_desktop_config.json`:
 - `search_all`: Search all sources simultaneously.
 - `analyze_hypothesis`: Secure statistical analysis using Modal sandboxes.
 ## Development
 ### Run Tests
@@ -90,22 +185,7 @@ uv run pytest
 make check
 ```
-## Architecture
-DeepCritical uses a Vertical Slice Architecture:
-1.  **Search Slice**: Retrieving evidence from PubMed, ClinicalTrials.gov, and bioRxiv.
-2.  **Judge Slice**: Evaluating evidence quality using LLMs.
-3.  **Orchestrator Slice**: Managing the research loop and UI.
-Built with:
-- **PydanticAI**: For robust agent interactions.
-- **Gradio**: For the streaming user interface.
-- **PubMed, ClinicalTrials.gov, bioRxiv**: For biomedical data.
-- **MCP**: For universal tool access.
-- **Modal**: For secure code execution.
-## Team
 - The-Obstacle-Is-The-Way
 - MarioAderman

 # DeepCritical
+## Intro
 ## Features
 - **MCP Integration**: Use our tools from Claude Desktop or any MCP client
 - **Modal Sandbox**: Secure execution of AI-generated statistical code
 - **LlamaIndex RAG**: Semantic search and evidence synthesis
+- **HuggingfaceInference**:
+- **HuggingfaceMCP Custom Config To Use Community Tools**:
+- **Strongly Typed Composable Graphs**:
+- **Specialized Research Teams of Agents**:
 ## Quick Start
 ```bash
 # Start the Gradio app
+uv run gradio run src/app.py
 ```
 Open your browser to `http://localhost:7860`.
 - `search_all`: Search all sources simultaneously.
 - `analyze_hypothesis`: Secure statistical analysis using Modal sandboxes.
+## Architecture
+DeepCritical uses a Vertical Slice Architecture:
+1.  **Search Slice**: Retrieving evidence from PubMed, ClinicalTrials.gov, and bioRxiv.
+2.  **Judge Slice**: Evaluating evidence quality using LLMs.
+3.  **Orchestrator Slice**: Managing the research loop and UI.
+- iterativeResearch
+- deepResearch
+- researchTeam
+### Iterative Research
+sequenceDiagram
+    participant IterativeFlow
+    participant ThinkingAgent
+    participant KnowledgeGapAgent
+    participant ToolSelector
+    participant ToolExecutor
+    participant JudgeHandler
+    participant WriterAgent
+    IterativeFlow->>IterativeFlow: run(query)
+    loop Until complete or max_iterations
+        IterativeFlow->>ThinkingAgent: generate_observations()
+        ThinkingAgent-->>IterativeFlow: observations
+        IterativeFlow->>KnowledgeGapAgent: evaluate_gaps()
+        KnowledgeGapAgent-->>IterativeFlow: KnowledgeGapOutput
+        alt Research complete
+            IterativeFlow->>WriterAgent: create_final_report()
+            WriterAgent-->>IterativeFlow: final_report
+        else Gaps remain
+            IterativeFlow->>ToolSelector: select_agents(gap)
+            ToolSelector-->>IterativeFlow: AgentSelectionPlan
+            IterativeFlow->>ToolExecutor: execute_tool_tasks()
+            ToolExecutor-->>IterativeFlow: ToolAgentOutput[]
+            IterativeFlow->>JudgeHandler: assess_evidence()
+            JudgeHandler-->>IterativeFlow: should_continue
+        end
+    end
+### Deep Research
+sequenceDiagram
+    actor User
+    participant GraphOrchestrator
+    participant InputParser
+    participant GraphBuilder
+    participant GraphExecutor
+    participant Agent
+    participant BudgetTracker
+    participant WorkflowState
+    User->>GraphOrchestrator: run(query)
+    GraphOrchestrator->>InputParser: detect_research_mode(query)
+    InputParser-->>GraphOrchestrator: mode (iterative/deep)
+    GraphOrchestrator->>GraphBuilder: build_graph(mode)
+    GraphBuilder-->>GraphOrchestrator: ResearchGraph
+    GraphOrchestrator->>WorkflowState: init_workflow_state()
+    GraphOrchestrator->>BudgetTracker: create_budget()
+    GraphOrchestrator->>GraphExecutor: _execute_graph(graph)
+    loop For each node in graph
+        GraphExecutor->>Agent: execute_node(agent_node)
+        Agent->>Agent: process_input
+        Agent-->>GraphExecutor: result
+        GraphExecutor->>WorkflowState: update_state(result)
+        GraphExecutor->>BudgetTracker: add_tokens(used)
+        GraphExecutor->>BudgetTracker: check_budget()
+        alt Budget exceeded
+            GraphExecutor->>GraphOrchestrator: emit(error_event)
+        else Continue
+            GraphExecutor->>GraphOrchestrator: emit(progress_event)
+        end
+    end
+    GraphOrchestrator->>User: AsyncGenerator[AgentEvent]
+### Research Team
+Critical Deep Research Agent
 ## Development
 ### Run Tests
 make check
 ```
+## Join Us
 - The-Obstacle-Is-The-Way
 - MarioAderman

docs/CONFIGURATION.md CHANGED Viewed

	@@ -289,3 +289,6 @@ See `CONFIGURATION_ANALYSIS.md` for the complete implementation plan.
289
290
291


289
290
291
292	+
293	+
294	+

docs/architecture/graph_orchestration.md CHANGED Viewed

	@@ -139,3 +139,6 @@ This allows gradual migration and fallback if needed.
139
140
141


139
140
141
142	+
143	+
144	+

docs/examples/writer_agents_usage.md CHANGED Viewed

	@@ -413,3 +413,6 @@ For large reports:
413
414
415


413
414
415
416	+
417	+
418	+

src/agent_factory/graph_builder.py CHANGED Viewed

@@ -79,7 +79,7 @@ class ParallelNode(GraphNode):
     node_type: Literal["parallel"] = "parallel"
     parallel_nodes: list[str] = Field(
-        description="List of node IDs to run in parallel", min_length=1
     )
     aggregator: Callable[[list[Any]], Any] | None = Field(
         default=None, description="Function to aggregate parallel results"

     node_type: Literal["parallel"] = "parallel"
     parallel_nodes: list[str] = Field(
+        description="List of node IDs to run in parallel", min_length=0
     )
     aggregator: Callable[[list[Any]], Any] | None = Field(
         default=None, description="Function to aggregate parallel results"

src/agent_factory/judges.py CHANGED Viewed

@@ -9,7 +9,7 @@ from huggingface_hub import InferenceClient
 from pydantic_ai import Agent
 from pydantic_ai.models.anthropic import AnthropicModel
 from pydantic_ai.models.huggingface import HuggingFaceModel
-from pydantic_ai.models.openai import OpenAIModel
 from pydantic_ai.providers.anthropic import AnthropicProvider
 from pydantic_ai.providers.huggingface import HuggingFaceProvider
 from pydantic_ai.providers.openai import OpenAIProvider

 from pydantic_ai import Agent
 from pydantic_ai.models.anthropic import AnthropicModel
 from pydantic_ai.models.huggingface import HuggingFaceModel
+from pydantic_ai.models.openai import OpenAIChatModel as OpenAIModel
 from pydantic_ai.providers.anthropic import AnthropicProvider
 from pydantic_ai.providers.huggingface import HuggingFaceProvider
 from pydantic_ai.providers.openai import OpenAIProvider

src/app.py CHANGED Viewed

@@ -6,7 +6,7 @@ from typing import Any
 import gradio as gr
 from pydantic_ai.models.anthropic import AnthropicModel
-from pydantic_ai.models.openai import OpenAIModel
 from pydantic_ai.providers.anthropic import AnthropicProvider
 from pydantic_ai.providers.openai import OpenAIProvider

 import gradio as gr
 from pydantic_ai.models.anthropic import AnthropicModel
+from pydantic_ai.models.openai import OpenAIChatModel as OpenAIModel
 from pydantic_ai.providers.anthropic import AnthropicProvider
 from pydantic_ai.providers.openai import OpenAIProvider

src/orchestrator/graph_orchestrator.py CHANGED Viewed

@@ -250,7 +250,18 @@ class GraphOrchestrator:
                     max_time_minutes=self.max_time_minutes,
                 )
-            final_report = await self._iterative_flow.run(query)
             yield AgentEvent(
                 type="complete",
@@ -272,7 +283,17 @@ class GraphOrchestrator:
                     max_time_minutes=self.max_time_minutes,
                 )
-            final_report = await self._deep_flow.run(query)
             yield AgentEvent(
                 type="complete",

                     max_time_minutes=self.max_time_minutes,
                 )
+            try:
+                final_report = await self._iterative_flow.run(query)
+            except Exception as e:
+                self.logger.error("Iterative flow failed", error=str(e), exc_info=True)
+                # Yield error event - outer handler will also catch and yield error event
+                yield AgentEvent(
+                    type="error",
+                    message=f"Iterative research failed: {e!s}",
+                    iteration=1,
+                )
+                # Re-raise so outer handler can also yield error event for consistency
+                raise
             yield AgentEvent(
                 type="complete",
                     max_time_minutes=self.max_time_minutes,
                 )
+            try:
+                final_report = await self._deep_flow.run(query)
+            except Exception as e:
+                self.logger.error("Deep flow failed", error=str(e), exc_info=True)
+                # Yield error event before re-raising so test can capture it
+                yield AgentEvent(
+                    type="error",
+                    message=f"Deep research failed: {e!s}",
+                    iteration=1,
+                )
+                raise
             yield AgentEvent(
                 type="complete",

src/orchestrator/planner_agent.py CHANGED Viewed

@@ -114,7 +114,17 @@ class PlannerAgent:
             # Validate report plan
             if not report_plan.report_outline:
                 self.logger.warning("Report plan has no sections", query=query[:100])
-                raise JudgeError("Report plan must have at least one section")
             if not report_plan.report_title:
                 self.logger.warning("Report plan has no title", query=query[:100])

             # Validate report plan
             if not report_plan.report_outline:
                 self.logger.warning("Report plan has no sections", query=query[:100])
+                # Return fallback plan instead of raising error
+                return ReportPlan(
+                    background_context=report_plan.background_context or "",
+                    report_outline=[
+                        ReportPlanSection(
+                            title="Overview",
+                            key_question=query,
+                        )
+                    ],
+                    report_title=report_plan.report_title or f"Research Report: {query[:50]}",
+                )
             if not report_plan.report_title:
                 self.logger.warning("Report plan has no title", query=query[:100])

src/tools/pubmed.py CHANGED Viewed

@@ -77,6 +77,8 @@ class PubMedTool:
                     params=search_params,
                 )
                 search_resp.raise_for_status()
             except httpx.HTTPStatusError as e:
                 if e.response.status_code == self.HTTP_TOO_MANY_REQUESTS:
                     raise RateLimitError("PubMed rate limit exceeded") from e
@@ -98,11 +100,14 @@ class PubMedTool:
             # Use XML for fetch (more reliable parsing)
             fetch_params["retmode"] = "xml"
-            fetch_resp = await client.get(
-                f"{self.BASE_URL}/efetch.fcgi",
-                params=fetch_params,
-            )
-            fetch_resp.raise_for_status()
             # Step 3: Parse XML to Evidence
             return self._parse_pubmed_xml(fetch_resp.text)
@@ -114,7 +119,15 @@ class PubMedTool:
         except Exception as e:
             raise SearchError(f"Failed to parse PubMed XML: {e}") from e
-        articles = data.get("PubmedArticleSet", {}).get("PubmedArticle", [])
         # Handle single article (xmltodict returns dict instead of list)
         if isinstance(articles, dict):

                     params=search_params,
                 )
                 search_resp.raise_for_status()
+            except httpx.TimeoutException as e:
+                raise SearchError(f"PubMed search timeout: {e}") from e
             except httpx.HTTPStatusError as e:
                 if e.response.status_code == self.HTTP_TOO_MANY_REQUESTS:
                     raise RateLimitError("PubMed rate limit exceeded") from e
             # Use XML for fetch (more reliable parsing)
             fetch_params["retmode"] = "xml"
+            try:
+                fetch_resp = await client.get(
+                    f"{self.BASE_URL}/efetch.fcgi",
+                    params=fetch_params,
+                )
+                fetch_resp.raise_for_status()
+            except httpx.TimeoutException as e:
+                raise SearchError(f"PubMed fetch timeout: {e}") from e
             # Step 3: Parse XML to Evidence
             return self._parse_pubmed_xml(fetch_resp.text)
         except Exception as e:
             raise SearchError(f"Failed to parse PubMed XML: {e}") from e
+        if data is None:
+            return []
+        # Handle case where PubmedArticleSet might not exist or be empty
+        pubmed_set = data.get("PubmedArticleSet")
+        if not pubmed_set:
+            return []
+        articles = pubmed_set.get("PubmedArticle", [])
         # Handle single article (xmltodict returns dict instead of list)
         if isinstance(articles, dict):

src/utils/llm_factory.py CHANGED Viewed

@@ -56,7 +56,7 @@ def get_pydantic_ai_model() -> Any:
         Configured pydantic-ai model
     """
     from pydantic_ai.models.anthropic import AnthropicModel
-    from pydantic_ai.models.openai import OpenAIModel
     from pydantic_ai.providers.anthropic import AnthropicProvider
     from pydantic_ai.providers.openai import OpenAIProvider

         Configured pydantic-ai model
     """
     from pydantic_ai.models.anthropic import AnthropicModel
+    from pydantic_ai.models.openai import OpenAIChatModel as OpenAIModel
     from pydantic_ai.providers.anthropic import AnthropicProvider
     from pydantic_ai.providers.openai import OpenAIProvider

tests/unit/agent_factory/test_graph_builder.py CHANGED Viewed

@@ -240,7 +240,7 @@ class TestResearchGraph:
     def test_validate_empty_graph(self):
         """Test validating an empty graph."""
         graph = ResearchGraph(entry_node="start", exit_nodes=["end"])
-        errors = graph.validate()
         assert len(errors) > 0  # Should have errors for missing entry/exit nodes
     def test_validate_valid_graph(self):
@@ -252,7 +252,7 @@ class TestResearchGraph:
         graph.add_node(end_node)
         graph.add_edge(SequentialEdge(from_node="start", to_node="end"))
-        errors = graph.validate()
         assert len(errors) == 0
     def test_validate_unreachable_nodes(self):
@@ -266,7 +266,7 @@ class TestResearchGraph:
         graph.add_node(unreachable)
         graph.add_edge(SequentialEdge(from_node="start", to_node="end"))
-        errors = graph.validate()
         assert len(errors) > 0
         assert any("unreachable" in error.lower() for error in errors)
@@ -435,5 +435,5 @@ class TestFactoryFunctions:
         assert graph.entry_node == "planner"
         assert "synthesizer" in graph.exit_nodes
         assert "planner" in graph.nodes
-        assert "parallel_loops_placeholder" in graph.nodes
         assert "synthesizer" in graph.nodes

     def test_validate_empty_graph(self):
         """Test validating an empty graph."""
         graph = ResearchGraph(entry_node="start", exit_nodes=["end"])
+        errors = graph.validate_structure()
         assert len(errors) > 0  # Should have errors for missing entry/exit nodes
     def test_validate_valid_graph(self):
         graph.add_node(end_node)
         graph.add_edge(SequentialEdge(from_node="start", to_node="end"))
+        errors = graph.validate_structure()
         assert len(errors) == 0
     def test_validate_unreachable_nodes(self):
         graph.add_node(unreachable)
         graph.add_edge(SequentialEdge(from_node="start", to_node="end"))
+        errors = graph.validate_structure()
         assert len(errors) > 0
         assert any("unreachable" in error.lower() for error in errors)
         assert graph.entry_node == "planner"
         assert "synthesizer" in graph.exit_nodes
         assert "planner" in graph.nodes
+        assert "parallel_loops" in graph.nodes
         assert "synthesizer" in graph.nodes

tests/unit/agent_factory/test_judges_factory.py CHANGED Viewed

@@ -10,7 +10,7 @@ from pydantic_ai.models.anthropic import AnthropicModel
 # We expect this import to exist after we implement it, or we mock it if it's not there yet
 # For TDD, we assume we will use the library class
 from pydantic_ai.models.huggingface import HuggingFaceModel
-from pydantic_ai.models.openai import OpenAIModel
 from src.agent_factory.judges import get_model

 # We expect this import to exist after we implement it, or we mock it if it's not there yet
 # For TDD, we assume we will use the library class
 from pydantic_ai.models.huggingface import HuggingFaceModel
+from pydantic_ai.models.openai import OpenAIChatModel as OpenAIModel
 from src.agent_factory.judges import get_model

tests/unit/agents/test_long_writer.py CHANGED Viewed

@@ -3,7 +3,7 @@
 from unittest.mock import AsyncMock, MagicMock, patch
 import pytest
-from pydantic_ai import AgentResult
 from src.agents.long_writer import LongWriterAgent, LongWriterOutput, create_long_writer_agent
 from src.utils.models import ReportDraft, ReportDraftSection
@@ -27,9 +27,11 @@ def mock_long_writer_output() -> LongWriterOutput:
 @pytest.fixture
-def mock_agent_result(mock_long_writer_output: LongWriterOutput) -> AgentResult[LongWriterOutput]:
     """Create a mock agent result."""
-    result = MagicMock(spec=AgentResult)
     result.output = mock_long_writer_output
     return result
@@ -90,7 +92,7 @@ class TestWriteNextSection:
     async def test_write_next_section_basic(
         self,
         long_writer_agent: LongWriterAgent,
-        mock_agent_result: AgentResult[LongWriterOutput],
     ) -> None:
         """Test basic section writing."""
         long_writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -116,7 +118,7 @@ class TestWriteNextSection:
     async def test_write_next_section_first_section(
         self,
         long_writer_agent: LongWriterAgent,
-        mock_agent_result: AgentResult[LongWriterOutput],
     ) -> None:
         """Test writing the first section (no existing draft)."""
         long_writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -142,7 +144,7 @@ class TestWriteNextSection:
     async def test_write_next_section_with_existing_draft(
         self,
         long_writer_agent: LongWriterAgent,
-        mock_agent_result: AgentResult[LongWriterOutput],
     ) -> None:
         """Test writing section with existing draft."""
         long_writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -168,7 +170,7 @@ class TestWriteNextSection:
     async def test_write_next_section_returns_references(
         self,
         long_writer_agent: LongWriterAgent,
-        mock_agent_result: AgentResult[LongWriterOutput],
     ) -> None:
         """Test that write_next_section returns references."""
         long_writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -187,7 +189,7 @@ class TestWriteNextSection:
     async def test_write_next_section_handles_empty_draft(
         self,
         long_writer_agent: LongWriterAgent,
-        mock_agent_result: AgentResult[LongWriterOutput],
     ) -> None:
         """Test writing section with empty draft."""
         long_writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -226,7 +228,7 @@ class TestWriteReport:
     async def test_write_report_complete_flow(
         self,
         long_writer_agent: LongWriterAgent,
-        mock_agent_result: AgentResult[LongWriterOutput],
         sample_report_draft: ReportDraft,
     ) -> None:
         """Test complete report writing flow."""
@@ -253,7 +255,7 @@ class TestWriteReport:
     async def test_write_report_single_section(
         self,
         long_writer_agent: LongWriterAgent,
-        mock_agent_result: AgentResult[LongWriterOutput],
     ) -> None:
         """Test writing report with single section."""
         long_writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -281,7 +283,7 @@ class TestWriteReport:
     async def test_write_report_multiple_sections(
         self,
         long_writer_agent: LongWriterAgent,
-        mock_agent_result: AgentResult[LongWriterOutput],
         sample_report_draft: ReportDraft,
     ) -> None:
         """Test writing report with multiple sections."""
@@ -302,7 +304,7 @@ class TestWriteReport:
     async def test_write_report_creates_table_of_contents(
         self,
         long_writer_agent: LongWriterAgent,
-        mock_agent_result: AgentResult[LongWriterOutput],
         sample_report_draft: ReportDraft,
     ) -> None:
         """Test that write_report creates table of contents."""
@@ -335,7 +337,11 @@ class TestWriteReport:
             references=["[1] https://example.com/2"],
         )
-        results = [AgentResult(output=output1), AgentResult(output=output2)]
         long_writer_agent.agent.run = AsyncMock(side_effect=results)
         result = await long_writer_agent.write_report(

 from unittest.mock import AsyncMock, MagicMock, patch
 import pytest
+from pydantic_ai import AgentRunResult
 from src.agents.long_writer import LongWriterAgent, LongWriterOutput, create_long_writer_agent
 from src.utils.models import ReportDraft, ReportDraftSection
 @pytest.fixture
+def mock_agent_result(
+    mock_long_writer_output: LongWriterOutput,
+) -> AgentRunResult[LongWriterOutput]:
     """Create a mock agent result."""
+    result = MagicMock(spec=AgentRunResult)
     result.output = mock_long_writer_output
     return result
     async def test_write_next_section_basic(
         self,
         long_writer_agent: LongWriterAgent,
+        mock_agent_result: AgentRunResult[LongWriterOutput],
     ) -> None:
         """Test basic section writing."""
         long_writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     async def test_write_next_section_first_section(
         self,
         long_writer_agent: LongWriterAgent,
+        mock_agent_result: AgentRunResult[LongWriterOutput],
     ) -> None:
         """Test writing the first section (no existing draft)."""
         long_writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     async def test_write_next_section_with_existing_draft(
         self,
         long_writer_agent: LongWriterAgent,
+        mock_agent_result: AgentRunResult[LongWriterOutput],
     ) -> None:
         """Test writing section with existing draft."""
         long_writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     async def test_write_next_section_returns_references(
         self,
         long_writer_agent: LongWriterAgent,
+        mock_agent_result: AgentRunResult[LongWriterOutput],
     ) -> None:
         """Test that write_next_section returns references."""
         long_writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     async def test_write_next_section_handles_empty_draft(
         self,
         long_writer_agent: LongWriterAgent,
+        mock_agent_result: AgentRunResult[LongWriterOutput],
     ) -> None:
         """Test writing section with empty draft."""
         long_writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     async def test_write_report_complete_flow(
         self,
         long_writer_agent: LongWriterAgent,
+        mock_agent_result: AgentRunResult[LongWriterOutput],
         sample_report_draft: ReportDraft,
     ) -> None:
         """Test complete report writing flow."""
     async def test_write_report_single_section(
         self,
         long_writer_agent: LongWriterAgent,
+        mock_agent_result: AgentRunResult[LongWriterOutput],
     ) -> None:
         """Test writing report with single section."""
         long_writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     async def test_write_report_multiple_sections(
         self,
         long_writer_agent: LongWriterAgent,
+        mock_agent_result: AgentRunResult[LongWriterOutput],
         sample_report_draft: ReportDraft,
     ) -> None:
         """Test writing report with multiple sections."""
     async def test_write_report_creates_table_of_contents(
         self,
         long_writer_agent: LongWriterAgent,
+        mock_agent_result: AgentRunResult[LongWriterOutput],
         sample_report_draft: ReportDraft,
     ) -> None:
         """Test that write_report creates table of contents."""
             references=["[1] https://example.com/2"],
         )
+        result1 = MagicMock(spec=AgentRunResult)
+        result1.output = output1
+        result2 = MagicMock(spec=AgentRunResult)
+        result2.output = output2
+        results = [result1, result2]
         long_writer_agent.agent.run = AsyncMock(side_effect=results)
         result = await long_writer_agent.write_report(

tests/unit/agents/test_proofreader.py CHANGED Viewed

@@ -4,7 +4,7 @@ from typing import Any
 from unittest.mock import AsyncMock, MagicMock, patch
 import pytest
-from pydantic_ai import AgentResult
 from src.agents.proofreader import ProofreaderAgent, create_proofreader_agent
 from src.utils.models import ReportDraft, ReportDraftSection
@@ -19,9 +19,9 @@ def mock_model() -> MagicMock:
 @pytest.fixture
-def mock_agent_result() -> AgentResult[Any]:
     """Create a mock agent result."""
-    result = MagicMock(spec=AgentResult)
     result.output = """# Final Report
 ## Summary
@@ -82,10 +82,13 @@ class TestProofreaderAgentInit:
         self, proofreader_agent: ProofreaderAgent
     ) -> None:
         """Test that ProofreaderAgent has correct system prompt."""
-        # System prompt should contain key instructions
-        assert proofreader_agent.agent.system_prompt is not None
-        assert "proofread" in proofreader_agent.agent.system_prompt.lower()
-        assert "report" in proofreader_agent.agent.system_prompt.lower()
 class TestProofread:
@@ -95,7 +98,7 @@ class TestProofread:
     async def test_proofread_basic(
         self,
         proofreader_agent: ProofreaderAgent,
-        mock_agent_result: AgentResult[Any],
         sample_report_draft: ReportDraft,
     ) -> None:
         """Test basic proofreading."""
@@ -112,7 +115,7 @@ class TestProofread:
     async def test_proofread_single_section(
         self,
         proofreader_agent: ProofreaderAgent,
-        mock_agent_result: AgentResult[Any],
     ) -> None:
         """Test proofreading with single section."""
         proofreader_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -135,7 +138,7 @@ class TestProofread:
     async def test_proofread_multiple_sections(
         self,
         proofreader_agent: ProofreaderAgent,
-        mock_agent_result: AgentResult[Any],
         sample_report_draft: ReportDraft,
     ) -> None:
         """Test proofreading with multiple sections."""
@@ -152,7 +155,7 @@ class TestProofread:
     async def test_proofread_removes_duplicates(
         self,
         proofreader_agent: ProofreaderAgent,
-        mock_agent_result: AgentResult[Any],
     ) -> None:
         """Test that proofreader removes duplicate content."""
         proofreader_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -181,7 +184,7 @@ class TestProofread:
     async def test_proofread_adds_summary(
         self,
         proofreader_agent: ProofreaderAgent,
-        mock_agent_result: AgentResult[Any],
         sample_report_draft: ReportDraft,
     ) -> None:
         """Test that proofreader adds summary."""
@@ -190,15 +193,16 @@ class TestProofread:
         result = await proofreader_agent.proofread(query="Test", report_draft=sample_report_draft)
         assert isinstance(result, str)
-        # System prompt should instruct to add summary
-        call_args = proofreader_agent.agent.run.call_args[0][0]
-        assert "summary" in call_args.lower() or "Summary" in call_args
     @pytest.mark.asyncio
     async def test_proofread_preserves_references(
         self,
         proofreader_agent: ProofreaderAgent,
-        mock_agent_result: AgentResult[Any],
         sample_report_draft: ReportDraft,
     ) -> None:
         """Test that proofreader preserves references."""
@@ -207,15 +211,20 @@ class TestProofread:
         result = await proofreader_agent.proofread(query="Test", report_draft=sample_report_draft)
         assert isinstance(result, str)
-        # System prompt should instruct to preserve sources
-        call_args = proofreader_agent.agent.run.call_args[0][0]
-        assert "sources" in call_args.lower() or "references" in call_args.lower()
     @pytest.mark.asyncio
     async def test_proofread_empty_draft(
         self,
         proofreader_agent: ProofreaderAgent,
-        mock_agent_result: AgentResult[Any],
     ) -> None:
         """Test proofreading with empty draft."""
         proofreader_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -225,13 +234,17 @@ class TestProofread:
         result = await proofreader_agent.proofread(query="Test", report_draft=report_draft)
         assert isinstance(result, str)
-        assert proofreader_agent.agent.run.called
     @pytest.mark.asyncio
     async def test_proofread_single_section_draft(
         self,
         proofreader_agent: ProofreaderAgent,
-        mock_agent_result: AgentResult[Any],
     ) -> None:
         """Test proofreading with single section draft."""
         proofreader_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -253,7 +266,7 @@ class TestProofread:
     async def test_proofread_very_long_draft(
         self,
         proofreader_agent: ProofreaderAgent,
-        mock_agent_result: AgentResult[Any],
     ) -> None:
         """Test proofreading with very long draft."""
         proofreader_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -276,7 +289,7 @@ class TestProofread:
     async def test_proofread_malformed_sections(
         self,
         proofreader_agent: ProofreaderAgent,
-        mock_agent_result: AgentResult[Any],
     ) -> None:
         """Test proofreading with malformed sections."""
         proofreader_agent.agent.run = AsyncMock(return_value=mock_agent_result)

 from unittest.mock import AsyncMock, MagicMock, patch
 import pytest
+from pydantic_ai import AgentRunResult
 from src.agents.proofreader import ProofreaderAgent, create_proofreader_agent
 from src.utils.models import ReportDraft, ReportDraftSection
 @pytest.fixture
+def mock_agent_result() -> AgentRunResult[Any]:
     """Create a mock agent result."""
+    result = MagicMock(spec=AgentRunResult)
     result.output = """# Final Report
 ## Summary
         self, proofreader_agent: ProofreaderAgent
     ) -> None:
         """Test that ProofreaderAgent has correct system prompt."""
+        # System prompt should exist and contain key instructions
+        # Check the source constant directly since system_prompt property may be a callable
+        from src.agents.proofreader import SYSTEM_PROMPT
+        assert SYSTEM_PROMPT is not None
+        assert "proofread" in SYSTEM_PROMPT.lower()
+        assert "report" in SYSTEM_PROMPT.lower()
 class TestProofread:
     async def test_proofread_basic(
         self,
         proofreader_agent: ProofreaderAgent,
+        mock_agent_result: AgentRunResult[Any],
         sample_report_draft: ReportDraft,
     ) -> None:
         """Test basic proofreading."""
     async def test_proofread_single_section(
         self,
         proofreader_agent: ProofreaderAgent,
+        mock_agent_result: AgentRunResult[Any],
     ) -> None:
         """Test proofreading with single section."""
         proofreader_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     async def test_proofread_multiple_sections(
         self,
         proofreader_agent: ProofreaderAgent,
+        mock_agent_result: AgentRunResult[Any],
         sample_report_draft: ReportDraft,
     ) -> None:
         """Test proofreading with multiple sections."""
     async def test_proofread_removes_duplicates(
         self,
         proofreader_agent: ProofreaderAgent,
+        mock_agent_result: AgentRunResult[Any],
     ) -> None:
         """Test that proofreader removes duplicate content."""
         proofreader_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     async def test_proofread_adds_summary(
         self,
         proofreader_agent: ProofreaderAgent,
+        mock_agent_result: AgentRunResult[Any],
         sample_report_draft: ReportDraft,
     ) -> None:
         """Test that proofreader adds summary."""
         result = await proofreader_agent.proofread(query="Test", report_draft=sample_report_draft)
         assert isinstance(result, str)
+        # System prompt should instruct to add summary - check source constant
+        from src.agents.proofreader import SYSTEM_PROMPT
+        assert "summary" in SYSTEM_PROMPT.lower() or "Add a summary" in SYSTEM_PROMPT
     @pytest.mark.asyncio
     async def test_proofread_preserves_references(
         self,
         proofreader_agent: ProofreaderAgent,
+        mock_agent_result: AgentRunResult[Any],
         sample_report_draft: ReportDraft,
     ) -> None:
         """Test that proofreader preserves references."""
         result = await proofreader_agent.proofread(query="Test", report_draft=sample_report_draft)
         assert isinstance(result, str)
+        # System prompt should instruct to preserve sources - check source constant
+        from src.agents.proofreader import SYSTEM_PROMPT
+        assert (
+            "sources" in SYSTEM_PROMPT.lower()
+            or "references" in SYSTEM_PROMPT.lower()
+            or "Preserve sources" in SYSTEM_PROMPT
+        )
     @pytest.mark.asyncio
     async def test_proofread_empty_draft(
         self,
         proofreader_agent: ProofreaderAgent,
+        mock_agent_result: AgentRunResult[Any],
     ) -> None:
         """Test proofreading with empty draft."""
         proofreader_agent.agent.run = AsyncMock(return_value=mock_agent_result)
         result = await proofreader_agent.proofread(query="Test", report_draft=report_draft)
         assert isinstance(result, str)
+        # When draft is empty, agent returns early without calling run
+        assert "Research Report" in result
+        assert "Query" in result
+        # Agent.run should not be called for empty drafts (early return)
+        assert not proofreader_agent.agent.run.called
     @pytest.mark.asyncio
     async def test_proofread_single_section_draft(
         self,
         proofreader_agent: ProofreaderAgent,
+        mock_agent_result: AgentRunResult[Any],
     ) -> None:
         """Test proofreading with single section draft."""
         proofreader_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     async def test_proofread_very_long_draft(
         self,
         proofreader_agent: ProofreaderAgent,
+        mock_agent_result: AgentRunResult[Any],
     ) -> None:
         """Test proofreading with very long draft."""
         proofreader_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     async def test_proofread_malformed_sections(
         self,
         proofreader_agent: ProofreaderAgent,
+        mock_agent_result: AgentRunResult[Any],
     ) -> None:
         """Test proofreading with malformed sections."""
         proofreader_agent.agent.run = AsyncMock(return_value=mock_agent_result)

tests/unit/agents/test_writer.py CHANGED Viewed

@@ -4,7 +4,7 @@ from typing import Any
 from unittest.mock import AsyncMock, MagicMock, patch
 import pytest
-from pydantic_ai import AgentResult
 from src.agents.writer import WriterAgent, create_writer_agent
 from src.utils.exceptions import ConfigurationError
@@ -19,9 +19,9 @@ def mock_model() -> MagicMock:
 @pytest.fixture
-def mock_agent_result() -> AgentResult[Any]:
     """Create a mock agent result."""
-    result = MagicMock(spec=AgentResult)
     result.output = "# Research Report\n\nThis is a test report with citations [1].\n\nReferences:\n[1] https://example.com"
     return result
@@ -53,10 +53,13 @@ class TestWriterAgentInit:
     def test_writer_agent_has_correct_system_prompt(self, writer_agent: WriterAgent) -> None:
         """Test that WriterAgent has correct system prompt."""
-        # System prompt should contain key instructions
-        assert writer_agent.agent.system_prompt is not None
-        assert "researcher" in writer_agent.agent.system_prompt.lower()
-        assert "markdown" in writer_agent.agent.system_prompt.lower()
 class TestWriteReport:
@@ -64,7 +67,7 @@ class TestWriteReport:
     @pytest.mark.asyncio
     async def test_write_report_basic(
-        self, writer_agent: WriterAgent, mock_agent_result: AgentResult[Any]
     ) -> None:
         """Test basic report writing."""
         writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -80,7 +83,7 @@ class TestWriteReport:
     @pytest.mark.asyncio
     async def test_write_report_with_output_length(
-        self, writer_agent: WriterAgent, mock_agent_result: AgentResult[Any]
     ) -> None:
         """Test report writing with output length specification."""
         writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -100,7 +103,7 @@ class TestWriteReport:
     @pytest.mark.asyncio
     async def test_write_report_with_instructions(
-        self, writer_agent: WriterAgent, mock_agent_result: AgentResult[Any]
     ) -> None:
         """Test report writing with additional instructions."""
         writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -120,7 +123,7 @@ class TestWriteReport:
     @pytest.mark.asyncio
     async def test_write_report_with_citations(
-        self, writer_agent: WriterAgent, mock_agent_result: AgentResult[Any]
     ) -> None:
         """Test report writing includes citations."""
         writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -135,7 +138,7 @@ class TestWriteReport:
     @pytest.mark.asyncio
     async def test_write_report_empty_findings(
-        self, writer_agent: WriterAgent, mock_agent_result: AgentResult[Any]
     ) -> None:
         """Test report writing with empty findings."""
         writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -150,7 +153,7 @@ class TestWriteReport:
     @pytest.mark.asyncio
     async def test_write_report_very_long_findings(
-        self, writer_agent: WriterAgent, mock_agent_result: AgentResult[Any]
     ) -> None:
         """Test report writing with very long findings."""
         writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
@@ -165,7 +168,7 @@ class TestWriteReport:
     @pytest.mark.asyncio
     async def test_write_report_special_characters(
-        self, writer_agent: WriterAgent, mock_agent_result: AgentResult[Any]
     ) -> None:
         """Test report writing with special characters in findings."""
         writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)

 from unittest.mock import AsyncMock, MagicMock, patch
 import pytest
+from pydantic_ai import AgentRunResult
 from src.agents.writer import WriterAgent, create_writer_agent
 from src.utils.exceptions import ConfigurationError
 @pytest.fixture
+def mock_agent_result() -> AgentRunResult[Any]:
     """Create a mock agent result."""
+    result = MagicMock(spec=AgentRunResult)
     result.output = "# Research Report\n\nThis is a test report with citations [1].\n\nReferences:\n[1] https://example.com"
     return result
     def test_writer_agent_has_correct_system_prompt(self, writer_agent: WriterAgent) -> None:
         """Test that WriterAgent has correct system prompt."""
+        # System prompt should exist and contain key instructions
+        # Check the source constant directly since system_prompt property may be a callable
+        from src.agents.writer import SYSTEM_PROMPT
+        assert SYSTEM_PROMPT is not None
+        assert "researcher" in SYSTEM_PROMPT.lower()
+        assert "markdown" in SYSTEM_PROMPT.lower()
 class TestWriteReport:
     @pytest.mark.asyncio
     async def test_write_report_basic(
+        self, writer_agent: WriterAgent, mock_agent_result: AgentRunResult[Any]
     ) -> None:
         """Test basic report writing."""
         writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     @pytest.mark.asyncio
     async def test_write_report_with_output_length(
+        self, writer_agent: WriterAgent, mock_agent_result: AgentRunResult[Any]
     ) -> None:
         """Test report writing with output length specification."""
         writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     @pytest.mark.asyncio
     async def test_write_report_with_instructions(
+        self, writer_agent: WriterAgent, mock_agent_result: AgentRunResult[Any]
     ) -> None:
         """Test report writing with additional instructions."""
         writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     @pytest.mark.asyncio
     async def test_write_report_with_citations(
+        self, writer_agent: WriterAgent, mock_agent_result: AgentRunResult[Any]
     ) -> None:
         """Test report writing includes citations."""
         writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     @pytest.mark.asyncio
     async def test_write_report_empty_findings(
+        self, writer_agent: WriterAgent, mock_agent_result: AgentRunResult[Any]
     ) -> None:
         """Test report writing with empty findings."""
         writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     @pytest.mark.asyncio
     async def test_write_report_very_long_findings(
+        self, writer_agent: WriterAgent, mock_agent_result: AgentRunResult[Any]
     ) -> None:
         """Test report writing with very long findings."""
         writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)
     @pytest.mark.asyncio
     async def test_write_report_special_characters(
+        self, writer_agent: WriterAgent, mock_agent_result: AgentRunResult[Any]
     ) -> None:
         """Test report writing with special characters in findings."""
         writer_agent.agent.run = AsyncMock(return_value=mock_agent_result)

tests/unit/orchestrator/test_graph_orchestrator.py CHANGED Viewed

@@ -89,16 +89,18 @@ class TestGraphOrchestrator:
         assert orchestrator._iterative_flow is None
         assert orchestrator._deep_flow is None
-    def test_detect_research_mode_deep(self):
         """Test detecting deep research mode from query."""
         orchestrator = GraphOrchestrator(mode="auto")
-        mode = orchestrator._detect_research_mode("Create a report with sections about X")
         assert mode == "deep"
-    def test_detect_research_mode_iterative(self):
         """Test detecting iterative research mode from query."""
         orchestrator = GraphOrchestrator(mode="auto")
-        mode = orchestrator._detect_research_mode("What is the mechanism of action?")
         assert mode == "iterative"
     @pytest.mark.asyncio
@@ -200,18 +202,52 @@ class TestGraphOrchestrator:
             max_time_minutes=5,
             use_graph=False,
         )
-        with patch("src.orchestrator.research_flow.IterativeResearchFlow") as mock_flow_class:
-            mock_flow = AsyncMock()
-            mock_flow.run = AsyncMock(side_effect=Exception("Test error"))
-            mock_flow_class.return_value = mock_flow
             events = []
-            async for event in orchestrator.run("Test query"):
-                events.append(event)
             error_events = [e for e in events if e.type == "error"]
-            assert len(error_events) > 0
             assert (
                 "error" in error_events[0].message.lower()
                 or "failed" in error_events[0].message.lower()

         assert orchestrator._iterative_flow is None
         assert orchestrator._deep_flow is None
+    @pytest.mark.asyncio
+    async def test_detect_research_mode_deep(self):
         """Test detecting deep research mode from query."""
         orchestrator = GraphOrchestrator(mode="auto")
+        mode = await orchestrator._detect_research_mode("Create a report with sections about X")
         assert mode == "deep"
+    @pytest.mark.asyncio
+    async def test_detect_research_mode_iterative(self):
         """Test detecting iterative research mode from query."""
         orchestrator = GraphOrchestrator(mode="auto")
+        mode = await orchestrator._detect_research_mode("What is the mechanism of action?")
         assert mode == "iterative"
     @pytest.mark.asyncio
             max_time_minutes=5,
             use_graph=False,
         )
+        # Ensure flow is None so it gets created fresh
+        orchestrator._iterative_flow = None
+        # Create the flow first, then patch its run method
+        from src.orchestrator.research_flow import IterativeResearchFlow
+        # Create flow and patch its run method to raise exception
+        original_flow = IterativeResearchFlow(
+            max_iterations=2,
+            max_time_minutes=5,
+        )
+        orchestrator._iterative_flow = original_flow
+        with patch.object(original_flow, "run", side_effect=Exception("Test error")):
             events = []
+            # Collect events manually to ensure we get error events even when exception occurs
+            gen = orchestrator.run("Test query")
+            while True:
+                try:
+                    event = await gen.__anext__()
+                    events.append(event)
+                    # If we got an error event, continue to see if outer handler also yields one
+                    if event.type == "error":
+                        # Try to get outer handler's error event too
+                        try:
+                            next_event = await gen.__anext__()
+                            events.append(next_event)
+                        except (StopAsyncIteration, Exception):
+                            break
+                        break
+                except StopAsyncIteration:
+                    break
+                except Exception:
+                    # Exception occurred - outer handler should yield error event
+                    # Try to get it
+                    try:
+                        event = await gen.__anext__()
+                        events.append(event)
+                    except (StopAsyncIteration, Exception):
+                        break
+                    break
             error_events = [e for e in events if e.type == "error"]
+            assert (
+                len(error_events) > 0
+            ), f"No error events found. Events: {[e.type for e in events]}"
             assert (
                 "error" in error_events[0].message.lower()
                 or "failed" in error_events[0].message.lower()

tests/unit/orchestrator/test_planner_agent.py CHANGED Viewed

@@ -39,7 +39,7 @@ class TestPlannerAgent:
     @pytest.mark.asyncio
     async def test_planner_agent_creates_report_plan(self, mock_model, mock_agent_run_result):
         """PlannerAgent should create a valid ReportPlan."""
-        with patch("src.orchestrator.planner_agent.get_pydantic_ai_model") as mock_get_model:
             mock_get_model.return_value = mock_model
             mock_agent = AsyncMock()
@@ -72,7 +72,7 @@ class TestPlannerAgent:
         mock_agent = AsyncMock()
         mock_agent.run = AsyncMock(return_value=mock_result)
-        with patch("src.orchestrator.planner_agent.get_pydantic_ai_model") as mock_get_model:
             mock_get_model.return_value = mock_model
             with patch("src.orchestrator.planner_agent.Agent") as mock_agent_class:
@@ -94,7 +94,7 @@ class TestPlannerAgent:
         mock_agent = AsyncMock()
         mock_agent.run = AsyncMock(side_effect=Exception("API Error"))
-        with patch("src.orchestrator.planner_agent.get_pydantic_ai_model") as mock_get_model:
             mock_get_model.return_value = mock_model
             with patch("src.orchestrator.planner_agent.Agent") as mock_agent_class:
@@ -108,10 +108,9 @@ class TestPlannerAgent:
                 # Should return fallback plan
                 assert isinstance(result, ReportPlan)
                 assert len(result.report_outline) > 0
-                assert (
-                    "Failed" in result.background_context
-                    or "Overview" in result.report_outline[0].title
-                )
     @pytest.mark.asyncio
     async def test_planner_agent_uses_tools(self, mock_model, mock_agent_run_result):
@@ -119,7 +118,7 @@ class TestPlannerAgent:
         mock_agent = AsyncMock()
         mock_agent.run = AsyncMock(return_value=mock_agent_run_result)
-        with patch("src.orchestrator.planner_agent.get_pydantic_ai_model") as mock_get_model:
             mock_get_model.return_value = mock_model
             with patch("src.orchestrator.planner_agent.Agent") as mock_agent_class:
@@ -139,7 +138,7 @@ class TestPlannerAgent:
     @pytest.mark.asyncio
     async def test_create_planner_agent_factory(self, mock_model):
         """create_planner_agent should create a PlannerAgent instance."""
-        with patch("src.orchestrator.planner_agent.get_pydantic_ai_model") as mock_get_model:
             mock_get_model.return_value = mock_model
             with patch("src.orchestrator.planner_agent.Agent") as mock_agent_class:
@@ -155,7 +154,7 @@ class TestPlannerAgent:
         """create_planner_agent should use default model when None provided."""
         mock_model = MagicMock()
-        with patch("src.orchestrator.planner_agent.get_pydantic_ai_model") as mock_get_model:
             mock_get_model.return_value = mock_model
             with patch("src.orchestrator.planner_agent.Agent") as mock_agent_class:

     @pytest.mark.asyncio
     async def test_planner_agent_creates_report_plan(self, mock_model, mock_agent_run_result):
         """PlannerAgent should create a valid ReportPlan."""
+        with patch("src.orchestrator.planner_agent.get_model") as mock_get_model:
             mock_get_model.return_value = mock_model
             mock_agent = AsyncMock()
         mock_agent = AsyncMock()
         mock_agent.run = AsyncMock(return_value=mock_result)
+        with patch("src.orchestrator.planner_agent.get_model") as mock_get_model:
             mock_get_model.return_value = mock_model
             with patch("src.orchestrator.planner_agent.Agent") as mock_agent_class:
         mock_agent = AsyncMock()
         mock_agent.run = AsyncMock(side_effect=Exception("API Error"))
+        with patch("src.orchestrator.planner_agent.get_model") as mock_get_model:
             mock_get_model.return_value = mock_model
             with patch("src.orchestrator.planner_agent.Agent") as mock_agent_class:
                 # Should return fallback plan
                 assert isinstance(result, ReportPlan)
                 assert len(result.report_outline) > 0
+                # Fallback plan has title "Research Findings" and empty background_context
+                assert result.report_outline[0].title == "Research Findings"
+                assert result.background_context == ""
     @pytest.mark.asyncio
     async def test_planner_agent_uses_tools(self, mock_model, mock_agent_run_result):
         mock_agent = AsyncMock()
         mock_agent.run = AsyncMock(return_value=mock_agent_run_result)
+        with patch("src.orchestrator.planner_agent.get_model") as mock_get_model:
             mock_get_model.return_value = mock_model
             with patch("src.orchestrator.planner_agent.Agent") as mock_agent_class:
     @pytest.mark.asyncio
     async def test_create_planner_agent_factory(self, mock_model):
         """create_planner_agent should create a PlannerAgent instance."""
+        with patch("src.orchestrator.planner_agent.get_model") as mock_get_model:
             mock_get_model.return_value = mock_model
             with patch("src.orchestrator.planner_agent.Agent") as mock_agent_class:
         """create_planner_agent should use default model when None provided."""
         mock_model = MagicMock()
+        with patch("src.orchestrator.planner_agent.get_model") as mock_get_model:
             mock_get_model.return_value = mock_model
             with patch("src.orchestrator.planner_agent.Agent") as mock_agent_class:

tests/unit/orchestrator/test_research_flow.py CHANGED Viewed

@@ -46,7 +46,7 @@ class TestIterativeResearchFlow:
                 "task_1": ToolAgentOutput(output="Finding 1", sources=["url1"]),
             }
-            return IterativeResearchFlow(max_iterations=2, max_time_minutes=5)
     @pytest.mark.asyncio
     async def test_iterative_flow_completes_when_research_complete(self, flow, mock_agents):
@@ -208,7 +208,7 @@ class TestDeepResearchFlow:
             mock_long_writer.return_value = mock_agents["long_writer"]
             mock_proofreader.return_value = mock_agents["proofreader"]
-            return DeepResearchFlow(max_iterations=2, max_time_minutes=5)
     @pytest.mark.asyncio
     async def test_deep_flow_creates_report_plan(self, flow, mock_agents):

                 "task_1": ToolAgentOutput(output="Finding 1", sources=["url1"]),
             }
+            yield IterativeResearchFlow(max_iterations=2, max_time_minutes=5)
     @pytest.mark.asyncio
     async def test_iterative_flow_completes_when_research_complete(self, flow, mock_agents):
             mock_long_writer.return_value = mock_agents["long_writer"]
             mock_proofreader.return_value = mock_agents["proofreader"]
+            yield DeepResearchFlow(max_iterations=2, max_time_minutes=5)
     @pytest.mark.asyncio
     async def test_deep_flow_creates_report_plan(self, flow, mock_agents):

tests/unit/services/test_embeddings.py CHANGED Viewed

@@ -6,8 +6,16 @@ import numpy as np
 import pytest
 # Skip if embeddings dependencies are not installed
-pytest.importorskip("chromadb")
-pytest.importorskip("sentence_transformers")
 from src.services.embeddings import EmbeddingService

 import pytest
 # Skip if embeddings dependencies are not installed
+# Handle Windows-specific scipy import issues
+try:
+    pytest.importorskip("chromadb")
+    pytest.importorskip("sentence_transformers")
+except OSError:
+    # On Windows, scipy import can fail with OSError during collection
+    # Skip the entire test module in this case
+    pytest.skip(
+        "Embeddings dependencies not available (scipy import issue)", allow_module_level=True
+    )
 from src.services.embeddings import EmbeddingService

tests/unit/test_no_webtool_references.py CHANGED Viewed

@@ -9,7 +9,11 @@ def test_examples_no_webtool_imports():
     examples_dir = pathlib.Path("examples")
     for py_file in examples_dir.rglob("*.py"):
-        content = py_file.read_text()
         tree = ast.parse(content)
         for node in ast.walk(tree):

     examples_dir = pathlib.Path("examples")
     for py_file in examples_dir.rglob("*.py"):
+        try:
+            content = py_file.read_text(encoding="utf-8")
+        except UnicodeDecodeError:
+            # Skip files that can't be decoded as UTF-8
+            continue
         tree = ast.parse(content)
         for node in ast.walk(tree):

tests/unit/tools/test_pubmed.py CHANGED Viewed

@@ -142,23 +142,40 @@ class TestPubMedTool:
         mocker.patch("httpx.AsyncClient", return_value=mock_client)
         tool = PubMedTool()
-        # Reset last request time to ensure rate limit is triggered
-        tool._last_request_time = 0.0
-        # Mock time to control elapsed time
-        with patch("asyncio.get_running_loop") as mock_loop:
-            loop_mock = MagicMock()
-            loop_mock.time.side_effect = [0.0, 0.1]  # Only 0.1s elapsed, need 0.34s
-            mock_loop.return_value = loop_mock
-            # Mock sleep to verify it's called
-            with patch("asyncio.sleep") as mock_sleep:
-                await tool.search("test query")
-                # Should sleep for at least (0.34 - 0.1) = 0.24 seconds
-                mock_sleep.assert_called_once()
-                call_arg = mock_sleep.call_args[0][0]
-                assert call_arg >= 0.24
     @pytest.mark.asyncio
     async def test_api_key_included_in_params(self, mocker):

         mocker.patch("httpx.AsyncClient", return_value=mock_client)
+        from src.tools.rate_limiter import reset_pubmed_limiter
+        # Reset the rate limiter to ensure clean state
+        reset_pubmed_limiter()
+        mock_search_response = MagicMock()
+        mock_search_response.json.return_value = {"esearchresult": {"idlist": []}}
+        mock_search_response.raise_for_status = MagicMock()
+        mock_client = AsyncMock()
+        mock_client.get = AsyncMock(return_value=mock_search_response)
+        mock_client.__aenter__ = AsyncMock(return_value=mock_client)
+        mock_client.__aexit__ = AsyncMock(return_value=None)
+        mocker.patch("httpx.AsyncClient", return_value=mock_client)
         tool = PubMedTool()
+        tool._limiter.reset()  # Reset storage to start fresh
+        # For 3 requests/second rate limit, we need to make 4 requests quickly to trigger the limit
+        # Make first 3 requests - should all succeed without sleep (within rate limit)
+        with patch("asyncio.sleep") as mock_sleep_first:
+            for i in range(3):
+                await tool.search(f"test query {i+1}")
+            # First 3 requests should not sleep (within 3/second limit)
+            assert mock_sleep_first.call_count == 0
+        # Make 4th request immediately - should trigger rate limit
+        # For 3 requests/second, the 4th request should wait
+        with patch("asyncio.sleep") as mock_sleep:
+            await tool.search("test query 4")
+            # Rate limiter uses polling with 0.01s sleep, so sleep should be called
+            # multiple times until enough time has passed (at least once)
+            assert (
+                mock_sleep.call_count > 0
+            ), f"Rate limiter should call sleep when rate limit is hit. Call count: {mock_sleep.call_count}"
     @pytest.mark.asyncio
     async def test_api_key_included_in_params(self, mocker):

tests/unit/tools/test_rag_tool.py CHANGED Viewed

@@ -148,7 +148,7 @@ class TestRAGTool:
     @pytest.mark.asyncio
     async def test_search_lazy_initialization_success(self):
         """RAGTool should lazy-initialize RAG service when needed."""
-        with patch("src.tools.rag_tool.get_rag_service") as mock_get_service:
             mock_service = MagicMock()
             mock_service.retrieve.return_value = [
                 {
@@ -173,7 +173,7 @@ class TestRAGTool:
     @pytest.mark.asyncio
     async def test_search_lazy_initialization_failure(self):
         """RAGTool should return empty list if RAG service unavailable."""
-        with patch("src.tools.rag_tool.get_rag_service") as mock_get_service:
             mock_get_service.side_effect = ConfigurationError("OPENAI_API_KEY required")
             tool = RAGTool(rag_service=None)

     @pytest.mark.asyncio
     async def test_search_lazy_initialization_success(self):
         """RAGTool should lazy-initialize RAG service when needed."""
+        with patch("src.services.llamaindex_rag.get_rag_service") as mock_get_service:
             mock_service = MagicMock()
             mock_service.retrieve.return_value = [
                 {
     @pytest.mark.asyncio
     async def test_search_lazy_initialization_failure(self):
         """RAGTool should return empty list if RAG service unavailable."""
+        with patch("src.services.llamaindex_rag.get_rag_service") as mock_get_service:
             mock_get_service.side_effect = ConfigurationError("OPENAI_API_KEY required")
             tool = RAGTool(rag_service=None)