Spaces:

A-R-F
/

Agentic-Reliability-Framework-v4

Sleeping

App Files Files Community

petter2025 commited on Apr 1

Commit

a6671a5

verified ·

1 Parent(s): 29094c3

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -15

app.py CHANGED Viewed

@@ -16,7 +16,16 @@ import sys
 import functools
 from scipy.stats import beta
 import plotly.graph_objects as go
-from prometheus_client import Counter, Histogram, Gauge, generate_latest, CONTENT_TYPE_LATEST
 # ----------------------------------------------------------------------
 # Configuration from environment variables with validation
@@ -125,12 +134,18 @@ def vacuum_db():
         logger.error(f"Vacuum failed: {e}")
 # ----------------------------------------------------------------------
-# Prometheus metrics
 # ----------------------------------------------------------------------
-decisions_total = Counter('arf_decisions_total', 'Total decisions made', ['action'])
-risk_gauge = Gauge('arf_current_risk', 'Current risk score')
-decision_latency = Histogram('arf_decision_latency_seconds', 'Time to evaluate intent')
-mcmc_runs = Counter('arf_mcmc_runs_total', 'Total MCMC runs')
 # ----------------------------------------------------------------------
 # Thread‑safe history (in‑memory + DB backup)
@@ -152,8 +167,9 @@ def update_dashboard_data(decision: dict, risk: float):
             risk_history.pop(0)
     save_decision_to_db(decision, risk)
     # Update Prometheus metrics
-    decisions_total.labels(action=decision.get("risk_level", "unknown")).inc()
-    risk_gauge.set(risk)
 def refresh_history_from_db():
     """Load recent history from database (called at startup)."""
@@ -165,7 +181,8 @@ def refresh_history_from_db():
         for ts, dec, risk in decisions:
             decision_history.append((ts, dec, risk))
             risk_history.append((ts, risk))
-            risk_gauge.set(risk)  # update gauge with latest risk
 # ----------------------------------------------------------------------
 # Memory monitoring (daemon thread with graceful stop)
@@ -293,7 +310,8 @@ def handle_infra_with_governance(fault_type: str, context_window: int, session_s
             }
         }
         # Record latency metric
-        decision_latency.observe(time.time() - start_time)
         return output, session_state
     except Exception as e:
         logger.exception("Error in handle_infra_with_governance")
@@ -342,7 +360,8 @@ def run_hmc_mcmc(samples: int, warmup: int):
         # Input validation
         samples = max(500, min(10000, int(samples)))
         warmup = max(100, min(2000, int(warmup)))
-        mcmc_runs.inc()  # record metric
         # Generate data: 10 observations with mean 0.5, std 0.2
         np.random.seed(42)  # for reproducibility
@@ -387,7 +406,6 @@ def run_hmc_mcmc(samples: int, warmup: int):
 # ----------------------------------------------------------------------
 # Dashboard plots (thread‑safe with caching)
 # ----------------------------------------------------------------------
-# Simple TTL cache decorator
 class TTLCache:
     def __init__(self, ttl_seconds=5):
         self.ttl = ttl_seconds
@@ -673,9 +691,13 @@ with gr.Blocks(title=f"ARF v{VERSION} – Bayesian Risk Scoring Demo") as demo:
         outputs=[hmc_summary, hmc_trace_plot, hmc_pair_plot]
     )
-# Add Prometheus metrics endpoint
-demo.fastapi_app.add_api_route("/metrics", lambda: (generate_latest(), 200, {"Content-Type": CONTENT_TYPE_LATEST}), methods=["GET"])
 if __name__ == "__main__":
     demo.queue()
     demo.launch(theme="soft", server_name="0.0.0.0", server_port=7860)

 import functools
 from scipy.stats import beta
 import plotly.graph_objects as go
+# ----------------------------------------------------------------------
+# Prometheus metrics (optional)
+# ----------------------------------------------------------------------
+try:
+    from prometheus_client import Counter, Histogram, Gauge, generate_latest, CONTENT_TYPE_LATEST
+    PROMETHEUS_AVAILABLE = True
+except ImportError:
+    PROMETHEUS_AVAILABLE = False
+    logging.warning("prometheus-client not installed, metrics endpoint disabled")
 # ----------------------------------------------------------------------
 # Configuration from environment variables with validation
         logger.error(f"Vacuum failed: {e}")
 # ----------------------------------------------------------------------
+# Prometheus metrics (dummy if unavailable)
 # ----------------------------------------------------------------------
+if PROMETHEUS_AVAILABLE:
+    decisions_total = Counter('arf_decisions_total', 'Total decisions made', ['action'])
+    risk_gauge = Gauge('arf_current_risk', 'Current risk score')
+    decision_latency = Histogram('arf_decision_latency_seconds', 'Time to evaluate intent')
+    mcmc_runs = Counter('arf_mcmc_runs_total', 'Total MCMC runs')
+else:
+    decisions_total = None
+    risk_gauge = None
+    decision_latency = None
+    mcmc_runs = None
 # ----------------------------------------------------------------------
 # Thread‑safe history (in‑memory + DB backup)
             risk_history.pop(0)
     save_decision_to_db(decision, risk)
     # Update Prometheus metrics
+    if PROMETHEUS_AVAILABLE:
+        decisions_total.labels(action=decision.get("risk_level", "unknown")).inc()
+        risk_gauge.set(risk)
 def refresh_history_from_db():
     """Load recent history from database (called at startup)."""
         for ts, dec, risk in decisions:
             decision_history.append((ts, dec, risk))
             risk_history.append((ts, risk))
+            if PROMETHEUS_AVAILABLE:
+                risk_gauge.set(risk)  # update gauge with latest risk
 # ----------------------------------------------------------------------
 # Memory monitoring (daemon thread with graceful stop)
             }
         }
         # Record latency metric
+        if PROMETHEUS_AVAILABLE:
+            decision_latency.observe(time.time() - start_time)
         return output, session_state
     except Exception as e:
         logger.exception("Error in handle_infra_with_governance")
         # Input validation
         samples = max(500, min(10000, int(samples)))
         warmup = max(100, min(2000, int(warmup)))
+        if PROMETHEUS_AVAILABLE:
+            mcmc_runs.inc()  # record metric
         # Generate data: 10 observations with mean 0.5, std 0.2
         np.random.seed(42)  # for reproducibility
 # ----------------------------------------------------------------------
 # Dashboard plots (thread‑safe with caching)
 # ----------------------------------------------------------------------
 class TTLCache:
     def __init__(self, ttl_seconds=5):
         self.ttl = ttl_seconds
         outputs=[hmc_summary, hmc_trace_plot, hmc_pair_plot]
     )
+# ----------------------------------------------------------------------
+# Launch
+# ----------------------------------------------------------------------
 if __name__ == "__main__":
+    # Enable queue and add metrics route if available
     demo.queue()
+    if PROMETHEUS_AVAILABLE:
+        # Access the underlying FastAPI app after queueing
+        demo.app.add_api_route("/metrics", lambda: (generate_latest(), 200, {"Content-Type": CONTENT_TYPE_LATEST}), methods=["GET"])
     demo.launch(theme="soft", server_name="0.0.0.0", server_port=7860)