Spaces:

OrganizedProgrammers
/

Docxtract

Paused

heymenn commited on Feb 2

Commit

69a660e

verified ·

1 Parent(s): d8b43e2

fix pandas read file bypassing error 403

Files changed (1) hide show

api/docs.py CHANGED Viewed

@@ -23,6 +23,8 @@ from dependencies import get_http_client, get_llm_router
 from fastapi.responses import StreamingResponse
 from litellm.router import Router
 from kreuzberg import ExtractionConfig, extract_bytes
 from schemas import DocInfo, GetMeetingDocsRequest, GetMeetingDocsResponse, DocRequirements, DownloadDocsRequest, GetMeetingsRequest, GetMeetingsResponse, ExtractRequirementsRequest, ExtractRequirementsResponse
@@ -449,8 +451,15 @@ async def get_meeting_docs(req: GetMeetingDocsRequest, http_client: AsyncClient
         file_url = f"{url}/{files[0]}"
         file_url = quote(file_url, safe=":/")
-        print(file_url)
-        df = pd.read_excel(file_url)
         filtered_df = df[~(
             df["Uploaded"].isna())][["TDoc", "Title", "CR category", "For", "Source", "Type", "Agenda item", "Agenda item description", "TDoc Status"]]
         filtered_df["URL"] = filtered_df["TDoc"].apply(

 from fastapi.responses import StreamingResponse
 from litellm.router import Router
 from kreuzberg import ExtractionConfig, extract_bytes
+import requests
+from io import BytesIO
 from schemas import DocInfo, GetMeetingDocsRequest, GetMeetingDocsResponse, DocRequirements, DownloadDocsRequest, GetMeetingsRequest, GetMeetingsResponse, ExtractRequirementsRequest, ExtractRequirementsResponse
         file_url = f"{url}/{files[0]}"
         file_url = quote(file_url, safe=":/")
+        headers = {
+            "User-Agent": "Mozilla/5.0"
+        }
+        resp = requests.get(file_url, headers=headers)
+        resp.raise_for_status()
+        df = pd.read_excel(BytesIO(resp.content))
         filtered_df = df[~(
             df["Uploaded"].isna())][["TDoc", "Title", "CR category", "For", "Source", "Type", "Agenda item", "Agenda item description", "TDoc Status"]]
         filtered_df["URL"] = filtered_df["TDoc"].apply(