Spaces:

Kalp97
/

KalpTranscript

Sleeping

App Files Files Community

Kalp97 commited on Mar 21

Commit

0c04064

verified ·

1 Parent(s): 47da534

Upload app.py

Browse files

Files changed (1) hide show

app.py +37 -4

app.py CHANGED Viewed

@@ -14,6 +14,26 @@ def format_time(seconds):
     ms = int((seconds % 1) * 10)
     return f"{m:02d}:{s:02d}.{ms}"
 def transcribe(file, model_name, language, show_timestamps, translate):
     if file is None:
         return "Please upload a video or audio file.", ""
@@ -29,17 +49,30 @@ def transcribe(file, model_name, language, show_timestamps, translate):
         else:
             lang = language.lower()
         whisper_task = "translate" if translate == "Translate to English" else "transcribe"
-        result = m.transcribe(file.name, language=lang, verbose=False, task=whisper_task)
         plain = result["text"].strip()
-        # Hinglish: transliterate Devanagari → Roman script
         if hinglish_mode:
             try:
                 from indic_transliteration import sanscript
                 from indic_transliteration.transliterate import transliterate
                 plain = transliterate(plain, sanscript.DEVANAGARI, sanscript.ITRANS)
             except Exception:
-                pass  # fallback: return Devanagari if transliteration fails
         if show_timestamps:
             lines = []
             for seg in result["segments"]:
@@ -52,7 +85,7 @@ def transcribe(file, model_name, language, show_timestamps, translate):
                         from indic_transliteration.transliterate import transliterate
                         seg_text = transliterate(seg_text, sanscript.DEVANAGARI, sanscript.ITRANS)
                     except Exception:
-                        pass
                 lines.append(f"[{start} → {end}]  {seg_text}")
             return "\n".join(lines), plain
         return plain, plain

     ms = int((seconds % 1) * 10)
     return f"{m:02d}:{s:02d}.{ms}"
+# Simple Devanagari to Roman fallback map
+DEVA_MAP = {
+    'अ':'a','आ':'aa','इ':'i','ई':'ii','उ':'u','ऊ':'uu','ए':'e','ऐ':'ai',
+    'ओ':'o','औ':'au','क':'k','ख':'kh','ग':'g','घ':'gh','च':'ch','छ':'chh',
+    'ज':'j','झ':'jh','ट':'t','ड':'d','त':'t','थ':'th','द':'d','ध':'dh',
+    'न':'n','प':'p','फ':'ph','ब':'b','भ':'bh','म':'m','य':'y','र':'r',
+    'ल':'l','व':'v','श':'sh','ष':'sh','स':'s','ह':'h','ं':'n','ः':'h',
+    'ा':'a','ि':'i','ी':'i','ु':'u','ू':'u','े':'e','ै':'ai','ो':'o',
+    'ौ':'au','्':'','ळ':'l','क्ष':'ksh','ज्ञ':'gya','ड़':'r','ढ़':'rh',
+    'ऑ':'o','ऍ':'e','ॉ':'o','।':'.','॥':'.','ऋ':'ri','ॠ':'ri',
+    'ग़':'g','ज़':'z','फ़':'f','ड़':'r','ढ़':'rh','ञ':'n','ण':'n','ङ':'n',
+}
+def devanagari_to_roman(text):
+    result = []
+    for ch in text:
+        result.append(DEVA_MAP.get(ch, ch))
+    return ''.join(result)
 def transcribe(file, model_name, language, show_timestamps, translate):
     if file is None:
         return "Please upload a video or audio file.", ""
         else:
             lang = language.lower()
         whisper_task = "translate" if translate == "Translate to English" else "transcribe"
+        # Hinglish: nudge toward Roman script via initial_prompt
+        initial_prompt = None
+        if hinglish_mode:
+            initial_prompt = (
+                "Yeh ek Hinglish conversation hai. "
+                "Transcribe using Roman script only. "
+                "Hindi words phonetically in English letters. "
+                "Example: main aaj market gaya tha, it was really crowded yaar."
+            )
+        result = m.transcribe(
+            file.name, language=lang, task=whisper_task,
+            verbose=False, initial_prompt=initial_prompt
+        )
         plain = result["text"].strip()
+        # Hinglish: if any Devanagari slipped through, transliterate it
         if hinglish_mode:
             try:
                 from indic_transliteration import sanscript
                 from indic_transliteration.transliterate import transliterate
                 plain = transliterate(plain, sanscript.DEVANAGARI, sanscript.ITRANS)
             except Exception:
+                # Fallback: simple character-level Devanagari → Roman map
+                plain = devanagari_to_roman(plain)
         if show_timestamps:
             lines = []
             for seg in result["segments"]:
                         from indic_transliteration.transliterate import transliterate
                         seg_text = transliterate(seg_text, sanscript.DEVANAGARI, sanscript.ITRANS)
                     except Exception:
+                        seg_text = devanagari_to_roman(seg_text)
                 lines.append(f"[{start} → {end}]  {seg_text}")
             return "\n".join(lines), plain
         return plain, plain