Henry65
/

RepoSim4Py

Feature Extraction

code-understanding

text-embeddings-inference

Model card Files Files and versions

Henry65 commited on Jul 24, 2023

Commit

e42969a

·

1 Parent(s): d148ccd

Update RepoPipeline.py

Files changed (1) hide show

RepoPipeline.py +3 -3

RepoPipeline.py CHANGED Viewed

@@ -113,7 +113,7 @@ def extract_information(repos, headers=None):
         with tarfile.open(fileobj=response.raw, mode="r|gz") as tar:
             for member in tar:
                 # 2. Extracting codes and docs.
-                if (member.name.endswith(".py") and member.isfile()) is True:
                     try:
                         file_content = tar.extractfile(member).read().decode("utf-8")
                         # extract_code_and_docs
@@ -127,7 +127,7 @@ def extract_information(repos, headers=None):
                     except SyntaxError as e:
                         tqdm.write(f"[-] SyntaxError in {member.name}, skipping: \n{e}")
                 # 3. Extracting readme.
-                elif ((member.name == "README.md" or member.name == "README.rst") and member.isfile()) is True:
                     try:
                         file_content = tar.extractfile(member).read().decode("utf-8")
                         # extract readme
@@ -141,7 +141,7 @@ def extract_information(repos, headers=None):
                     except SyntaxError as e:
                         tqdm.write(f"[-] SyntaxError in {member.name}, skipping: \n{e}")
                 # 4. Extracting requirements.
-                elif (member.name == "requirements.txt" and member.isfile()) is True:
                     try:
                         lines = tar.extractfile(member).readlines().decode("utf-8")
                         # extract readme

         with tarfile.open(fileobj=response.raw, mode="r|gz") as tar:
             for member in tar:
                 # 2. Extracting codes and docs.
+                if member.name.endswith(".py") and member.isfile():
                     try:
                         file_content = tar.extractfile(member).read().decode("utf-8")
                         # extract_code_and_docs
                     except SyntaxError as e:
                         tqdm.write(f"[-] SyntaxError in {member.name}, skipping: \n{e}")
                 # 3. Extracting readme.
+                elif (member.name == "README.md" or member.name == "README.rst") and member.isfile():
                     try:
                         file_content = tar.extractfile(member).read().decode("utf-8")
                         # extract readme
                     except SyntaxError as e:
                         tqdm.write(f"[-] SyntaxError in {member.name}, skipping: \n{e}")
                 # 4. Extracting requirements.
+                elif member.name == "requirements.txt" and member.isfile():
                     try:
                         lines = tar.extractfile(member).readlines().decode("utf-8")
                         # extract readme