Spaces:

LofiAmazon
/

LofiAmazonSpace

Sleeping

App Files Files Community

jennzhuge commited on Jun 1, 2024

Commit

6d06448

1 Parent(s): 3f8dd98

skeleton code

Browse files

Files changed (3) hide show

app.py +42 -36
requirements.txt +8 -0
xgboost_infer.py +66 -0

app.py CHANGED Viewed

@@ -2,55 +2,56 @@ import os
 import pandas as pd
 import matplotlib.pyplot as plt
 import gradio as gr
-import numpy as mp
-def predict_genus_dna(dnaSeqs):
-    genuses = []
-    probs = dnamodel.predict_proba(dnaSeqs)
-    preds = dnamodel.predict(dnaSeqs)
-    top5prob = np.argsort(probs, axis=1)[:,-n:]
-    top5class = dnamodel.classes_[top5prob]
-    pred_df = pd.DataFrame(data=[top5class, top5prob], columns= ['Genus', 'Probability'])
-    return genuses
-def predict_genus_dna_env(dnaSeqsEnv):
-    genuses = {}
-    probs = model.predict_proba(dnaSeqsEnv)
-    preds = model.predict(dnaSeqsEnv)
-    for i in range(len(dnaSeqsEnv)):
-        top5prob = np.argsort(probs[i], axis=1)[:,-5:]
-        top5class = model.classes_[top5prob]
-        sampleStr = dnaSeqsEnv['nucraw'][i]
-        genuses[sampleStr] = (top5class, top5prob)
     # pred_df = pd.DataFrame(data=[top5class, top5prob], columns= ['Genus', 'Probability'])
-    return genuses
 # def get_genus_image(genus):
 #     # return a URL to genus image
 #     return f"https://example.com/images/{genus}.jpg"
 def get_genuses(dna_file, dnaenv_file):
-    dna_df = pd.read_csv(dna_file.name)
-    dnaenv_df = pd.read_csv(dnaenv_file.name)
     results = []
-    envdna_genuses = predict_genus_dna_env(dnaenv_df)
-    dna_genuses = predict_genus_dna(dna_df)
     # images = [get_genus_image(genus) for genus in top_5_genuses]
     results.append({
-        "sequence": dna_sequence,
-        "Predictions": envdna_genuses + dna_genuses,
-        # "images": images
     })
     return results
@@ -58,14 +59,19 @@ def get_genuses(dna_file, dnaenv_file):
 def display_results(results):
     display = []
     for result in results:
-        for i in range(len(result["predictions"])):
-            display.append({
-                "DNA Sequence": result["sequence"],
-                "Predicted Genus": result['predictions'][i][0],
-                "Predicted Genus": result['predictions'][i][0],
-                "Predicted Genus": result['predictions'][i][0],
-                # "Image": result["images"][i]
-            })
     return pd.DataFrame(display)
 def gradio_interface(file):
@@ -76,7 +82,7 @@ def gradio_interface(file):
 with gr.Blocks() as demo:
     with gr.Column():
         gr.Markdown("# Top 5 Most Likely Genus Predictions")
-        file_input = gr.File(label="Upload CSV file", file_types=['csv'])
         output_table = gr.Dataframe(headers=["DNA", "Coord", "DNA Only Pred Genus", "DNA Only Prob", "DNA & Env Pred Genus", "DNA & Env Prob"])
         def update_output(file):

 import pandas as pd
 import matplotlib.pyplot as plt
 import gradio as gr
+import numpy as np
+import xgboost_infer
+# def predict_genus_dna(dnaSeqs):
+#     genuses = []
+#     # probs = dnamodel.predict_proba(dnaSeqs)
+#     # preds = dnamodel.predict(dnaSeqs)
+#     # topProb = np.argsort(probs, axis=1)[:,-3:]
+#     # topClass = dnamodel.classes_[topProb]
+#     # pred_df = pd.DataFrame(data=[topClass, topProb], columns= ['Genus', 'Probability'])
+#     return genuses
+# def predict_genus_dna_env(dnaSeqsEnv):
+#     genuses = {}
+#     probs = model.predict_proba(dnaSeqsEnv)
+#     preds = model.predict(dnaSeqsEnv)
+#     for i in range(len(dnaSeqsEnv)):
+#         topProb = np.argsort(probs[i], axis=1)[:,-3:]
+#         topClass = model.classes_[topProb]
+#         sampleStr = dnaSeqsEnv['nucraw'][i]
+#         genuses[sampleStr] = (topClass, topProb)
     # pred_df = pd.DataFrame(data=[top5class, top5prob], columns= ['Genus', 'Probability'])
+    # return genuses
 # def get_genus_image(genus):
 #     # return a URL to genus image
 #     return f"https://example.com/images/{genus}.jpg"
 def get_genuses(dna_file, dnaenv_file):
+    # dna_df = pd.read_csv(dna_file.name)
+    # dnaenv_df = pd.read_csv(dnaenv_file.name)
     results = []
+    # envdna_genuses = predict_genus_dna_env(dnaenv_df)
+    # dna_genuses = predict_genus_dna(dna_df)
     # images = [get_genus_image(genus) for genus in top_5_genuses]
+    genuses = xgboost_infer.infer()
     results.append({
+        "sequence": dna_df['nucraw']
+        "predictions": pd.concat([dna_genuses, envdna_genuses], axis=0)
     })
     return results
 def display_results(results):
     display = []
     for result in results:
+        # for i in range(len(result["predictions"])):
+        #     display.append({
+        #         "DNA Sequence": result["sequence"],
+        #         "DNA Pred Genus": result['predictions'][i][0],
+        #         "DNA Only Prob": result['predictions'][i][1],
+        #         "DNA Env Pred Genus": result['predictions'][i][2],
+        #         "DNA Env Prob": result['predictions'][i][3],
+        #         # "Image": result["images"][i]
+        #     })
+        display.append({
+            "DNA Sequence": result["sequence"],
+            "DNA Pred Genus": result['predictions'][0]
+        })
     return pd.DataFrame(display)
 def gradio_interface(file):
 with gr.Blocks() as demo:
     with gr.Column():
         gr.Markdown("# Top 5 Most Likely Genus Predictions")
+        file_input = gr.File(label="Upload DNA CSV file", file_types=['csv'])
         output_table = gr.Dataframe(headers=["DNA", "Coord", "DNA Only Pred Genus", "DNA Only Prob", "DNA & Env Pred Genus", "DNA & Env Prob"])
         def update_output(file):

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+huggingface-hub==0.23.2
+pandas==2.2.2
+torch==2.3.0
+tqdm==4.66.4
+transformers==4.41.2
+faiss
+gradio
+datasets

xgboost_infer.py ADDED Viewed

	@@ -0,0 +1,66 @@

+#PSUEDOCODE UNTIL WE GET DATA
+import pandas as pd
+import numpy as np
+from sklearn.metrics import accuracy_score
+from sklearn.preprocessing import LabelEncoder
+from datasets import load_dataset
+import pickle
+def infer_dna(args):
+    ecoDf = pd.read_csv(args['input_path'], sep='\t')
+    dnaEmbeds = load_dataset("LofiAmazon/BOLD-Embeddings", split='train')
+    modelDNA = load_checkpoint()
+    modelDNAEnv = load_checkpoint()
+    ecoDF = ecoDf[ecoDf['marker_code' == 'COI-5P']]
+    ecoDf = ecoDf[['processid','nucraw','coord','country','depth',
+       'WorldClim2_BIO_Temperature_Seasonality',
+       'WorldClim2_BIO_Precipitation_Seasonality','WorldClim2_BIO_Annual_Precipitation', 'EarthEnvTopoMed_Elevation',
+       'EsaWorldCover_TreeCover', 'CHELSA_exBIO_GrowingSeasonLength',
+       'WCS_Human_Footprint_2009', 'GHS_Population_Density',
+       'CHELSA_BIO_Annual_Mean_Temperature']]
+    # grab DNA embeddings and merge them onto ecoDf by processid
+    X_eco = pd.merge(ecoDf, dnaEmbeds, on='processid', how='left')
+    # split data into X and y
+    # X = df.drop(columns=['genus'])
+    Y_eco = ecoDf['genus']
+    # do inference with the model trained on DNA and Env data
+    y_eco_probs = modelDNA.predict_proba(X_eco)
+    # topProb = np.argsort(y_probs, axis=1)[:,-3:]
+    # topClass = dnamodel.classes_[topProb]
+    DNAGenuses = {}
+    for i in range(len(X_eco)):
+        topProbs = np.argsort(y_probs[i], axis=1)[:,-3:]
+        topClasses = modelDNA.classes_[topProbs]
+        sampleStr = X_eco['nucraw'][i]
+        DNAGenuses[sampleStr] = (topClasses, topProbs)
+    X_dna = dnaEmbeds.drop(columns='genus')
+    Y_dna = dnaEmbeds['genus']
+    # do inferences with the model only trained on DNA
+    y_dna_probs = modelDNAEnv.predict_proba(X_dna)
+    DNAEnvGenuses = {}
+    for i in range(len()):
+        topProbs = np.argsort(y_dna_probs[i], axis=1)[:,-3:]
+        topClasses = modelDNA.classes_[topProbs]
+        sampleStr = X_eco['nucraw'][i]
+        DNAGenuses[sampleStr] = (topClasses, topProbs)
+    return DNAGenuses, DNAEnvGenuses
+# if __name__ == '__main__':
+#     parser = argparse.ArgumentParser()
+#     parser.add_argument('--input_path', action='store', type=str)
+#     # parser.add_argument('--checkpt', action='store', type=bool, default=False)
+#     args = vars(parser.parse_args())