Spaces:

nonzeroexit
/

AMP-Classifier

Sleeping

App Files Files Community

nonzeroexit commited on Mar 8

Commit

aa6838a

verified ·

1 Parent(s): a359627

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -19

app.py CHANGED Viewed

@@ -46,42 +46,41 @@ selected_features = [
 ]
 def extract_features(sequence):
     if len(sequence) < 3:  # Ensure sequence is long enough
         return None  # Return None if sequence is too short
     dipeptide_features = AAComposition.CalculateAADipeptideComposition(sequence)
-    auto_features = Autocorrelation.CalculateAutoTotal(sequence)
-    ctd_features = CTD.CalculateCTD(sequence)
-    try:
-        pseudo_features = PseudoAAC.GetAPseudoAAC(sequence)
-    except ZeroDivisionError:
-        pseudo_features = {}  # Ignore PseudoAAC features if they fail
-    all_features = {**auto_features, **ctd_features, **pseudo_features, **dipeptide_features}
-    # Ensure we only keep features that were used during scaler training
-    feature_names = list(all_features.keys())  # Extracted feature names
-    feature_values = np.array(list(all_features.values())).reshape(1, -1)  # Reshape for scaler
-    if feature_values.shape[1] != 145:  # Check expected feature count
-        print(f"Warning: Extracted {feature_values.shape[1]} features, expected 145. Skipping normalization.")
-        return None  # Skip this sequence
-    # Normalize the feature values
-    normalized_features = scaler.transform(feature_values)
     normalized_features = normalized_features.flatten()
-    selected_feature_dict = {feature_names[i]: normalized_features[i] for i in range(len(feature_names))}
     selected_feature_df = pd.DataFrame([selected_feature_dict])
     selected_feature_array = selected_feature_df.T.to_numpy()
     return selected_feature_array
 def predict(sequence):
     """Predicts whether the input sequence is an AMP."""
     features = extract_features(sequence)

 ]
 def extract_features(sequence):
+    """Extract selected features and normalize them."""
     if len(sequence) < 3:  # Ensure sequence is long enough
         return None  # Return None if sequence is too short
+    all_features_dict = {}
     dipeptide_features = AAComposition.CalculateAADipeptideComposition(sequence)
+    all_features_dict.update(dipeptide_features) # Use update instead of reassignment
+    auto_features = Autocorrelation.CalculateAutoTotal(sequence)
+    all_features_dict.update(auto_features) # Use update
+    ctd_features = CTD.CalculateCTD(sequence)
+    all_features_dict.update(ctd_features) # Use update
+    pseudo_features = PseudoAAC.GetAPseudoAAC(sequence)
+    all_features_dict.update(pseudo_features) # Use update
+    feature_values = list(all_features_dict.values()) # Use all_features_dict
+    feature_array = np.array(feature_values).reshape(-1, 1)
+    normalized_features = scaler.transform(feature_array.T)
     normalized_features = normalized_features.flatten()
+    selected_feature_dict = {}
+    for i, feature in enumerate(selected_features):
+        if feature in all_features_dict: # Use all_features_dict
+            selected_feature_dict[feature] = normalized_features[i]
     selected_feature_df = pd.DataFrame([selected_feature_dict])
     selected_feature_array = selected_feature_df.T.to_numpy()
     return selected_feature_array
 def predict(sequence):
     """Predicts whether the input sequence is an AMP."""
     features = extract_features(sequence)