Merge pull request #30 from yhr91/CRISPROutcome

kexinhuang12345 · web-flow · commit 322bddc88acf · 2020-12-30T09:59:24.000-08:00
Added CRISPR DNA repair outcomes dataset
diff --git a/tdc/label_name_list.py b/tdc/label_name_list.py
@@ -272,9 +272,13 @@
 drugcomb_targets = ['CSS', 'Synergy_ZIP', 'Synergy_Bliss',
                     'Synergy_Loewe','Synergy_HSA']
 
+leenay_targets = ['Fraction_Insertions', 'Avg_Insertion_Length', 'Avg_Deletion_Length',
+       'Indel_Diversity', 'Fraction_Frameshifts']
+
 dataset2target_lists = {'qm7b': QM7_targets,
                             'qm8': QM8_targets,
                             'qm9': QM9_targets,
                             'tap': TAP_targets,
                             'toxcast': ToxCast_targets,
-                            'tox21': Tox21_targets}
+                            'tox21': Tox21_targets,
+                            'leenay': leenay_targets}
diff --git a/tdc/metadata.py b/tdc/metadata.py
@@ -64,6 +64,8 @@
 
 gda_dataset_names = ['disgenet']
 
+crisproutcome_dataset_names = ['leenay']
+
 drugres_dataset_names = ['gdsc1', 'gdsc2']
 
 drugsyn_dataset_names = ['oncopolypharmacology', 'drugcomb_nci60']
@@ -222,7 +224,8 @@
 									"Develop",
 									"QM",
 									"Paratope",
-									"Yields"],
+									"Yields",
+									"CRISPROutcome"],
 				'multi_pred': ["DTI",
 								"PPI",
 								"DDI",
@@ -270,7 +273,8 @@ def get_task2category():
 				"Yields": yield_dataset_names, 
 				"Catalyst": catalyst_dataset_names, 
 				"CompoundLibrary": compound_library_names,
-				"BioKG": biokg_library_names
+				"BioKG": biokg_library_names,
+				"CRISPROutcome": crisproutcome_dataset_names
 				}
 
 benchmark_names = {"admet_group": admet_benchmark}
@@ -359,8 +363,8 @@ def get_task2category():
  'clearance_hepatocyte_az': 'tab',
  'half_life_obach': 'tab',
  'ld50_zhu': 'tab',
- 'vdss_lombardo': 'tab'
- }
+ 'vdss_lombardo': 'tab',
+ 'leenay':'tab'}
 
 name2id = {'bbb_adenot': 4259565,
  'bbb_martins': 4259566,
@@ -439,8 +443,8 @@ def get_task2category():
  'clearance_hepatocyte_az': 4266187,
  'ld50_zhu': 4267146,
  'half_life_obach': 4266799,
- 'vdss_lombardo': 4267387
- }
+ 'vdss_lombardo': 4267387,
+ 'leenay':4279966 }
 
 oracle2type = {'drd2': 'pkl', 
 			   'jnk3': 'pkl', 
diff --git a/tdc/single_pred/dataloader.py b/tdc/single_pred/dataloader.py
@@ -219,3 +219,29 @@ def __init__(self, name, path='./data', label_name=None, print_stats=False):
         if print_stats:
             self.print_stats()
         print('Done!', flush = True, file = sys.stderr)
+
+class CRISPROutcome(single_pred_dataset.DataLoader):
+    """DNA repair outcomes following a CRISPR experiment.
+
+    Parameters
+    ----------
+    name : str
+        Description of the variable.
+
+    path : str, optional (default="data")
+        Description of the variable.
+
+    label_name : str, optional (default=None)
+        Description of the variable.
+
+    print_stats : bool, optional (default=True)
+        Description of the variable.
+    """
+
+    def __init__(self, name, path='./data', label_name=None, print_stats=False):
+        super().__init__(name, path, label_name, print_stats,
+                         dataset_names=dataset_names["CRISPROutcome"])
+        self.entity1_name = 'GuideSeq'
+        if print_stats:
+            self.print_stats()
+        print('Done!', flush = True, file = sys.stderr)