fixed bug with num of features

Tomasz Latkowski · Tomasz Latkowski · commit e5527293300d · 2018-02-04T16:30:54.000+01:00
diff --git a/methods/selection.py b/methods/selection.py
@@ -1,11 +1,7 @@
-import pandas as pd
 import tensorflow as tf
 
-data_file = '../data/autism.tsv'
-df = pd.read_csv(data_file, sep='\t', header=None, index_col=0).T
 
-
-def fisher(data, num_instances: list, top_k_features=10):
+def fisher(data, num_instances: list, top_k_features=2):
     """
     Performs Fisher feature selection method according to the following formula:
     D(f) = (m1(f) - m2(f) / (std1(f) - std2(f))
@@ -18,13 +14,15 @@ def fisher(data, num_instances: list, top_k_features=10):
     assert len(num_instances) == 2, "Fisher selection method can be performed for two-class problems."
     data = tf.convert_to_tensor(data)
     _, num_features = data.get_shape().as_list()
-    if top_k_features < num_features:
+    if top_k_features > num_features:
         top_k_features = num_features
     class1, class2 = tf.split(data, num_instances)
     mean1, std1 = tf.nn.moments(class1, axes=0)
     mean2, std2 = tf.nn.moments(class2, axes=0)
     fisher_coeffs = tf.abs(mean1 - mean2) / (std1 + std2)
-    return tf.nn.top_k(fisher_coeffs, k=top_k_features)
+    values, indices = tf.nn.top_k(fisher_coeffs, k=top_k_features)
+    most_sig_f = tf.gather(data, indices, axis=1)
+    return most_sig_f
 
 
 def feature_correlation_with_class(data, num_instances: list, top_k_features=10):
@@ -35,7 +33,7 @@ def feature_correlation_with_class(data, num_instances: list, top_k_features=10)
     """
     data = tf.convert_to_tensor(data)
     _, num_features = data.get_shape().as_list()
-    if top_k_features < num_features:
+    if top_k_features > num_features:
         top_k_features = num_features
     class1, class2 = tf.split(data, num_instances)
     mean1, std1 = tf.nn.moments(class1, axes=0)
@@ -53,20 +51,10 @@ def t_test(data, num_instances: list, top_k_features=10):
     """
     data = tf.convert_to_tensor(data)
     _, num_features = data.get_shape().as_list()
-    if top_k_features < num_features:
+    if top_k_features > num_features:
         top_k_features = num_features
     class1, class2 = tf.split(data, num_instances)
     mean1, std1 = tf.nn.moments(class1, axes=0)
     mean2, std2 = tf.nn.moments(class2, axes=0)
     t_test_coeffs = tf.abs(mean1 - mean2) / tf.sqrt(tf.square(std1)/num_instances[0] + tf.square(std2) / num_instances[1])
     return tf.nn.top_k(t_test_coeffs, k=top_k_features)
-
-with tf.Session() as session:
-    input_data = df.as_matrix()
-    instances_per_class = [82, 64]
-    fisher_coeffs = session.run(fisher(data=input_data, num_instances=instances_per_class, top_k_features=5))
-    corr_coeffs = session.run(feature_correlation_with_class(data=input_data, num_instances=instances_per_class, top_k_features=5))
-    t_test_coeff = session.run(t_test(data=input_data, num_instances=instances_per_class, top_k_features=5))
-    print(fisher_coeffs)
-    print(corr_coeffs)
-    print(t_test_coeff)
diff --git a/tests/test_fisher.py b/tests/test_fisher.py
@@ -15,9 +15,22 @@ def testFisherCorrectScore(self):
             num_instances = [2, 2]
             top_k = 2
             actual_most_significant_features = test_session.run(fisher(data, num_instances, top_k))
+            correct_most_significant_features = [3., .5]
 
-            correct_most_significant_features = tf.constant([3., .5])
-            self.assertAllEqual(actual_most_significant_features.values, correct_most_significant_features.eval())
+            self.assertAllEqual(actual_most_significant_features.values, correct_most_significant_features)
+
+    def testFisherPickFirstSignificantFeature(self):
+        with self.test_session() as test_session:
+            data = np.array([[2, 2],
+                             [4, 4],
+                             [3, 6],
+                             [5, 6]])
+            num_instances = [2, 2]
+            top_k = 1
+            actual_most_significant_features = test_session.run(fisher(data, num_instances, top_k))
+            correct_most_significant_features = [[2.], [4.], [6.], [6.]]
+
+            self.assertAllEqual(actual_most_significant_features, correct_most_significant_features)
 
     def testFisherCorrectOrderOfFeatures(self):
         raise NotImplementedError