Merge pull request #9 from learningOrchestra/bug-fixes

riibeirogabriel · web-flow · commit ad904df9e18a · 2021-04-28T17:14:51.000-03:00
Bug fixes
diff --git a/Pipfile b/Pipfile
@@ -7,7 +7,6 @@ verify_ssl = true
 
 [packages]
 requests = "2.4.2"
-Pillow = "8.0.1"
 pymongo = "3.11.1"
 
 [requires]
diff --git a/README.md b/README.md
@@ -25,6 +25,6 @@ Each functionality in learningOrchestra is contained in its own class. Check the
 
 * [Here](examples/titanic.py) has an example using the [Titanic Dataset](https://www.kaggle.com/c/titanic/overview):
 * [Here](examples/sentiment_analysis.py) has an example using the [Sentiment Analysis On IMDb reviews](https://www.kaggle.com/avnika22/imdb-perform-sentiment-analysis-with-scikit-learn):
-* [Here](examples/mnist.py) has an example using the [MNIST Dataset](http://yann.lecun.com/exdb/mnist/):
+* [Here](examples/mnist_async.py) has an example using the [MNIST Dataset](http://yann.lecun.com/exdb/mnist/):
 
 
diff --git a/examples/mnist.py b/examples/mnist.py
@@ -247,8 +247,8 @@ def treat_dataset(dataset: dict) -> tuple:
 
 
 show_mnist_evaluate = '''
-    print(mnist_evaluated)
-    response = None
+print(mnist_evaluated)
+response = None
 '''
 function_python.run_function_async(
     name="mnist_model_evaluated_print",
diff --git a/examples/sentiment_analysis.py b/examples/sentiment_analysis.py
@@ -4,7 +4,7 @@
 from learning_orchestra_client.train.scikitlearn import TrainScikitLearn
 from learning_orchestra_client.predict.scikitlearn import PredictScikitLearn
 
-CLUSTER_IP = "http://34.68.100.96"
+CLUSTER_IP = "http://34.123.167.241"
 
 dataset_csv = DatasetCsv(CLUSTER_IP)
 
@@ -107,12 +107,12 @@ def tokenizer_porter(text):
     module_path="sklearn.linear_model",
     class_name="LogisticRegressionCV",
     class_parameters={
-        "cv": 6,
+        "cv": 5,
         "scoring": "accuracy",
         "random_state": 0,
         "n_jobs": -1,
         "verbose": 3,
-        "max_iter": 500
+        "max_iter": 100
     }
 
 )
diff --git a/examples/titanic.py b/examples/titanic.py
@@ -3,16 +3,16 @@
 from learning_orchestra_client.transform.data_type import TransformDataType
 from learning_orchestra_client.builder import BuilderSparkMl
 
-CLUSTER_IP = "http://34.66.75.31"
+CLUSTER_IP = "http://35.193.116.104"
 
 dataset_csv = DatasetCsv(CLUSTER_IP)
 
 dataset_csv.insert_dataset_async(
-    url="https://filebin.net/r4b6z6sganz2opsh/train.csv?t=9d3lp7jm",
+    url="https://filebin.net/boniydu54k710l54/train.csv?t=s350xryf",
     dataset_name="titanic_training",
 )
 dataset_csv.insert_dataset_async(
-    url="https://filebin.net/r0c41p538us5fcrz/test.csv?t=td68r02h",
+    url="https://filebin.net/udtf7eogfgasqnx5/test.csv?t=h79pcy0l",
     dataset_name="titanic_testing"
 )
 
@@ -41,7 +41,7 @@
 
 transform_projection.remove_dataset_attributes_async(
     dataset_name="titanic_training",
-    projection_name="titanic_training_projection4",
+    projection_name="titanic_training_projection",
     fields=required_columns)
 
 required_columns.remove("Survived")
@@ -174,8 +174,11 @@
 training_df = datasets_list[TRAINING_DF_INDEX]
 testing_df = datasets_list[TESTING_DF_INDEX]
 
+columns_without_label = training_df.columns.copy()
+columns_without_label.remove("label")
+
 assembler = VectorAssembler(
-    inputCols=training_df.columns[:],
+    inputCols=columns_without_label,
     outputCol="features")
 assembler.setHandleInvalid('skip')
 
@@ -192,7 +195,12 @@
     modeling_code=modeling_code,
     model_classifiers=["LR", "DT", "GB", "RF", "NB"])
 
-for prediction in result["result"]:
-    builder.wait(dataset_name=prediction)
+PREDICTION_NAME_INDEX_IN_URL = 6
+INDEX_TO_REMOVE_URI_PARAMETERS = 0
+for prediction_url in result["result"]:
+    prediction_name = prediction_url. \
+        split("/")[PREDICTION_NAME_INDEX_IN_URL]. \
+        split("?")[INDEX_TO_REMOVE_URI_PARAMETERS]
+    builder.wait(dataset_name=prediction_name)
     print(builder.search_builder_register_predictions(
-        builder_name=prediction, limit=1, pretty_response=True))
+        builder_name=prediction_name, limit=1, pretty_response=True))