fixed example

pottekkat · pottekkat · commit 436e9f854084 · 2020-10-03T19:12:41.000+05:30
diff --git a/README.md b/README.md
@@ -70,129 +70,7 @@ print(projection.create("titanic_testing",
 data_type_handler = DataTypeHandler()
 type_fields = {
     "Age": "number",
-    "Pclass": "number",
-    "SibSp": "number"
-}
-
-print(data_type_handler.change_file_type(
-    "titanic_testing_projection",
-    type_fields))
-
-type_fields["Survived"] = "number"
-
-print(data_type_handler.change_file_type(
-    "titanic_training_projection",
-    type_fields))
-
-
-preprocessing_code = '''
-from pyspark.ml import Pipeline
-from pyspark.sql.functions import (
-    mean, col, split,
-    regexp_extract, when, lit)
-
-from pyspark.ml.feature import (
-    VectorAssembler,
-    StringIndexer
-)
-
-TRAINING_DF_INDEX = 0
-TESTING_DF_INDEX = 1
-
-training_df = training_df.withColumnRenamed('Survived', 'label')
-testing_df = testing_df.withColumn('label', lit(0))
-datasets_list = [training_df, testing_df]
-
-for index, dataset in enumerate(datasets_list):
-    dataset = dataset.withColumn(
-        "Initial",
-        regexp_extract(col("Name"), "([A-Za-z]+)\.", 1))
-    datasets_list[index] = dataset
-
-misspelled_initials = [
-    'Mlle', 'Mme', 'Ms', 'Dr',
-    'Major', 'Lady', 'Countess',
-    'Jonkheer', 'Col', 'Rev',
-    'Capt', 'Sir', 'Don'
-]
-correct_initials = [
-    'Miss', 'Miss', 'Miss', 'Mr',
-    'Mr', 'Mrs', 'Mrs',
-    'Other', 'Other', 'Other',
-    'Mr', 'Mr', 'Mr'
-]
-for index, dataset in enumerate(datasets_list):
-    dataset = dataset.replace(misspelled_initials, correct_initials)
-    datasets_list[index] = dataset
-
-
-initials_age = {"Miss": 22,
-                "Other": 46,
-                "Master": 5,
-                "Mr": 33,
-                "Mrs": 36}
-for index, dataset in enumerate(datasets_list):
-    for initial, initial_age in initials_age.items():
-        dataset = dataset.withColumn(
-            "Age",
-            when((dataset["Initial"] == initial) &
-                 (dataset["Age"].isNull()), initial_age).otherwise(
-                    dataset["Age"]))
-        datasets_list[index] = dataset
-
-
-for index, dataset in enumerate(datasets_list):
-    dataset = dataset.na.fill({"Embarked": 'S'})
-    datasets_list[index] = dataset
-
-
-for index, dataset in enumerate(datasets_list):
-    dataset = dataset.withColumn("Family_Size", col('SibSp')+col('Parch'))
-    dataset = dataset.withColumn('Alone', lit(0))
-    dataset = dataset.withColumn(
-        "Alone",
-        when(dataset["Family_Size"] == 0, 1).otherwise(dataset["Alone"]))
-    datasets_list[index] = dataset
-
-
-text_fields = ["Sex", "Embarked", "Initial"]
-for column in text_fields:
-    for index, dataset in enumerate(datasets_list):
-        dataset = StringIndexer(
-            inputCol=column, outputCol=column+"_index").\
-                fit(dataset).\
-                transform(dataset)
-        datasets_list[index] = dataset
-
-
-non_required_columns = ["Name", "Embarked", "Sex", "Initial"]
-for index, dataset in enumerate(datasets_list):
-    dataset = dataset.drop(*non_required_columns)
-    datasets_list[index] = dataset
-
-
-training_df = datasets_list[TRAINING_DF_INDEX]
-testing_df = datasets_list[TESTING_DF_INDEX]
-
-assembler = VectorAssembler(
-    inputCols=training_df.columns[:],
-    outputCol="features")
-assembler.setHandleInvalid('skip')
-
-features_training = assembler.transform(training_df)
-(features_training, features_evaluation) =\
-    features_training.randomSplit([0.8, 0.2], seed=33)
-features_testing = assembler.transform(testing_df)
-'''
-
-model_builder = Model()
-
-print(model_builder.create_model(
-    "titanic_training_projection",
-    "titanic_testing_projection",
-    preprocessing_code,
-    ["lr", "dt", "gb", "rf", "nb"]))
-```  "Fare": "number",
+    "Fare": "number",
     "Parch": "number",
     "PassengerId": "number",
     "Pclass": "number",
@@ -318,7 +196,7 @@ print(model_builder.create_model(
     preprocessing_code,
     ["lr", "dt", "gb", "rf", "nb"]))
 ```
-
+# Function APIs
 
 ## DatabaseApi