Uploading class examples

algorithmica-repository · algorithmica-repository · commit 2898f9087951 · 2015-08-17T05:20:31.000+05:30
diff --git a/16-neuralnet/titanic4-ann.R b/16-neuralnet/titanic4-ann.R
@@ -0,0 +1,172 @@
+library(caret)
+library(nnet)
+library(ggplot2)
+library(Amelia)
+library(Hmisc)
+library(NeuralNetTools)
+
+setwd("E:/data analytics/kaggle/titanic/data")
+
+readData = function(path.name, file.name, column.types, missing.types) {
+  read.csv(paste(path.name, file.name, sep="/"), header=TRUE, 
+            colClasses=column.types,
+            na.strings=missing.types )
+}
+
+changeNames = function(name) {
+  master_vector = grep("Master\\.",name)
+  miss_vector = grep("Miss\\.", name)
+  mrs_vector = grep("Mrs\\.", name)
+  mr_vector = grep("Mr\\.", name)
+  dr_vector = grep("Dr\\.", name)
+  ms_vector = grep("Ms\\.", name)
+  
+  for(i in master_vector) {
+    name[i] = "Master"
+  }
+  for(i in miss_vector) {
+    name[i] = "Miss"
+  }
+  for(i in mrs_vector) {
+    name[i] = "Mrs"
+  }
+  for(i in mr_vector) {
+    name[i] = "Mr"
+  }
+  for(i in dr_vector) {
+    name[i] = "Dr"
+  } 
+  for(i in ms_vector) {
+    name[i] = "Mrs"
+  }
+  return (name);
+}
+
+
+imputeMean = function(impute.var, filter.var, var.levels) {
+  for (v in var.levels) {
+    impute.var[ which( filter.var == v)] = 
+      impute(impute.var[which( filter.var == v)],mean)
+  }
+  return (impute.var)
+}
+
+imputeEmbarked = function(impute.var) {
+  impute.var[which(is.na(impute.var))] = 'S'
+  return (impute.var)
+}
+
+imputeFare = function(impute.var) {
+  impute.var = ifelse(is.na(impute.var), mean(impute.var, na.rm = TRUE), impute.var)
+  return (impute.var)
+}
+ 
+titanic.path = getwd()
+train.data.file = "train.csv"
+missing.types = c("NA", "")
+train.column.types = c('integer',   # PassengerId
+                        'factor',    # Survived 
+                        'factor',    # Pclass
+                        'character', # Name
+                        'factor',    # Sex
+                        'numeric',   # Age
+                        'integer',   # SibSp
+                        'integer',   # Parch
+                        'character', # Ticket
+                        'numeric',   # Fare
+                        'character', # Cabin
+                        'factor'     # Embarked
+)
+trainSet= readData(titanic.path, train.data.file, 
+                      train.column.types, missing.types)
+
+missmap(trainSet, main="Titanic Training Data - Missings Map", 
+        col=c("yellow", "black"), legend=FALSE)
+
+trainSet$Name = changeNames(trainSet$Name)
+names.na.train = c("Dr", "Master", "Mrs", "Miss", "Mr")
+trainSet$Age = imputeMean(trainSet$Age, trainSet$Name, names.na.train)
+trainSet$Embarked = imputeEmbarked(trainSet$Embarked)
+trainSet$Fare = imputeFare(trainSet$Fare)
+
+missmap(trainSet, main="Titanic Training Data - Missings Map", 
+        col=c("yellow", "black"), legend=FALSE)
+
+dim(trainSet)
+str(trainSet)
+head(trainSet)
+summary(trainSet)
+
+
+table(trainSet$Survived)
+ggplot(trainSet, aes(x = Survived)) + geom_bar()
+
+#Comparing Survived and passenger class using table and histograms
+summary(trainSet$Pclass)
+xtabs(~Survived + Pclass, data=trainSet)
+ggplot(trainSet, aes(x = Survived, fill = Pclass)) + geom_bar()
+
+#Comparing Survived and Sex using table and histograms
+summary(trainSet$Sex)
+xtabs(~Survived + Sex, data=trainSet)
+ggplot(trainSet, aes(x = Survived, fill = Sex)) + geom_bar()
+
+
+#Comparing Survived and Embarked using table and histograms
+summary(trainSet$Embarked)
+xtabs(~Survived + Embarked, data=trainSet)
+ggplot(trainSet, aes(x = Survived, fill = Embarked)) + geom_bar()
+
+# Comparing Age and Survived: The boxplots are very similar between Age
+# for survivors and those who died. 
+xtabs(~Survived + Age, data=trainSet)
+ggplot(trainSet, aes(x = Survived, y = Age)) + geom_boxplot() 
+summary(trainSet$Age)
+
+# Comparing Survived and Fare: The boxplots are much different between 
+# fare for survivors and those who died.
+ggplot(trainSet, aes(x = Survived, y = Fare)) + geom_boxplot() 
+# Also, there are no NA's. Include this variable.
+summary(trainSet$Fare)
+
+# Comparing Survived and Parch
+ggplot(trainSet, aes(x = Survived, y = Parch)) + geom_boxplot() 
+summary(trainSet$Parch)
+
+# Set a random seed 
+set.seed(42)
+
+#model tuning strategy
+ctrl = trainControl(method = "cv", # Use cross-validation
+                    number = 10) # Use 10 folds for cross-validation
+
+# Train the model using a "neural net" algorithm
+model_nn = train(Survived ~ Pclass + Sex + Age + Embarked + SibSp, 
+              data = trainSet, 
+              method = "nnet",
+              trControl = ctrl)
+model_nn
+
+plotnet(model_nn)
+
+
+test.data.file = "test.csv"
+test.column.types = train.column.types[-2]
+
+testSet = readData(titanic.path, test.data.file, 
+                     test.column.types, missing.types)
+dim(testSet)
+str(testSet)
+head(testSet)
+summary(testSet)
+
+testSet$Name = changeNames(testSet$Name)
+testSet$Age = imputeMean(testSet$Age, testSet$Name, 
+                             names.na.train)
+testSet$Embarked = imputeEmbarked(testSet$Embarked)
+
+testSet$Survived = predict(model_nn, newdata = testSet)
+
+submission = testSet[,c("PassengerId", "Survived")]
+
+write.table(submission, file = "submission.csv", col.names = TRUE, row.names = FALSE, sep = ",")
diff --git a/18-clustering-iterative/kmeans.R b/18-clustering-iterative/kmeans.R
@@ -0,0 +1,99 @@
+library(ggplot2)
+library(Amelia)
+library(stats)
+
+# Step-1: Load the data
+
+setwd("E:/data analytics/datasets/")
+teens = read.csv("snsdata.csv", header = TRUE, na.strings=c("NA",""))
+
+# Step-2: Explore the data
+str(teens)
+dim(teens)
+head(teens)
+
+# Step-3: Preprocess data/Feature Engineering
+
+#Do we have missing data?
+missmap(teens, main="Teen data from social network - Missings Map", 
+        col=c("yellow", "black"), legend=FALSE)
+
+
+#Analyze gender variable
+table(teens$gender, useNA = "ifany")
+
+#Handling missing data of gender variable
+teens$female = ifelse(teens$gender == "F" & !is.na(teens$gender), 1, 0)
+teens$no_gender = ifelse(is.na(teens$gender), 1, 0)
+table(teens$gender, useNA = "ifany")
+table(teens$female, useNA = "ifany")
+table(teens$no_gender, useNA = "ifany")
+
+missmap(teens, main="Teen data from social network - Missings Map", 
+        col=c("yellow", "black"), legend=FALSE)
+
+#Analyze age variable
+summary(teens$age)
+teens$age = ifelse(teens$age >= 13 & teens$age < 20,
+                    teens$age, NA)
+summary(teens$age)
+
+#Handle the missing values of age variable
+ave_age = ave(teens$age, teens$gradyear, FUN =
+                 function(x) mean(x, na.rm = TRUE))
+teens$age = ifelse(is.na(teens$age), ave_age, teens$age)
+summary(teens$age)
+
+# Taking subset of features
+interests = teens[5:40]
+
+# Normalizing the variables sothat distance calculation is not biased
+#interests_z = as.data.frame(lapply(interests, scale))
+interests_z = scale(interests)
+
+# Step-4: Build the model
+#The high-school-age characters in general:
+#a Brain, an Athlete, a Basket Case, a Princess, and a Criminal. 
+set.seed(120)
+teen_clusters = kmeans(interests_z, 5)
+
+# Step-5: Evaluating model performance
+str(teen_clusters)
+
+teen_clusters$size
+
+teen_clusters$centers
+
+teen_clusters$totss
+
+teen_clusters$withinss
+
+teen_clusters$tot.withinss
+
+teen_clusters$betweenss
+
+# Step-6: Validity of the model
+teens$cluster = teen_clusters$cluster
+
+teens[1:5, c("cluster", "gender", "age", "friends")]
+
+aggregate(data = teens, age ~ cluster, mean)
+
+aggregate(data = teens, female ~ cluster, mean)
+
+aggregate(data = teens, friends ~ cluster, mean)
+
+
+library(animation)
+
+cent <- 1.5 * c(1, 1, -1, -1, 1, -1, 1, -1)
+x <- NULL
+for (i in 1:8) x <- c(x, rnorm(25, mean=cent[i]))
+x <- matrix(x, ncol=2)
+colnames(x) <- c("X1", "X2")
+dim(x)
+
+head(x)
+
+par(mar=c(3, 3, 1, 1.5), mgp=c(1.5, 0.5, 0), bg="white")
+kmeans.ani(x, centers=3, pch=1:4, col=1:4)