Titanic Survival Prediction – Machine Learning Classification Case Study

🚢 Titanic Survival Prediction – Classification Case Study

Apply classification algorithms to predict whether a passenger survived the Titanic disaster using real Kaggle dataset features like Age, Gender, Fare, and Passenger Class.

You’ll Learn

Data preprocessing with missing values
Feature engineering (sex, class encoding)
Training Logistic Regression classifier
Evaluating with confusion matrix & accuracy

Best For

Beginner classification practice
Kaggle competition experience
Exploring imbalanced datasets

📂 Dataset Overview

Titanic dataset contains details for 891 passengers. Key columns include:

Survived – target (0 = No, 1 = Yes)
Pclass – passenger class (1, 2, 3)
Sex – male/female
Age – in years
Fare – ticket price

Python Implementation – Logistic Regression

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Load data
df = pd.read_csv("titanic.csv")

# Handle missing values
df['Age'].fillna(df['Age'].median(), inplace=True)

# Encode categorical variables
df['Sex'] = df['Sex'].map({'male':0, 'female':1})

# Select features
X = df[['Pclass', 'Sex', 'Age', 'Fare']]
y = df['Survived']

# Split dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Train model
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# Predict & evaluate
y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))

💡 Tips for Improvement

Try Decision Trees or Random Forest for better accuracy
Use feature scaling for numeric values
Experiment with interaction terms (e.g., Age × Pclass)

📝 Self-Check

Why is it important to handle missing Age values?
What encoding method was used for Sex?
How can model performance be improved?

Next: Module 7 – Decision Trees & Random Forest

Machine Learning with Python: From Basics to Capstone

Curriculum