Real-Time-Clickstream-Data-Pipeline-using-Kafka-Spark-Cassandra-

This project simulates and processes real-time clickstream data from an Amazon-like e-commerce website. Built as an end-to-end data engineering pipeline, it captures user interactions, processes them using Apache Spark, stores insights in Cassandra, and visualizes analytics in Tableau. The goal is to demonstrate scalable, real-time data processing ![Streaming Amazon Click Events with Kafka, Spark, and Cassandra - visual selection](https://github.com/user-attachments/assets/18569f8e-4465-4578-93b8-be5b8ff691ab

Steps To Implement :

install Hadoop,Spark,Kafka,Cassandra on your local machine
set the path in the environment variable (windows) and bashrc file (linux)
start hadoop,kafka,spark,cassandra via terminal
use docker for dependencies and version compatibility issues
write kafka producer and consumer code , kafka gets clickstream data from backend and spark will consume it for preprocessing
write the code for data transformation like(groupby etc) and submit it to spark application
for clickstream data use dataset or make a clone of website like amazon to get clickstream data using flask(backend)

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
README.md		README.md
app.py		app.py
cassandra.cqlsh		cassandra.cqlsh
spark_clickstream_processing.py		spark_clickstream_processing.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Real-Time-Clickstream-Data-Pipeline-using-Kafka-Spark-Cassandra-

About

Uh oh!

Releases

Packages

Languages

Kishorsenthilkumar/-Real-Time-Clickstream-Data-Pipeline-using-Kafka-Spark-Cassandra-

Folders and files

Latest commit

History

Repository files navigation

Real-Time-Clickstream-Data-Pipeline-using-Kafka-Spark-Cassandra-

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages