FinanceComplaintClassification

Classify the complaints registered at https://www.consumerfinance.gov/ as malicious (the one which requires immediate attention) and non malicious

Strategies

Use pyspark
Download data from website in parts
Convert data files to parquet format since the data is huge.
Save model in S3 bucket in compressed format.

Transformation Strategies

Generate a new feature ['diff_in_days'].
Impute values in ['diff_in_days'] using mean.
Impute the missing values of ['company_response', 'consumer_consent_provided', 'submitted_via'] with most frequent items.
Transform ['company_response', 'consumer_consent_provided', 'submitted_via'] using string indexer.
Transform ['company_response', 'consumer_consent_provided', 'submitted_via'] using one hot encoder.
Tokenize ['issue']
Hash the tokenized words.
Create transformed issue column using IDF
Apply vector assembler on all transformed columns
Apply standard scalar to assembled column
Transformed file will contain only the Scaled and Assembled columns and target feature.

Tech Stack Used

Python
PySpark
PySpark ML
Airflow as Scheduler
MongoDB

Infrastructure Required.

GCP Compute Engine
S3 Bucket
Artifact Registry

Dashboarding

Grafana
Prometheus
Node Exporter
Promtail
Loki

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.circleci		.circleci
.vscode		.vscode
airflow/dags		airflow/dags
docker-compose-resource		docker-compose-resource
finance_complaint		finance_complaint
.dockerignore		.dockerignore
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
docker-compose.yaml		docker-compose.yaml
main.py		main.py
requirements.txt		requirements.txt
setup.py		setup.py
start.sh		start.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

FinanceComplaintClassification

Strategies

Transformation Strategies

Tech Stack Used

Infrastructure Required.

Dashboarding

About

Uh oh!

Releases

Packages

Languages

LijiAlex/FinanceComplaintClassification

Folders and files

Latest commit

History

Repository files navigation

FinanceComplaintClassification

Strategies

Transformation Strategies

Tech Stack Used

Infrastructure Required.

Dashboarding

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages