Aplikasi ini merupakan sistem klasifikasi berita berbasis web yang mampu memprediksi kategori berita menggunakan dua pendekatan:
- Model Machine Learning klasik (Multinomial Naive Bayes + TF-IDF)
- Large Language Model (LLM) Gemini dari Google
- Input teks berita dari user
- Deteksi dan terjemahan otomatis jika teks menggunakan Bahasa Indonesia
- Preprocessing teks (cleaning, stopwords, stemming, dll)
- Klasifikasi berita ke dalam 5 kategori:
- BUSINESS
- EDUCATION
- ENTERTAINMENT
- SPORTS
- TECHNOLOGY
- Dua mode klasifikasi:
- TF-IDF + Naive Bayes
- Gemini LLM untuk klasifikasi generatif
- Python
- Flask
- Scikit-learn
- NLTK (Natural Language Toolkit)
- Langdetect
- Deep Translator (GoogleTranslator)
- Gemini API (Google Generative AI)
- Joblib
- HTML + Jinja2
- Dataset terdiri dari lima kategori berita:
business,education,entertainment,sports, dantechnology - Preprocessing teks termasuk:
- Menghapus HTML, URL, angka, tanda baca
- Menghapus stopwords dan melakukan stemming
- Model: Multinomial Naive Bayes
- Representasi teks: TF-IDF Vectorizer
