Skip to content

Simona7-code/Text_Analytics-course_project__2023

Repository files navigation

Text_Analytics-course_project__2023

The aim of the project was to select a linguistic dataset and:

  • perform analyzes on linguistic data;
  • train classifiers (from the more traditional models like Support Vector Classifier to the more complex LLMs like BertForSequenceClassification) in order to perform a single-label multiclass classification.

This task was inspired by the shared task on SemEval2023 "Detecting the gender, the framing, and the persuasion techniques in online news in a multi-lingual setup" (https://propaganda.math.unipd.it/semeval2023task3/), from whose data the necessary dataset was built in order to perform the classification of different types of persuasive communication present in the texts, for a total of 7 types.

The folder is composed as follows:

  • Inside the generation folder there is the notebook that allowed the creation of the dataset definitively used in order to carry out the task;
  • Three jupyter notebook files containing:
    • text exploration using NLTK library methods and performing various tasks such as entity name recognition and sentiment analysis;
    • the application of different non-LLM classification algorithms and the application of different feature extraction methods in order to create a vector representation of texts;
    • the application of the BertForSequenceClassification (LLM) classification model.
  • A pdf file containing the project report and the presentation of the results obtained.

The project was carried out in collaboration with Giulio Canapa, Diego Borsetto and Sara Quattrone.

############################################################################

Lo scopo del progetto era selezionare un dataset di dati linguistici e:

  • svolgere delle analisi sui dati linguitici;
  • addestrare classificatori (dai più tradizionali modelli come Support Vector Classifier ai più complessi LLM come BertForSequenceClassification) al fine di effettuare una classificazione multi-class single-label.

Questa task è stata ispirata dalla task condivisa su SemEval2023 "Detecting the genre, the framing, and the persuasion techniques in online news in a multi-lingual setup" (https://propaganda.math.unipd.it/semeval2023task3/), dai cui dati è stato costrutito il dataset necessario al fine di eseguire la classificazione di diversi tipi di comunicazione persuasoria presenti nei testi, per un totale di 7 tipi.

La cartella è stata così composta:

  • All'interno della cartella generazione è presente il notebook che ha permesso la creazione del dataset definitivamente utilizzato al fine di svolgere il task;
  • Tre file jupyter notebook che contengono:
    • l'esplorazione dei testi tramite metodi di libreria NLTK e lo svolgimento di diverse task come la name entity recogniton e sentiment analysis;
    • l'applicazione di divesi algoritmi di classificazione (non LLM) e l'applicazione di diversi metodi per l'estrazione di features al fine di creare una rappresentazione vettoriale dei testi;
    • l'applicazione del modello di classificazione BertForSequenceClassification (LLM).
  • Un file pdf che contiene la relazione di progetto e la presentazione dei risultati ottenuti.

Il progetto è stato svolto in collaborazione con Giulio Canapa, Diego Borsetto and Sara Quattrone.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors