top of page

Detección de Fake News_NLP

⭐ Tipo

NLP

Mi proyecto:

🟣En este caso he desarrollado un modelo de detección de noticias falsas utilizando NLP, el modelo tiene una precisión alrededor del 89%, esta métrica da una idea de cuántas noticias falsas se pueden detectar correctamente.
🟣 Significa que de cada 100 noticias falsas detectamos 89 noticias correctamente clasificadas como falsas.

🟣También es importante cuantificar los falsos positivos (noticias que se identificaron como falsas pero son verdaderas) y los falsos negativos (noticias que se identificaron como verdaderas pero son falsas).

🟣Estos valores proporcionan información sobre los errores del modelo.

🟣Toda esta información se puede extraer de la matriz de confusión, solo un 6% de las noticias reales se han consideradas falsas y en torno a un 4% de las noticias falsas se han clasificado como verdaderas.

Resumen Ejecutivo

En la era digital, la propagación de noticias falsas representa un riesgo significativo para la desinformación y la toma de decisiones erróneas.


El objetivo de este proyecto es desarrollar un sistema de detección de noticias falsas utilizando el dataset "fake_or_real_news.csv" y técnicas de Procesamiento del Lenguaje Natural (NLP).


Descripción del Problema:

Las noticias falsas son una amenaza creciente que puede influir en la opinión pública y socavar la confianza en las fuentes de noticias.


La propagación de noticias falsas puede tener graves consecuencias en áreas como la política, la salud pública y la seguridad.


Objetivos del Proyecto:

Crear un modelo de aprendizaje automático que pueda clasificar las noticias como verdaderas o falsas utilizando el dataset "fake_or_real_news.csv".

Para así reducir la propagación de noticias falsas y aumentar la precisión en la identificación de información engañosa.







Trabajo Realizado

Importación de Datos


df=pd.read_csv('D:/Renata Lima/Unidad D/Shared/fake_or_real_news.csv')
df.head()

Calidad de Datos


def data_qualityCheck():
    print("Checking data qualitites...")
    df.isnull().sum()
    df.info()  
    print("check finished.")
data_qualityCheck()
Checking data qualitites...
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6335 entries, 0 to 6334
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  6335 non-null   int64 
 1   title       6335 non-null   object
 2   text        6335 non-null   object
 3   label       6335 non-null   object
dtypes: int64(1), object(3)
memory usage: 198.1+ KB
check finished.

Modelización


nb_pipeline = Pipeline([
        ('NBTV',tfidf_vectorizer),
        ('nb_clf',MultinomialNB())])

Evaluación


score = metrics.accuracy_score(y_test, predicted_nbt)
print('Accuracy:{}'.format(round(score*100,2)))
Accuracy:89

Alcance del Proyecto:

Desarrollo de un modelo de detección de noticias falsas basado en NLP utilizando el dataset proporcionado.

Evaluación de la precisión y efectividad del modelo en la clasificación de noticias.


Beneficios Esperados:

Mayor capacidad para identificar y filtrar noticias falsas en plataformas de noticias y redes sociales.

Reducción del impacto de la desinformación en la opinión pública y la toma de decisiones.

 

Análisis de Costos:

Costos asociados con el desarrollo del modelo, incluyendo tiempo de ingenieros y recursos computacionales.


Análisis de Beneficios:

Reducción del impacto de las noticias falsas en la sociedad.

Mayor confianza del público en las fuentes de noticias.


Análisis de Riesgos:

Posibles obstáculos en la calidad de los datos del dataset.

Desafíos técnicos en el desarrollo del modelo.


Plan de Implementación:

Recopilación y limpieza de datos del dataset "fake_or_real_news.csv".

Desarrollo y entrenamiento del modelo de detección de noticias falsas.

Evaluación y validación del modelo utilizando métricas de rendimiento.


Medición y Seguimiento:

Uso de métricas como matriz de confusión, precisión, recall y F1-score para medir el rendimiento del modelo.

Monitoreo continuo del modelo después de la implementación.

 

Conclusión:

La implementación de un sistema de detección de noticias falsas utilizando el dataset "fake_or_real_news.csv" tiene el potencial de reducir significativamente la propagación de información engañosa y fortalecer la confianza del público en las fuentes de noticias.


Este Business Case proporciona una visión general de alto nivel del proyecto de detección de noticias falsas y justifica su importancia y beneficios.

 

 

bottom of page