datosciencia
Mi proyecto:
🟣En este caso he desarrollado un modelo de detección de noticias falsas utilizando NLP, el modelo tiene una precisión alrededor del 89%, esta métrica da una idea de cuántas noticias falsas se pueden detectar correctamente.
🟣 Significa que de cada 100 noticias falsas detectamos 89 noticias correctamente clasificadas como falsas.
🟣También es importante cuantificar los falsos positivos (noticias que se identificaron como falsas pero son verdaderas) y los falsos negativos (noticias que se identificaron como verdaderas pero son falsas).
🟣Estos valores proporcionan información sobre los errores del modelo.
🟣Toda esta información se puede extraer de la matriz de confusión, solo un 6% de las noticias reales se han consideradas falsas y en torno a un 4% de las noticias falsas se han clasificado como verdaderas.
Resumen Ejecutivo
En la era digital, la propagación de noticias falsas representa un riesgo significativo para la desinformación y la toma de decisiones erróneas.
El objetivo de este proyecto es desarrollar un sistema de detección de noticias falsas utilizando el dataset "fake_or_real_news.csv" y técnicas de Procesamiento del Lenguaje Natural (NLP).
Descripción del Problema:
Las noticias falsas son una amenaza creciente que puede influir en la opinión pública y socavar la confianza en las fuentes de noticias.
La propagación de noticias falsas puede tener graves consecuencias en áreas como la política, la salud pública y la seguridad.
Objetivos del Proyecto:
Crear un modelo de aprendizaje automático que pueda clasificar las noticias como verdaderas o falsas utilizando el dataset "fake_or_real_news.csv".
Para así reducir la propagación de noticias falsas y aumentar la precisión en la identificación de información engañosa.
Trabajo Realizado
Importación de Datos
df=pd.read_csv('D:/Renata Lima/Unidad D/Shared/fake_or_real_news.csv')
df.head()
Calidad de Datos
def data_qualityCheck():
print("Checking data qualitites...")
df.isnull().sum()
df.info()
print("check finished.")
data_qualityCheck()
Checking data qualitites...
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6335 entries, 0 to 6334
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Unnamed: 0 6335 non-null int64
1 title 6335 non-null object
2 text 6335 non-null object
3 label 6335 non-null object
dtypes: int64(1), object(3)
memory usage: 198.1+ KB
check finished.
Modelización
nb_pipeline = Pipeline([
('NBTV',tfidf_vectorizer),
('nb_clf',MultinomialNB())])
Evaluación
score = metrics.accuracy_score(y_test, predicted_nbt)
print('Accuracy:{}'.format(round(score*100,2)))
Accuracy:89
Alcance del Proyecto:
Desarrollo de un modelo de detección de noticias falsas basado en NLP utilizando el dataset proporcionado.
Evaluación de la precisión y efectividad del modelo en la clasificación de noticias.
Beneficios Esperados:
Mayor capacidad para identificar y filtrar noticias falsas en plataformas de noticias y redes sociales.
Reducción del impacto de la desinformación en la opinión pública y la toma de decisiones.
Análisis de Costos:
Costos asociados con el desarrollo del modelo, incluyendo tiempo de ingenieros y recursos computacionales.
Análisis de Beneficios:
Reducción del impacto de las noticias falsas en la sociedad.
Mayor confianza del público en las fuentes de noticias.
Análisis de Riesgos:
Posibles obstáculos en la calidad de los datos del dataset.
Desafíos técnicos en el desarrollo del modelo.
Plan de Implementación:
Recopilación y limpieza de datos del dataset "fake_or_real_news.csv".
Desarrollo y entrenamiento del modelo de detección de noticias falsas.
Evaluación y validación del modelo utilizando métricas de rendimiento.
Medición y Seguimiento:
Uso de métricas como matriz de confusión, precisión, recall y F1-score para medir el rendimiento del modelo.
Monitoreo continuo del modelo después de la implementación.
Conclusión:
La implementación de un sistema de detección de noticias falsas utilizando el dataset "fake_or_real_news.csv" tiene el potencial de reducir significativamente la propagación de información engañosa y fortalecer la confianza del público en las fuentes de noticias.
Este Business Case proporciona una visión general de alto nivel del proyecto de detección de noticias falsas y justifica su importancia y beneficios.