Introducción
La minería de texto es una rama específica del análisis de datos que busca analizar y extraer información de textos. Esta utiliza una serie de procesos para transformar documentos o recursos de texto desestructurados en información estructurada. La información estructurada puede utilizarse para descubrir patrones tales como tendencias en el uso de palabras, estructura sintáctica, sentimientos u opiniones, etc.
Extensión de los discursos
La extensión de los discursos tuvo un rango de 113 a 152 frases, siendo los discursos de Alvarado y Solís los que incluyeron el mayor y menor número de frases, respectivamente (Figura 1).
Frecuencia de uso de las palabras
Los presidentes mencionaron ciertas palabras frecuentemente durante su discurso de investidura. Entre las 10 palabras más frecuentes se destaca “país”, con una frecuencia de 58 (Figura 2, Figura 3).
Cuado se compararon los discursos de los presidentes, la palabra “país” fue la más frecuente en el discurso de Alvarado y Chaves, 17 y 29 veces, respectivamente. Sin embargo, las palabras “pueblo” y “democracia” fueron las palabras más frecuentes en el discurso de Solís (Figura 4, Figura 5).
Dispersión léxica
Este análisis permite ver la frecuencia de uso y el momento en el discurso en el que se usó la palabra.
Para el caso de las palabras, país y democracia:
La palabra país es empleada a través del discurso de los 3 presidentes, sin embargo la palabra democracia es empleada solo una vez en la primera mitad del discurso del presidente Alvarado (Figura 6).
Para el caso de las palabras, economía y empleo:
La palabras economía fue empleada de manera poco frecuente y dispersa en los discursos de los presidentes. Algo similar ocurrió con la palabra empleo, sin embargo, esta palabra no fue mencionada en el discurso de Solís (Figura 7).
Similitud y correlación entre los discursos
La similitud de los discursos obtuvo valores relativamente bajos de correlación entre todos los presidentes (Figura 8).
La distancia o disimilaridad de los discursos permitió identificar una mayor disimilitud entre el discurso de Alvarado con respecto al de Chaves y Solís (Figura 9).
Red de agrupamiento o combinaciones de palabras
El gráfico de red excelente evalúa la interacción y la co-ocurrencia que hay entre diferentes palabras del discurso. En ciertas ocasiones un grupo de palabras puede proporcionar una perspectiva diferente que una sola palabra. La frecuencia está representada por el grosor de la línea de enlace.
Análisis de sentimiento
El análisis de sentimiento se usa para evaluar emociones, actitudes y opiniones de un texto. El discurso de investidura de Solís fue el que presentó un mayor número de palabras que reflejan emociones negativas (Figura 10) y el de Chaves el menor número de palabras que reflejan emociones positivas Figura 11).
El análisis lo realicé con R (R Core Team 2022), usando los paquetes quanteda (Benoit et al. 2018) y factoextra (Kassambara y Mundt 2020).
Literatura citada
Cómo citar
@online{spínola2022,
author = {Spínola, Manuel},
title = {Análisis de texto de los discursos de investidura de los
presidentes, Luis Guillermo Solís, Carlos Alvarado y Rodrigo Chaves},
date = {2022-09-05},
url = {https://mspinola-ciencia-de-datos.netlify.app/posts/2022-07-01-text-analysis/text-analysis.html},
langid = {es}
}