Corregido (Fixed)

  • Se mejoró significativamente la robustez de las funciones de extracción para Emol (extraer_noticias_fecha_emol, extraer_noticias_max_res_emol) al procesar la estructura de datos devuelta por la API, especialmente para campos como resumen (_source.bajada), URL de imagen (_source.tablas.tablaMedios, _source.imagen) y temas (_source.temas). Esto previene errores que causaban la pérdida de todos los datos extraídos de Emol.
  • Las funciones de extracción de Emol ahora utilizan funciones auxiliares (helpers) internas para procesar campos complejos, mejorando la legibilidad y el manejo de errores específicos de cada campo.
  • Se implementó un manejo de errores más informativo en las funciones de extracción de Emol: si ocurre un error crítico durante el procesamiento final de los datos, se guarda una muestra de los datos crudos problemáticos en un archivo .rds para facilitar la depuración.
  • Se mejoró la robustez de la función limpieza_notas para manejar correctamente el contenido de noticias que puede ser HTML crudo, texto plano, o valores NA.
  • Se solucionó un error en limpieza_notas que ocurría cuando el contenido de una noticia era NA, evitando la detención de la función.
  • La función limpieza_notas ahora maneja de forma más predecible la inicialización de la columna contenido_limpio, usando siempre la columna contenido como base en cada ejecución.

Mejorado (Improved)

  • Se optimizó la función limpieza_notas para detectar si el contenido es HTML antes de intentar un parseo completo, mejorando la eficiencia para contenidos que ya son texto plano.
  • Se refinó la lógica de filtrado por términos de búsqueda y sinónimos en limpieza_notas para ser más consistente con la presencia de valores NA en el contenido.
  • Se estandarizó el uso de NA_character_ en los helpers de extracción de Emol para asegurar consistencia en los datos procesados.

Agregado (Added)

  • Nuevas fuentes para la extracción de noticias de medios chilenos.
  • Funciones auxiliares para utilizar un enfoque iterativo controlado.

Mejorado (Improved)

  • Modificación por modularización de las funciones de extracción de datos por fecha o por cantidad máxima de resultados.
  • Se modifica la función de limpieza para que responda a los formatos de las noticias de las nuevas fuentes.

Mejorado (Improved)

  • Mejor rendimiento de funciones.
  • Initial CRAN submission.