Funcion para limpiar notas de contenido HTML
limpieza_notas.Rd
Esta funcion permite limpiar por completo las notas eliminando codigos y secciones irrelevantes. Verifica que el input sea un data frame con una columna llamada `contenido`.
Usage
limpieza_notas(datos, sinonimos = c())
Examples
# \donttest{
datos <- extraer_noticias_max_res("inteligencia artificial", max_results= 150, subir_a_bd = FALSE)
#> Fuentes parseadas: bbclFuentes parseadas: emol-todasFuentes parseadas: ciper
#> Total de resultados disponibles en bbcl: 2761
#> Noticia mas reciente disponible en bbcl es de la fecha: 2025-08-08 17:22:42
#> Total de resultados disponibles en emol para la busqueda: 761
#> Total de resultados disponibles en mediosregionales para la busqueda: 243
#> Total de resultados disponibles en guioteca para la busqueda: 67
#> Iniciando extraccion desde Ciper para la busqueda: inteligencia artificial
#>
#> Error 500 en el servidor, reintentando en 5 segundos...
#> Total de resultados encontrados en Ciper: 13
#>
|
| | 0%
|
|======================================================================| 100%
#> Iniciando scrapeo para 13 articulos...
#> Scrapeo en paralelo completado.
#> Noticias hasta la fecha: 2009-06-30
datos_proc <- limpieza_notas(datos, sinonimos = c("IA", "AI"))
# }