This readme.txt file was generated on 20240402 by Silvia Díaz de la Fuente GENERAL INFORMATION ------------------- 1. Título del Dataset: Noticias en portales de Google Noticias de Bienes de Interés Cultural del Camino Francés en Castilla y León 2. Autoría: Nombre: Silvia Díaz-de la Fuente Institución: Departamento de Ingeniería de Organización. Universidad de Burgos. Email: sddelafuente@ubu.es ORCID: https://orcid.org/0000-0002-5961-3368 Nombre: María Pilar Alonso Abad Institución: Departamento de Historia, Geografía y Comunicación. Universidad de Burgos. Email: mpaabad@ubu.es ORCID: https://orcid.org/0000-0002-6268-9443 Nombre: José Manuel Galán Institución: Departamento de Ingeniería de Organización. Universidad de Burgos. Email: jmgalan@ubu.es ORCID: https://orcid.org/0000-0003-3360-7602 DESCRIPTION ----------- 1. Lengua: Español 2. Resumen: El dataset "Noticias en portales de Google Noticias de Bienes de Interés Cultural del Camino Francés en Castilla y León" agrupa datos sobre la presencia mediática de los Bienes de Interés Cultural presentes en el Camino Francés en Castilla y León, o en su entorno más inmediato, extrayendo la información de Google News. Este compendio ofrece una perspectiva profunda de la aparición de estos bienes en los medios digitales, tanto a nivel nacional como internacional. Contiene más de 20,000 registros de noticias que datan desde principios del siglo XXI hasta finales de 2023, con una concentración notable de artículos entre 2020 y 2023. Cada entrada del dataset detalla el medio de publicación, el enlace a la noticia, el titular, el cuerpo de la noticia, la fecha de publicación, el portal de extracción, el idioma y el término de búsqueda utilizado para la consulta, proporcionando así un conjunto de datos rico y multidimensional para el análisis mediático de estos bienes culturales. Cada uno de los medios identificados ha sido analizado obteniendo su nombre, país y ámbito, además de sus temas principales en el caso de que se trate de un medio especializado. 3. Palabras Clave: Bienes de Interés Cultural, Camino Francés, Castilla y León, Google News, Análisis mediático, Presencia digital, Cobertura de noticias, Patrimonio Cultural, Análisis de contenido, Tendencias mediáticas, Internacionalización, Multilingüismo, Datos de noticias, Visibilidad cultural, Impacto mediático. 4. Fecha de recogida de los datos Octubre de 2023 5. Fecha de publicación de los datos Abril de 2024 6. Financiación: Los autores agradecen el apoyo y la financiación del Ministerio de Ciencia e Innovación a través de sus redes de excelencia HAR2017-90883-REDC y RED2018-102518-T y el proyecto PID2020118906GB-I00, y de la Junta de Castilla y León - Consejería de Educación (BDNS 425389) y la FWO-WOG (W001220N). Además, este trabajo ha sido parcialmente financiado por el Fondo Social Europeo, a través de la concesión del contrato predoctoral de Silvia Díaz de la Fuente mediante la Consejería de Educación de la Junta de Castilla y León. 7. Localización geográfica de los datos: Los datos contenidos en este dataset se refieren a bienes de la comunidad autónoma de Castilla y León, en España, cubriendo específicamente los Bienes de Interés Cultural ubicados en el trazado oficial del Camino Francés de Santiago a su paso por esta región a través de las provincias de Burgos, Palencia y León, aunque los medios analizados son generales y cubren una importante parte del mundo. ACCESS INFORMATION ------------------ 1. Dataset Creative Commons License: CC BY-NC 2. Dataset DOI: 3. Publicación relacionada: El Patrimonio Jacobeo y su gestión desde las Humanidades Digitales: presente y futuro del Camino de Santiago en Castilla y León. Tesis doctoral de Silvia Díaz de la Fuente. METHODOLOGICAL INFORMATION -------------------------- El procedimiento metodológico para la creación del dataset "Noticias en portales de Google Noticias de Bienes de Interés Cultural del Camino Francés en Castilla y León" inició con una búsqueda detallada en Google News para cada uno de los bienes culturales destacados en la tesis doctoral. Estas búsquedas se realizaron en diversos portales nacionales asociados con el Camino de Santiago, abarcando una variedad de idiomas y contextos geográficos. En concreto se analizaron los siguientes portales: 1. España (español) 2. Reino Unido (inglés) 3. Polonia (polaco) 4. Italia (italiano) 5. Países Bajos (holandés) 6. Eslovenia (esloveno) 7. Estados Unidos (USA) (inglés) 8. Brasil (portugués) 9. Irlanda (inglés) 10. Francia (francés) 11. Portugal (portugués) 12. Australia (inglés) 13. Alemania (alemán) 14. Suecia (sueco) 15. Canadá (tanto con los términos en francés como en inglés) También se han realizado búsquedas en Estonia y Sudáfrica, pero estas no han devuelto ningún resultado. El archivo en este mismo dataset llamado “query_terms” detalla los términos de búsqueda utilizados. La recopilación mediante scraping se extendió a más de 20,000 noticias, incluyendo información como el medio, el enlace, el titular, la primera frase del cuerpo de la noticia, y la fecha de publicación. Estos datos fueron enriquecidos con el texto completo de las noticias, obtenido mediante el paquete newspaper3K de Python, y almacenados organizadamente con los términos de búsqueda correspondientes y la clasificación del bien cultural pertinente. El análisis lingüístico empleó paquetes en R como textcat, cld2 y cld3 para determinar de forma automatizada el idioma de cada noticia, recurriendo a una clasificación de consenso para asegurar la precisión. Las discrepancias entre los paquetes o la falta de consenso llevaron a revisiones manuales para asignar el idioma correcto y ajustar las fechas de publicación cuando fue necesario. Durante la fase de limpieza y clasificación, se identificaron y eliminaron registros duplicados o irrelevantes. Dada la multitud falsos positivos, como noticias que mencionaban localidades homónimas o contenidos no relacionados directamente con los bienes culturales en estudio. Para superar este obstáculo, se emplearon modelos de lenguaje de gran escala y la API de OpenAI con el modelo gpt-3.5-turbo para evaluar la probabilidad de que cada noticia estuviera efectivamente relacionada con el bien cultural buscado, asignando categorías de relevancia basadas en los valores de probabilidad obtenidos. Posteriormente se realizó una clasificación manual de los resultados positivos para mejorar la precisión de dataset. El conjunto de datos presenta la información completa y la variable “Aceptada” indica la subselección relevante. Se ha llevado a cabo una clasificación detallada de los medios de comunicación identificados en la recopilación de datos y también ofrecida en el dataset en el archivo “medios_origen”. Este proceso de clasificación ha incorporado varias dimensiones para proporcionar una comprensión más rica y matizada de la cobertura mediática asociada a cada bien cultural. Primero, se clasificó cada medio según su ámbito de influencia, diferenciando entre medios de alcance internacional/nacional, aquellos de carácter regional/local y aquellos que son de temática especializada. También se determinó el país de procedencia de cada medio. Para los medios temáticos especializados, se identificaron los temas principales que abordan, como viajes, ciencia, tecnología y ocio, entre otros. Para asistir en este proceso de clasificación y análisis, se desarrolló un modelo específico de GPT (Generative Pre-trained Transformer) denominado "Analizador de Medios Digitales" https://chat.openai.com/g/g-iW9PBIdfV-analizador-de-medios-digitales.. En casos donde el GPT no proporcionaba información suficiente o precisa, se realizó un análisis manual para asegurar la exactitud y completitud de la clasificación. FILE OVERVIEW ------------- 1.Readme.txt: Este archivo de texto sirve como una guía introductoria para los usuarios del dataset, proporcionando un resumen conciso de su contenido, la metodología de recopilación y procesamiento de los datos, y una visión general del propósito y estructura del conjunto de datos. 2.dataset_noticias.ods: Este archivo en formato OpenDocument Spreadsheet contiene el conjunto principal de datos recopilados, que incluye información detallada sobre cada noticia, como el medio de publicación, el enlace a la noticia, el titular, el cuerpo del artículo, la fecha de publicación, el idioma y el término de búsqueda utilizado. Está diseñado para ser compatible con software de hojas de cálculo de código abierto. 3.dataset_noticias.xlsx: Similar al archivo .ods, esta versión en formato Excel contiene el mismo conjunto de datos, pero está optimizada para usuarios de Microsoft Excel, facilitando así su acceso y análisis en un entorno de software más común. 4.medios_origen.ods: Este archivo OpenDocument Spreadsheet clasifica y detalla los medios de comunicación identificados en el dataset. Proporciona información sobre el ámbito de cada medio, su país de origen y, en el caso de medios temáticos, los temas principales que cubren. 5.medios_origen.xlsx: La versión Excel del archivo de clasificación de medios ofrece la misma información que su contraparte .ods, permitiendo un análisis detallado de los medios en el entorno de Excel. 6.query_terms.ods: Este archivo en formato OpenDocument Spreadsheet detalla los términos de búsqueda utilizados para recopilar las noticias, proporcionando una comprensión clara de cómo se estructuraron las consultas para la recopilación de datos y permitiendo la replicación o extensión del estudio. 7.query_terms.xlsx: Al igual que el archivo .ods, esta versión en formato Excel de los términos de búsqueda ofrece una referencia accesible para los usuarios de Excel, facilitando la comprensión de la metodología de búsqueda empleada en la creación del dataset. TABULAR DATA-SPECIFIC INFORMATION --------------------------------- Los archivos disponibles tanto en formato Excel como en ODS, presentan una estructura organizada en una única pestaña con los datos en filas y las variables en columnas. 1. dataset_noticias link: La URL directa a la noticia original publicada en línea. Esta variable permite a los usuarios acceder a la fuente primaria para leer el contenido completo o realizar verificaciones adicionales. BIC: Identificador del bien cultural específico al que se refiere la noticia. source: El medio de comunicación o la plataforma que publicó la noticia. title: El titular de la noticia. body: Primera frase del cuerpo de la noticia. posted: Fecha en la que la noticia fue publicada. FechaRecogida: Fecha en que la noticia fue recolectada o scrapeada para el dataset. IdiomaConsenso: El idioma de la noticia determinado por consenso a través de las herramientas de análisis lingüístico utilizadas. bodyCompleto: El texto completo de la noticia obtenido mediante newspaper3K. status: Si la noticia pudo ser recuperada. Aceptada: Un campo que puede indicar si la noticia ha sido aceptada como relevante para el bien cultural después del proceso de verificación. Luego, hay una serie de variables que corresponden a los países donde se ha buscado o recogido la noticia (España, Francia, Irlanda, Italia, PaísesBajos, Polonia, Portugal, Suecia, UK, USA, Alemania, Australia, Brasil, Canada, Eslovenia). Estas variables indican si la noticia fue recuperada de los portales de Google News de cada país respectivo, lo que reflejaría la cobertura y la relevancia internacional del bien cultural. query: Términos de búsqueda que se utilizaron para encontrar la noticia. 2.medios_origen source: Esta variable representa la fuente de noticias específica o el medio de comunicación de donde se originó la noticia. Ámbito: Define la escala de operación o influencia del medio de comunicación. Los valores posibles para esta variable son 'Nacional/Internacional', 'Local/Regional' o 'Temático especializado' si se enfocan en temas específicos. País: Se refiere al país de origen o de la sede principal del medio de comunicación. Tema: En el caso de medios temáticos especializados, esta variable detalla los temas centrales que el medio de comunicación aborda regularmente. Ejemplos de temas pueden ser 'Viajes', 'Ciencia', 'Tecnología', 'Ocio', entre otros. Si hay más de uno, están separados por ";" 3.query_terms BIC: Esta columna lista los Bienes de Interés Cultural específicos a los que se refieren los términos de búsqueda. Actúa como identificador principal en el archivo, proporcionando el contexto para los términos de búsqueda en las columnas subsiguientes. Español: Contiene los términos de búsqueda utilizados en Google News en español, adecuados para los países hispanohablantes o las búsquedas en los que el español es el idioma relevante. Inglés: Términos de búsqueda en inglés, aplicables a las búsquedas en países de habla inglesa o para contenido en inglés a nivel global. Francés: Los términos de búsqueda en francés, dirigidos a capturar noticias en portales de países francófonos o donde el francés sea un idioma utilizado en los medios. Portugués: Términos de búsqueda en portugués, empleados para obtener noticias de países lusófonos o portales en este idioma. Alemán: Los términos en alemán utilizados para las búsquedas en los países de habla alemana o medios en alemán. Polaco: Términos de búsqueda en polaco, específicos para las noticias publicadas en Polonia o en este idioma. Italiano: Términos en italiano, centrados en noticias del ámbito italiano o medios que publican en este idioma. Holandés: Términos de búsqueda para capturar noticias en los Países Bajos o en medios que usan el idioma holandés. Esloveno: Términos de búsqueda en esloveno, para noticias de Eslovenia o en esloveno. Sueco: Términos utilizados para buscar noticias en Suecia o en sueco. Estonio: Aunque no se hayan recuperado resultados, se incluyen términos de búsqueda en estonio.