pedrolazucm

Script en Python para procesar ISSNs de un CSV a una forma de ecuación de búsqueda


Listen Later

Se trata de un pequeño script en R y lo mismo en Python para pasar los ISSN de un archivo CSV en el que vienen en la columna Issn de esta forma:

12345678

12345678, 12345678

...

A una forma de ecuación de búsqueda así:

ISSN(12345678) OR ISSN(12345678) OR ISSN(12345678)...

Es para cubrir una necesidad docente sobre Búsqueda y Recuperación de Información.

Nuevo: script en Python

He hecho lo mismo pero en vez de en R, en Python. A mí me gusta más el script en Python. Lo he hecho para que detecte los csv disponibles en la carpeta. Se selecciona el que se quiera, y genera automáticamente un txt con el nombre ecuacion_nombredelcsv.txt automáticamente.

  • Vídeo explicando qué hace el script en R: https://tubedu.org/w/7MZWCpL8EqJCnboaovtkFV
  • Vídeo mostrando lo mismo pero en Python: https://tubedu.org/w/ncZd684ucdwJ3adULY2YCT
  • Este script no hace web scrapping ni nada parecido: simplemente parte de un CSV que se tiene en local y procesa una columna convirtiendo el contenido de la columna a una síntaxis de ecuación de búsqueda.

    Personalmente, el script lo aplico a los CSV por categorías del SJR (Scimago Journal Ranking) y la ecuación de búsqueda sale según la sintaxis de Scopus. No accede a Scopus ni nada por el estilo ni descarga de manera dudosa o conflictica CSVs de ningún lado. El script trabaja con un archivo en local, no con nada de una web.

    No sé si hay algo parecido ya hecho, pero me atrevo a decir que esta necesidad le habrá surgido a alguien antes.

    Por supuesto, se podría hacer similar con la columna SRCID (Source Identifier) de las revistas. De hecho, esto quizá sea más simple porque cada revista tiene un ID y no varios ISSN (ISSN y eISSN). Incluso en la misma hoja de cálculo se podría hacer algo con la función de concatenar. Lo he hecho en R porque es en el contexto para el contexto de una asignatura del Grado en Ciencia de los Datos Aplicada y la gente de clase trabaja bien con R. El fin de este script es educativo y en el contexto de una asignatura sobre información científica.

    En el script habría que poner el nombre del CSV y el del archivo de salida txt con la ecuación de búsqueda según se quiera o según se llame el CSV.

    Yo personalmente lo usaría para sacar los ISSN de una subject category concreta. Si no me equivoco, la búsqueda en Scopus permite delimitar el área de conocimiento, pero no la categoría del área. De esta forma, se pueden sacar las revistas de una categoría. Por ejemplo, con Scopus puedes lanzar una búsqueda tipo SUBJAREA(SOCI) pero no para la categoría de Library and Information Sciences dentro del área. Con este sistema, se pueden sacar los ISSN de la categoría y recuperar los documentos de la categoría. Sobre esto, hay que tener en cuenta un detalle: serían las las revistas de una categoría para un año. No todos los años están las mismas revistas en el SJR, así que para tener todas las revistas de una categoría para todos los años, habría que trabajar los CSV de cada año (hay revistas que quizá estaban en 2022 y que ya no están en 2024 o el último año disponible o el del CSV).

    Con licencia MIT (https://codeberg.org/plr/csv-issn-to-query/src/branch/main/LICENSE)

    ...more
    View all episodesView all episodes
    Download on the App Store

    pedrolazucmBy