Arquitectura de referencia para un laboratorio virtual como herramienta de sistematización de datos de biodiversidad
Reference architecture for a virtual laboratory as a biodiversity data systematization tool
Contenido principal del artículo
Resumen
El objetivo de esta investigación fue desarrollar un laboratorio virtual para la gestión de datos de biodiversidad en la región del Pacífico colombiano. La plataforma creada integra una base de datos relacional en PostgreSQL, el ecosistema JupyterHub y servicios de Amazon Web Services (AWS), con infraestructuras de datos globales. Se recopilaron 28.058 registros entre 2004 y 2022, destacando 44 familias, 119 géneros y 198 especies, incluyendo, especies maderables amenazadas, como Carapa guianensis, Humiriastrum procerum y Magnolia calimaensis. Entre las familias con mayores registros se encuentran Fabaceae, Arecaceae, Malvaceae y Moraceae, con 88 especies en total. La ejecución de rutinas de trabajo no excedió los 11 minutos en Python y R. Los servicios de AWS demostraron tiempos de respuesta de 200 ms y un tráfico de red de 0.1 GB/s. El inicio y cese de contenedores se realizó en 10 y 5 segundos, con un uso promedio de CPU y RAM ,del 80 y 75%, respectivamente. Además, se almacenaron 4 GB de objetos con tiempos de respuesta inferiores a 100 ms. Con la ayuda de las herramientas implementadas se logró prevenir errores en los datos dasométricos y taxonómicos, destacando la importancia del control de calidad y la validación de datos. La implementación de este laboratorio virtual permitió un manejo eficaz de grandes volúmenes de datos, facilitando la colaboración en tiempo real entre investigadores y proporcionando una herramienta escalable y flexible para el análisis de datos ecológicos, promoviendo una comprensión más completa de la biodiversidad en la región.
Palabras clave:
Descargas
Detalles del artículo
Referencias (VER)
AGRILLO, E.; FILIPPONI, F.; PEZZAROSSA, A.; CASELLA, L.; SMIRAGLIA, D.; ORASI, A.; ATTORRE, F.; TARAMELLI, A. 2021. Earth observation and biodiversity big data for forest habitat types classification and mapping. Remote Sensing. 13(7):1231. https://doi.org/10.3390/rs13071231 DOI: https://doi.org/10.3390/rs13071231
ALBERTI, J.; MASSONE, O. 2022. Tired of losing valuable data? Build your lab ecological database as a cornerstone for long-term approaches. Ecología Austral. 32(1):151-157. https://doi.org/10.25260/ea.22.32.1.0.1785 DOI: https://doi.org/10.25260/EA.22.32.1.0.1785
ARECHIGA, J.; ESQUIVEL, T.; CAMACHO, A.; DELGADO-RODRÍGUEZ, M.R.; VARGAS-GONZÁLEZ, P.; QUIJAS, S. 2022. Floristic and structural diversity of riparian vegetation along an urban-natural gradient of Pitillal River Jalisco, México. Revista U.D.C.A Actualidad & Divulgación Científica. 25(1):e2196. https://doi.org/10.31910/rudca.v25.nSupl.1.2022.2196 DOI: https://doi.org/10.31910/rudca.v25.nSupl.1.2022.2196
ANDJARWIRAWAN, J.; NOVIANUS, P.H.; KURNIAWAN, A. 2020. Computer science laboratory environment using docker. 1-6. Disponible desde Internet en: https://repository.petra.ac.id/18698/1/Publikasi1_98031_5989.pdf
BART, A.; FAZLIEV, A.; GORDOV, E.; OKLADNIKOV, I.; PRIVEZENTSEV, A.; TITOV, A. 2018. Virtual research environment for regional climatic processes analysis: Ontological approach to spatial data systematization. Data Science Journal. 17:14 https://doi.org/10.5334/dsj-2018-014 DOI: https://doi.org/10.5334/dsj-2018-014
BAYER, M. 2013. SQLAlchemy. En: Brown, A.; Wilson, G. (eds.), The architecture of open source applications. Volume II. University of California Berkeley p.291-314. Disponible desde Internet en: http://software-carpentry.org/2011/05/06/%0Ahttps://aosabook.org/en/sqlalchemy.html
BEG, M.; TAKA, J.; KLUYVER, T.; KONOVALOV, A.; RAGAN-KELLEY, M.; THIERY, N.M.; FANGOHR, H. 2021. Using Jupyter for Reproducible Scientific Workflows. Computing in Science and Engineering. 23(2):36-46. https://doi.org/10.1109/MCSE.2021.3052101 DOI: https://doi.org/10.1109/MCSE.2021.3052101
BOCANEGRA-GONZÁLEZ, K.; GUILLEMIN, M.L. 2018. Guidelines for the restoration of the tropical timber tree Anacardium excelsum: first input from genetic data. Tree Genetics and Genomes. 14(59). https://doi.org/10.1007/s11295-018-1271-z DOI: https://doi.org/10.1007/s11295-018-1271-z
BOROWIEC, M.L.; DIKOW, R.B.; FRANDSEN, P.B.; MCKEEKEN, A.; VALENTINI, G.; WHITE, A.E. 2022. Deep learning as a tool for ecology and evolution. In Methods in Ecology and Evolution. 13(8):1640-1660. https://doi.org/10.1111/2041-210X.13901 DOI: https://doi.org/10.1111/2041-210X.13901
CARNEIRO, T.; DA NOBREGA, R.V.M.; NEPOMUCENO, T.; BIAN, G. BIN; DE ALBUQUERQUE, V.H.C.; FILHO, P.P.R. 2018. Performance Analysis of Google Colaboratory as a Tool for Accelerating Deep Learning Applications. IEEE 6:61677-61685. https://doi.org/10.1109/ACCESS.2018.2874767 DOI: https://doi.org/10.1109/ACCESS.2018.2874767
CHAMBERLAIN, S.; FORKEL, R.; LEGIND, J.; HOEY, S.V.; DESMET, P.; NOÉ, N. 2022. pygbif. Disponible desde Internet en: https://github.com/gbif/pygbif
CHAPMAN, A.D.; WIECZOREK, J.R. 2022. Guía de buenas prácticas de georreferenciación. https://doi.org/10.15468/doc-gg7h-s853
CHEN, F.; HU, Y. 2021. Agricultural and rural ecological management system based on big data in complex system. Environmental Technology and Innovation. 22:101390. https://doi.org/10.1016/j.eti.2021.101390 DOI: https://doi.org/10.1016/j.eti.2021.101390
COKER, S.; ATNOOR, D.; BUCKNER, P. 2019. Building the foundation for lab of the future using AWS. Disponible desde Internet en: https://aws.amazon.com/blogs/industries/building-the-foundation-for-lab-of-the-future-using-aws/
COOPER, D.H.; NOONAN-MOONEY, K. 2013. Convention on Biological Diversity. En: Levin, S. Encyclopedia of Biodiversity. Segunda edición. Academic Press. p.306-319. https://doi.org/10.1016/B978-0-12-384719-5.00418-4 DOI: https://doi.org/10.1016/B978-0-12-384719-5.00418-4
COORDINATE SYSTEMS WORLDWIDE. 2022. WGS 84 - WGS84 - World Geodetic System 1984. used in GPS. Disponible desde Internet en: https://epsg.io/4326
DAVENPORT, T.; PRUSAK, L. 1998. Working knowledge: how organizations manage what they know. Choice Reviews Online. 35(09):5167. https://doi.org/10.5860/choice.35-5167 DOI: https://doi.org/10.5860/CHOICE.35-5167
DEVICTOR, V.; BENSAUDE-VINCENT, B. 2016. From ecological records to big data: the invention of global biodiversity. History and Philosophy of the Life Sciences. 38:13. https://doi.org/10.1007/s40656-016-0113-2 DOI: https://doi.org/10.1007/s40656-016-0113-2
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONS, FAO. 2022. El tratado internacional sobre los recursos fitogenéticos para la alimentación y la agricultura. Disponible desde Internet en: http://extwprlegs1.fao.org/treaty/docs/tre000005S.pdf
FORESTPLOTS.NET. 2020. ForestPlots.NET. Disponible desde Internet en: https://www.forestplots.net/
GARCÍA-LÓPEZ, Y.; GONZÁLEZ-SÁEZ, L.Y.; CABRERA-HERNÁNDEZ, A.J. 2022. Aplicaciones de aprendizaje automático para el análisis industrial de la provisión azucarera en Matanzas, Cuba. Revista U.D.C.A Actualidad & Divulgación Científica. 25(2):1-10. https://doi.org/10.31910/rudca.v25.n2.2022.2334 DOI: https://doi.org/10.31910/rudca.v25.n2.2022.2334
GLOBAL BIODIVERSITY INFOMATION FACILITY, GBIF. 2020. Global Biodiversity Information Facility. Disponible desde Internet en: https://www.gbif.org/
GLOBAL BIODIVERSITY INFOMATION FACILITY, GBIF. 2022. Introducción a GBIF Tabla de Contenido. Disponible desde Internet en: https://docs.gbif.org/course-introduction-to-gbif/es/introduccion-a-gbif.es.pdf
GENTRY, A. 1996. A Field Guide the Families and Genera Woody Plants of Northwest South America (Colombia, Ecuador, Peru). University of Chicago. 920p.
GIMÉNEZ, J.A. 2019. Buenas prácticas en el diseño de bases de datos. Revista Científica Internacional ARANDU UTIC. 6:193-210.
GOOGLE. 2023. Google Colaboratory. Disponible desde Internet en: https://colab.research.google.com/
GRATTAROLA, F.; BOTTO, G.; DA ROSA, I.; GOBEL, N.; GONZÁLEZ, E.M.; GONZÁLEZ, J.; HERNÁNDEZ, D.; LAUFER, G.; MANEYRO, R.; MARTÍNEZ-LANFRANCO, J.A.; NAYA, D.E.; RODALES, A.L.; ZIEGLER, L.; PINCHEIRA-DONOSO, D. 2019. Biodiversidata: An open-access biodiversity database for Uruguay. Biodiversity Data Journal. 7:e36226 https://doi.org/10.3897/BDJ.7.e36226 DOI: https://doi.org/10.3897/BDJ.7.e36226
GROUP ON EARTH OBSERVATION, GEO. 2015. Strategic Plan 2016-2025: Implementing GEOSS. Disponible desde Internet en: https://www.earthobservations.org/documents/GEO_Strategic_Plan_2016_2025_Implementing_GEOSS.pdf
HAMPTON, S.E.; STRASSER, C.A.; TEWKSBURY, JJ.; GRAM, W.K.; BUDDEN, A.E.; BATCHELLER, A.L.; DUKE, C.S.; PORTER, J.H. 2013. Big data and the future of ecology. Frontiers in Ecology and the Environment. 11(3):156-162. https://doi.org/10.1890/120103 DOI: https://doi.org/10.1890/120103
HERNANDEZ, L.; ÁLVAREZ-MARTÍNEZ, J.M.; GÓMEZ ALMARAZ, C.; SÁNCHEZ DE DIOS, R.; JÍMENEZ ALFARO, B.; ÁLVAREZ-TABOADA, F. 2022. Seguimiento de la biodiversidad en la era del Big Data. Ecosistemas. 31(3). https://doi.org/10.7818/ECOS.2450 DOI: https://doi.org/10.7818/ECOS.2450
HU, F.; CHE, S. 2019. Establishment of the Docker-Based Laboratory Environment. Open Access Library Journal. 6:e5519. https://doi.org/10.4236/oalib.1105519 DOI: https://doi.org/10.4236/oalib.1105519
INTERGOVERNMENTAL PANEL ON CLIMATE CHANGE, IPCC. 2019. El IPCC y el sexto ciclo de evaluación. Disponible desde Internet en: https://www.ipcc.ch/site/assets/uploads/2018/09/AC6_brochure_es.pdf
JUPYTER PROJECT. 2022a. Jupyterhub: A multi-user version of the notebook designed for companies, classrooms and research labs. Disponible desde Internet en: https://jupyter.org/
JUPYTER PROJECT. 2022b. Jupyter Notebook: The classic notebook interface. Disponible desde Internet en: https://jupyter.org/
KOVÁCS, D.D.; REYES-MUÑOZ, P.; SALINERO-DELGADO, M.; MÉSZÁROS, V.I.; BERGER, K.; VERRELST, J. 2023. Cloud-free global maps of essential vegetation traits processed from the TOA Sentinel-3 catalogue in Google Earth Engine. Remote Sensing. 15(13). https://doi.org/10.3390/rs15133404 DOI: https://doi.org/10.3390/rs15133404
LESLIE, B. 2022. Pygpx. Disponible desde Internet en: https://github.com/fxdgear/pygpx
LI, R.; RANIPETA, A.; WILSHIRE, J.; MALCZYK, J.; DUONG, M.; GURALNICK, R.; WILSON, A.; JETZ, W. 2021. A cloud-based toolbox for the versatile environmental annotation of biodiversity data. PLoS Biology. 19(11). https://doi.org/10.1371/journal.pbio.3001460 DOI: https://doi.org/10.1371/journal.pbio.3001460
MCKINNEY, W. 2010. Data Structures for Statistical Computing in Python. Proceedings of the 9th Python in Science Conference. 1:56-61. https://doi.org/10.25080/majora-92bf1922-00a DOI: https://doi.org/10.25080/Majora-92bf1922-00a
MELO, O.A.; VARGAS, R. 2003. Evaluación ecológica y silvicultural de ecosistemas boscosos. Universidad del Tolima, CRG, carder, corpocaldas, cortolima. Ibagué, Colombia. p.222
MUÑOZ, D.A.; DUEÑAS, M.C.; VILLEGAS, X.F.; MURCIA., U.G.; URIBE, C.; ARIAS, L.; SIERRA, P.; HERRERA, I.; CASTRO, W.; HERNÁNDEZ, V.; BENAVIDES, J. 2007. Sistema de información ambiental de Colombia-SIAC Marco Conceptual del SIAC: Aplicación del enfoque ecosistémico. 1-197. Disponible desde Internet en: https://www.siac.gov.co/portal/default.aspx
MUSVUUGWA, T.; DLOMU, M.G.; ADEBOWALE, A. 2021. Big data in biodiversity science: A framework for engagement. Technologies. 9(3):60. https://doi.org/10.3390/technologies9030060 DOI: https://doi.org/10.3390/technologies9030060
NAKAMURA, K.; HORI, K.; HIROSE, S. 2021. Algebraic fault analysis of sha-256 compression function and its application. Information. 12(10):433. https://doi.org/10.3390/info12100433 DOI: https://doi.org/10.3390/info12100433
NOREÑA-P., A.; GONZÁLEZ MUÑOZ, A.; MOSQUERA-RENDÓN, J.; BOTERO, K.; CRISTANCHO, M.A. 2018. Colombia, an unknown genetic diversity in the era of Big Data. BMC Genomics. 19:859. https://doi.org/10.1186/s12864-018-5194-8 DOI: https://doi.org/10.1186/s12864-018-5194-8
ORGANIZACIÓN DE LAS NACIONES UNIDAS, ONU. 1998. Protocolo de Kyoto de la convención marco de las naciones unidas sobre el cambio climático. 24p.
ORGANIZACIÓN DE LAS NACIONES UNIDAS, ONU. 2018. La Agenda 2030 y los objetivos de desarrollo sostenible una oportunidad para América Latina y el Caribe. Naciones Unidas. 89p. Disponible desde Internet en: https://repositorio.cepal.org/bitstream/handle/11362/40155/24/S1801141_es.pdf
PIMENTEL, J.F.; MURTA, L.; BRAGANHOLO, V.; FREIRE, J. 2019. A large-scale study about quality and reproducibility of jupyter notebooks. IEEE International Working Conference on Mining Software Repositories. 507-517. https://doi.org/10.1109/MSR.2019.00077 DOI: https://doi.org/10.1109/MSR.2019.00077
POSTGRESQL GLOBAL DEVELOPMENT GROUP. 2022. PostgreSQL 13.3. Disponible desde Internet en: https://www.postgresql.org
PÖTTKER, M.; KIEHL, K.; JARMER, T.; TRAUTZ, D. 2023. Convolutional neural network maps plant communities in semi-natural grasslands using multispectral unmanned aerial vehicle imagery. Remote Sensing. 15(7). https://doi.org/10.3390/rs15071945 DOI: https://doi.org/10.3390/rs15071945
PYTHON SOFTWARE FOUNDATION. 2022. cpython. Disponible desde Internet en: https://github.com/python/cpython/tree/3.10
RACCOON, T.; PHAM, H. 2022. TablePlus. Disponible desde Internet en: https://tableplus.com/
ROBERTS, J.F.; MWANGI, R.; MUKABI, F.; NJUI, J.; NZIOKA, K.; NDAMBIRI, J.K.; BISPO, P.C.; ESPIRITO-SANTO, F.D.B.; GOU, Y.; JOHNSON, S.C.M.; LOUIS, V.; RODRIGUEZ-VEIGA, P.; TANSEY, K.; UPTON, C.; ROBB, C.; BALZTER, H. 2022. Pyeo: A Python package for near-real-time forest cover change detection from Earth observation using machine learning. Computers and Geosciences. 167:105192. https://doi.org/10.1016/j.cageo.2022.105192 DOI: https://doi.org/10.1016/j.cageo.2022.105192
R DEVELOPMENT CORE TEAM. 1993. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. Disponible desde Internet en: https://www.R-project.org/
SENTERRE, B.; WAGNER, M. 2016. Standardization of data collection and creation of a biodiversity database: a PostgreSQL-PostGIS database for Island Conservation Society (Seychelles). https://doi.org/10.13140/RG.2.2.10370.27844
SHIN, D.H.; CHOI, M. 2015. Ecological views of big data: Perspectives and issues. Telematics and Informatics. 32(2):311-320. https://doi.org/10.1016/j.tele.2014.09.006 DOI: https://doi.org/10.1016/j.tele.2014.09.006
SIERRA, C.A.; MAHECHA, M.; POVEDA, G.; ÁLVAREZ-DÁVILA, E.; GUTIERREZ-VELEZ, V.H.; REU, B.; FEILHAUER, H.; ANÁYA, J.; ARMENTERAS, D.; BENAVIDES, A.M.; BUENDIA, C.; DUQUE, Á.; ESTUPIÑAN-SUAREZ, L.M.; GONZÁLEZ, C.; GONZALEZ-CARO, S.; JIMENEZ, R.; KRAEMER, G.; LONDOÑO, M.C.; ORREGO, S.A.; SKOWRONEK, S. 2017. Monitoring ecological change during rapid socio-economic and political transitions: Colombian ecosystems in the post-conflict era. Environmental Science and Policy. 76:40-49. https://doi.org/10.1016/j.envsci.2017.06.011 DOI: https://doi.org/10.1016/j.envsci.2017.06.011
SISTEMA DE INFORMACIÓN SOBRE BIODIVERSIDAD DE COLOMBIA, SIB. 2017. Crear compartir transformar. Una guía con herramientas para comprender y participar en las dinámicas del acceso abierto. SiB Colombia. Disponible desde Internet en: http://www.sibcolombia.net/nosotros/acceso-abierto/ABC.pdf%0A
SOLTIS, D.E.; SOLTIS, P.S. 2016. Mobilizing and integrating big data in studies of spatial and phylogenetic patterns of biodiversity. Plant Diversity. 38(6):264-270. https://doi.org/10.1016/j.pld.2016.12.001 DOI: https://doi.org/10.1016/j.pld.2016.12.001
SVOB, S.; ARROYO, J.P.; KALACSKA, M. 2014. The development of a forestry geodatabase for natural forest management plans in Costa Rica. Forest Ecology and Management. 327:240-250. https://doi.org/10.1016/j.foreco.2014.05.024 DOI: https://doi.org/10.1016/j.foreco.2014.05.024
TRIANA-VALLEJOS, J.A.; BAILÓN-AIJÓN, C.; CIFUENTES-CASTELLANOS, J.M. 2022. Morphological description and molecular characterization of fungi associated with the root of Masdevallia coccinea Linden ex Lindl. Revista U.D.C.A Actualidad and Divulgacion Cientifica. 25(1):e2098. https://doi.org/10.31910/rudca.v25.n1.2022.2098 DOI: https://doi.org/10.31910/rudca.v25.n1.2022.2098
VAN ROSSUM, G. 1995. Python tutorial, Technical Report CS-R9526. Centrum Voor Wiskunde En Informatica (CWI). Disponible desde Internet en: https://ir.cwi.nl/pub/5007/05007D.pdf
WÄGELE, J.W.; BODESHEIM, P.; BOURLAT, S.J.; DENZLER, J.; DIEPENBROEK, M.; FONSECA, V.; FROMMOLT, K.H.; GEIGER, M.F.; GEMEINHOLZER, B.; GLÖCKNER, F.O.; HAUCKE, T.; KIRSE, A.; KÖLPIN, A.; KOSTADINOV, I.; KÜHL, H.S.; KURTH, F.; LASSECK, M.; LIEDKE, S.; LOSCH, F.; WILDERMANN, S. 2022. Towards a multisensor station for automated biodiversity monitoring. Basic and Applied Ecology. 59:105-138. https://doi.org/10.1016/j.baae.2022.01.003 DOI: https://doi.org/10.1016/j.baae.2022.01.003