New position

I am working as a Bioinformatician at Biocruces Bizkaia, funded by ISCIII.

Advertisements

Guerra civil en Euskadi y Linked Data

Hemos presentado una web al último concurso de Open Data Euskadi sobre reutilización de datos. A destacar el hecho de haber usado RDF y Linked Data para integrar diferentes fuentes de datos.

http://guerracivileuskadi.eurohelp.es/

Modelo de calidad de datos para portales Open Data

 

Según mi experiencia muchos portales Open Data contienen datasets con errores graves. Esos errores se introducen al producir el dato en cada departamento (medio ambiente, economía, etc) y no hay un control directo. Sin embargo, ese el problema más importante a resolver, ya que si los datos no son de una calidad mínima no son reusables, por muy sofisticadas que sean las tecnologías con las que se sirven los datos (API REST, Linked Data, etc.).

Es un problema de muy difícil solución, ya que no hay manera de obligar a los departamentos a producir datos de calidad. Sin embargo, una cosa que igual sí se podría hacer, es definir un modelo de calidad de datos con unos niveles de este estilo:

Nivel 1: nadie ha supervisado los datos, pueden tener todo tipo de errores (o no, a saber).

Nivel 2: un desarrollador ha mirado los datos, y se ha asegurado de que por los menos el “formato” sea correcto, aunque no haya analizado los datos en sí: por ejemplo que no haya celdas bailadas.

Nivel 3: un experto en el dominio concreto de los datos (ej. calidad del aire) los ha mirado, y aparte de asegurarse de que se cumple con el nivel 2, se ha asegurado también de que los datos en sí son de calidad. Por ejemplo, una celda que tiene una concentracion de NO2 de 5000 cumpliría con el “formato” de los datos, por que la columna se llama NO2, pero igual el valor 5000 es erróneo dese el punto de vista de los datos en sí (Igual debería ser 4500 teniendo en cuenta la estación del año).

De modo que se podrían crear badges para meter en cada ficha del dataset, para que el reusador por lo menos sepa qué tiene entre manos. También sería una manera de presionar a cada productor de datos para que los produzca de mejor calidad.

 

Tagged ,

Useful docs on URIs, httpRange-14, conneg, etc.

Creating proper URIs for information and non-information resources, and designing a system arcquitecture accordingly is a messy business. Some pointers for future reference:

Minitutorial sobre Schema.org

He añadido las slides de un pequeño tutorial que voy a dar sobre Schema.org y cómo usarlo para añadir datos estructurados en páginas web. Schema es interesante por que es la primera “ontología” de la Web Semántica que se adopta masivamente (De ahí la charla “Light at the end of the tunnel” de Ramanathan V. Guha, uno de los creadores de RDF) y se apoya mucho en JSON-LD, otro lenguaje “puente” entre la Web Semántica y la Web “Ordinaria” (una diferenciación que cada día tiene menos sentido, ya que ya usamos la Web Semántica en cada búsqueda que hacemos en google). Este tutorial es parte del proyecto Servicios OpenLinkedData, uno de los mayores proyectos de implantación de Linked Data en administraciones públicas.

Actualización: el contenido de este trabajo se irá colgando en el repositorio GitHub de Open Data Euskadi.

GigaScience´s Impact Factor

Even though the editors of GigaScience don’t like Impact Factors (and I agree with them), GigaScience has received a very high Impact Factor, 7.46. I’m quite happy since we published a paper in GigaScience last year, Enhanced reproducibility of SADI web service workflows with Galaxy and Docker.

Tagged , , , , , , , , , , ,

Transforming CSV data to RDF with Grafter

Part of my work is to develop pipelines to transform already existing Open Data (Usually CSVs in some data portal, like CKAN) into RDF and hopefully Linked Data. If I have to do the transformation myself, interactively, I normally use Google Refine with the RDF plugin. However, what I need now is a batch pipeline that I can plug into a bigger Java platform.

Therefore, I’m looking at Grafter. Even though I have never programmed in Clojure (or any other functional language whatsoever!), Grafter’s approach seems very sensible and intuitive. Additionally, I have always wanted to use Tawny-OWL, so probably it will be easier if I learn a bit of Clojure with Grafter first. Coming from Java/Perl/Python, the functional approach felt a bit weird in the beggining, but it actually makes more sense when defining pipelines to process data.

I have gone through the Grafter guide using Leiningen in Ubuntu 14.04. So far so good (I had to install Leiningen manually though, since Ubuntu’s Leiningen package was very outdated). In order to run the Grafter example in Eclipse (Mars), or any other Clojure program, one needs to install first the CounterClockWise plugin. Note that if you want to also use GitHub, like me, there is bug that prevents the project from being properly cloned, when you choose the “New project wizard”: I cloned with the General project wizard, copied the files from another Grafter project, and surprisingly it worked (trying to convert the project to Leiningen/Clojure didn’t work!).

My progress converting data obtained in Gipuzkoa Irekia to RDF can be seen at GitHub. Also, I’m aiming at adding Data Cube SPARQL constraints as Clojure test, here.

 

Tagged , , , , ,