COVID19DS - Heinz Nixdorf Institut (HNI)

Über die Demo

Die rasche Generierung großer Mengen an Informationen über das neuartige Coronavirus SARS-CoV-2 und die Krankheit COVID-19 macht es zunehmend schwieriger, einen umfassenden Überblick über die aktuellen Erkenntnisse im Zusammenhang mit dieser Krankheit zu gewinnen. Dies gilt insbesondere für die wissenschaftliche Forschung, die eine wachsende Zahl von Veröffentlichungen Erkenntnisse liefert, die die Entwicklung eines Heilmittels oder Impfstoffs unterstützen könnten. Mit dieser Arbeit wollen wir den schnellen Zugang zu einer umfassenden Datenquelle über COVID-19 unterstützen, die sich insbesondere an Forscher richtet. Unser Datensatz, Covid-19-DS, ein RDF-Wissensgraph wissenschaftlicher Publikationen, entspricht den Prinzipien von Linked Data und FAIR. Der Basisdatensatz für die Extraktion ist CORD-19, ein Datensatz von COVID-19-bezogenen Veröffentlichungen, der regelmäßig aktualisiert wird. Folglich wird Covid-19-DS in regelmäßigen Abständen aktualisiert. Unsere Generierungspipeline wendet Named-Entity-Recognition, Entity-Linking und Link-Discovery-Ansätze auf die Originaldaten an. Die aktuelle Version des resultierenden Datensatzes enthält 69.434.763 Tripel und ist mit über 1 Million Links mit 9 anderen Datensätzen verbunden. In einer Fallstudie demonstrieren wir die Nützlichkeit unseres Wissensgraphen für verschiedene Anwendungen. Auf Covid-19-DS kann als RDF-Dump, SPARQL-Endpunkt und über einen HTML-Endpunkt zugegriffen werden. Alle von uns generierten Daten sind unter der CC BY-NC-Lizenz verfügbar. Die für die Extraktion entwickelte Software ist unter der GPL 3.0-Lizenz verfügbar.

Die Zahl der Veröffentlichungen zu SARS-CoV-2 und COVID-19 ist in den letzten Monaten sprunghaft angestiegen, so dass es schwierig ist, den Überblick über die neuesten Forschungsergebnisse zu diesem Thema zu behalten.
Daher hat das Allen Institute ein wachsendes Korpus von Veröffentlichungen über COVID-19 mit der Bezeichnung CORD-19 initiiert, das regelmäßig aktualisiert wird. Wir präsentieren Covid-19-DS, einen umfassenden RDF-Wissensgraphen zu COVID-19 auf der Grundlage von CORD-19.Wir stellen eine detaillierte Darstellung der COVID-19-Publikationen in RDF zur Verfügung, die Eigenschaften wie Publikationstitel, Autorennamen und ihre Institutionen, Abschnitte (z.B. Abstract, Einleitung, Hauptteil, Diskussion usw.) und kommentierte Referenzen (z.B. Verweise auf Abbildungen) enthält.Ressourcen wie Autoren und benannte Entitäten ergänzen die Originaldaten und erleichtern deren Verarbeitung für die Beantwortung von Fragen und maschinelles Lernen. Alle Ressourcen im Datensatz sind dereferenzierbare HTTP IRIs, die über LodView 5 oder über den SPARQL-Endpunkt des Datensatzes aufgerufen werden können. Darüber hinaus verknüpfen wir unseren Datensatz mit den biomedizinischen Entitäten in anderen relevanten Datensätzen (z. B. DrugBank, Sider, Kegg).

RDF-Datenmodell

Namespaces

In COVID19-DS verwenden wir die folgenden Namespaces:

@prefix cvdr: <https://covid-19ds.data.dice-research.org/resource/> .

@prefix cvdo: <https://covid-19ds.data.dice-research.org/ontology/> .

@prefix bibo: <http://purl.org/ontology/bibo/> .

@prefix bibtex: <http://purl.org/net/nknouf/ns/bibtex#> .

@prefix dcterms: <http://purl.org/dc/terms/> .

@prefix fabio: <http://purl.org/spar/fabio/> .

@prefix foaf: <http://xmlns.com/foaf/0.1/> .

@prefix its: <http://www.w3.org/2005/11/its/rdf#> .

@prefix nif: <http://persistence.uni-leipzig.org/nlp2rdf/ontologies/nif-core#> .

@prefix prov: <http://www.w3.org/ns/prov#> .

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .

@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

@prefix schema: <http://schema.org/> .

@prefix sdo: <http://salt.semanticauthoring.org/ontologies/sdo#> .

@prefix swc: <http://data.semanticweb.org/ns/swc/ontology#> .

@prefix vcard: <http://www.w3.org/2006/vcard/ns#> .

@prefix xml: <http://www.w3.org/XML/1998/namespace> .

@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

@prefix inria: <http://ns.inria.fr/covid19/> .

@prefix ncbi: <https://www.ncbi.nlm.nih.gov/pmc/articles/> .

@prefix pubnt: <http://pubannotation.org/docs/sourcedb/CORD-19/sourceid/> .

@prefix ldf: <https://data.linkeddatafragments.org/> .

@prefix fccc: <https://fhircat.org/cord-19/fhir/Commercial/Composition/> .

@prefix makg: <http://ma-graph.org/property/> .

RDF-Beispiel Ressource

cvdr:pmc1616946 a swc:Paper, bibo:AcademicArticle, fabio:ResearchPaper, schema:ScholarlyArticle ; dcterms:license "cc-by-nc" ; dcterms:title "Antisense-induced ribosomal frameshifting" ; bibtex:hasAuthor cvdr:christineAnderson, cvdr:clarkHenderson, cvdr:michaelHoward ; bibtex:hasJournal "Nucleic Acids Res" ; bibo:doi "10.1093/nar/gkl531" ; bibo:pmid "16920740" ; fabio:hasPubMedCentralId "PMC1616946" ; schema:url ncbi:PMC1616946 ; rdfs:seeAlso fccc:c1ad13d83e926979dbf2bbe52e4944082f28dfea.json ; owl:sameAs inria:c1ad13d83e926979dbf2bbe52e4944082f28dfea, inria:pmc1616946, pubnt:c1ad13d83e926979dbf2bbe52e4944082f28dfea, ldf:covid19?object=http%3A%2F%2Fidlab.github.io%2Fcovid19%23c1ad13 d83e926979dbf2bbe52e4944082f28dfea>, fccc:c1ad13d83e926979dbf2bbe52e4944082f28dfea.ttl, ncbi:pmc1616946 ; prov:hadPrimarySource cvdr:cord19Dataset ; foaf:sha1 "c1ad13d83e926979dbf2bbe52e4944082f28dfea" ; cvdo:cordUid "xgwbl8em" ; cvdo:hasBody cvdr:pmc1616946_Body ; cvdo:hasDiscussion cvdr:pmc1616946_Discussion ; cvdo:hasIntroduction cvdr:pmc1616946_Introduction ; cvdo:publishTime "2006-08-18" ; cvdo:sourceX "PMC" . cvdr:pmc1616946_Introduction a cvdo:PaperIntroduction ; cvdo:hasSectionv cvdr:pmc1616946_Section1, cvdr:pmc1616946_Section2, cvdr:pmc1616946_Section3, cvdr:pmc1616946_Section4, cvdr:pmc1616946_Section5, cvdr:pmc1616946_Section6 .

Beispiel für die Darstellung eines Abschnitts

cvdr:pmc1616946_Section1 a sdo:Section ; nif:isString "The standard triplet readout of the genetic code can be reprogrammed by signals in the mRNA to induce ribosomal frameshifting [reviewed in (1-3)]." ; bibtex:hasTitle "INTRODUCTION" .

Beispiel für einen Verweis auf eine Arbeit und den zugehörigen Bibtex-Eintrag

cvdr:PMC1616946_Section1_B1_1 a nif:Phrase ; nif:anchorOf "1" ; nif:beginIndex "140"^^xsd:nonNegativeInteger ; nif:endIndex "141"^^xsd:nonNegativeInteger ; nif:referenceContext cvdr:PMC1616946_Section1 ; its:taIdentRef cvdr:PMC1616946_B1_1 . cvdr:PMC1616946_B1_1 a bibtex:Entry ; bibtex:Inbook "159-183" ; bibtex:hasAuthor cvdr:DMDunn, cvdr:JFAtkins, cvdr:RBWeiss, cvdr:RFGesteland ; bibtex:hasTitle "Ribosomal frameshifting from -2 to +50 nucleotides"; bibtex:hasVolume "39" ; bibtex:hasYear 1990 ; schema:EventVenue "Prog. Nucleic Acid Res. Mol. Biol." .

Herkunftsangaben für den nichtkommerziellen Datensatz

cvdr:cord19Dataset a prov:Entity ; prov:generatedAtTime "2020-05-21T02:52:02+00:00"^^xsd:dateTime ; prov:wasDerivedFrom "https://ai2-semanticscholar-cord-19.s3-us-west-2.amazon aws.com/latest/document_parses.tar.gz" .

Sparql-Endpunkt

Wir stellen unseren endgültigen RDF-Datensatz über unseren SPARQL-Endpunkt-Link öffentlich zur Verfügung. Einige Beispielabfragen sind unten aufgeführt.

List all paper URIs written by the author “Ian Mackay.”

SELECT DISTINCT ?paper WHERE { ?paper bibtex:hasAuthor ?author . ?author foaf:firstName "Ian" . ?author foaf:lastName "Mackay" . }

List the top 10 papers-URIs with the most number of authors.

SELECT ?author count( * ) as ?cnt WHERE { ?paper a swc:Paper . ?paper bibtex:hasAuthor ?author . } ORDER BY DESC(?cnt) LIMIT 10

List all papers and sections mentioning “folic acid.”

SELECT DISTINCT ?paper ?section WHERE { ?s nif:anchorOf "folic acid" . ?s nif:referenceContext ?section . ?body cvdo:hasSection ?section . ?paper cvdo:hasBody ?body . }

SPARQL example for retieving more data via interlinking with MAKG

SELECT DISTINCT ?name ?paperCount ?citationCount WHERE { ?paper a swc:Paper. ?paper bibtex:hasAuthor ?author . ?author owl:sameAs ?maAuthor. SERVICE <http://ma-graph.org/sparql> { ?maAuthor makg:paperCount ?paperCount . ?maAuthor makg:citationCount ?citationCount. ?maAuthor foaf:name ?name. } } LIMIT 100