DBpedia

progetto per l'estrazione di informazioni strutturate da Wikipedia

DBpedia è un progetto nato nel 2007 con lo scopo di estrarre informazioni strutturate da Wikipedia e pubblicarle sul Web come Linked Open Data in formato RDF.

DBpedia
software
Logo
Logo
Schermata di esempio
Schermata di esempio
GenereWeb semantico (non in lista)
SviluppatoreUniversità di Mannheim
Università di Lipsia
Freie Universität Berlin
OpenLink Software
Data prima versione10 gennaio 2007
Ultima versioneDBpedia 2014 (9 settembre 2014[1])
Sistema operativo
LinguaggioJava
Scala
LicenzaGNU General Public License
(licenza libera)
Sito webdbpedia.org/

Background modifica

Il progetto è stato avviato da persone della Libera Università di Berlino e dell'Università di Lipsia[2] in collaborazione con OpenLink Software, ed è ora gestito da persone dell'Università di Mannheim e dell'Università di Lipsia[3]. Il primo set di dati disponibile pubblicamente è stato pubblicato nel 2007[2]. I dati sono resi disponibili sotto licenze libere (CC-BY-SA), consentendo ad altri di riutilizzare il set di dati; tuttavia non utilizza una licenza open data per rinunciare ai diritti sui generis database.

Gli articoli di Wikipedia sono costituiti principalmente da testo libero, ma includono anche informazioni strutturate incorporate negli articoli, come le tabelle "infobox" (i pannelli estraibili che appaiono in alto a destra nella visualizzazione predefinita di molti articoli di Wikipedia, o all'inizio delle versioni mobile), informazioni sulla categorizzazione, immagini, coordinate geografiche e collegamenti a pagine Web esterne. Queste informazioni strutturate vengono estratte e inserite in un set di dati uniforme che può essere interrogato.

Set di dati modifica

La versione 2016-04 del set di dati DBpedia descrive 6,0 milioni di entità, di cui 5,2 milioni sono classificate in un'ontologia coerente, inclusi 1,5 milioni di persone, 810.000 posti, 135.000 album musicali, 106.000 film, 20.000 videogiochi, 275.000 organizzazioni, 301.000 specie e 5.000 malattie[4]. DBpedia utilizza il Resource Description Framework (RDF) per rappresentare le informazioni estratte e consiste di 9,5 miliardi di triple RDF, di cui 1,3 miliardi sono stati estratti dall'edizione inglese di Wikipedia e 5,0 miliardi da edizioni in altre lingue[4].

Una delle sfide nell'estrarre informazioni da Wikipedia è che gli stessi concetti possono essere espressi utilizzando parametri diversi in infobox e altri modelli, come |birthplace=e |placeofbirth=. Per questo motivo, le domande su dove sono nate le persone dovrebbero cercare entrambe queste proprietà per ottenere risultati più completi. Di conseguenza, il linguaggio di mappatura DBpedia è stato sviluppato per aiutare a mappare queste proprietà su un'ontologia riducendo il numero di sinonimi. A causa della grande diversità di infobox e proprietà in uso su Wikipedia, il processo di sviluppo e miglioramento di queste mappature è stato aperto ai contributi pubblici.

La versione 2014 è stata rilasciata nel settembre 2014. Un cambiamento principale rispetto alle versioni precedenti è stato il modo in cui venivano estratti i testi astratti. In particolare, l'esecuzione di un mirror locale di Wikipedia e il recupero di abstract renderizzati da esso hanno reso i testi estratti notevolmente più puliti. Inoltre, è stato introdotto un nuovo set di dati estratto da Wikimedia Commons.

Esempi modifica

DBpedia estrae informazioni fattuali dalle pagine di Wikipedia, consentendo agli utenti di trovare risposte alle domande in cui le informazioni sono distribuite su più articoli di Wikipedia. Si accede ai dati utilizzando un linguaggio di query simile a SQL per RDF chiamato SPARQL. Ad esempio, immagina di essere interessato alla serie di manga shōjo giapponese Tokyo Mew Mew e di voler trovare i generi di altre opere scritte dal suo illustratore. DBpedia combina informazioni dalle voci di Wikipedia su Tokyo Mew Mew, Mia Ikumi e su opere come Super Doll Licca-chan e Koi Cupid. Poiché DBpedia normalizza le informazioni in un unico database, la seguente query può essere richiesta senza la necessità di sapere esattamente quale voce contiene ogni frammento di informazioni e elencherà i generi correlati:

PREFIX dbprop: <http://dbpedia.org/ontology/>
PREFIX db: <http://dbpedia.org/resource/>
SELECT ?who, ?WORK, ?genre WHERE {
 db:Tokyo_Mew_Mew dbprop:author ?who .
 ?WORK  dbprop:author ?who .
 OPTIONAL { ?WORK dbprop:genre ?genre } .
}

Casi d'uso modifica

DBpedia ha una vasta gamma di entità che coprono diverse aree della conoscenza umana[5]. Questo lo rende un hub naturale per la connessione di set di dati, dove i set di dati esterni potrebbero collegarsi ai suoi concetti. Il dataset di DBpedia è interconnesso a livello RDF con vari altri dataset di Open Data sul web. Ciò consente alle applicazioni di arricchire i dati DBpedia con i dati di questi set di dati. A partire da settembre 2013, ci sono più di 45 milioni di interlink tra DBpedia e set di dati esterni tra cui:

L'iniziativa di Thomson Reuters OpenCalais , il progetto Linked Open Data del New York Times , Zemanta API e DBpedia Spotlight includono anche collegamenti a DBpedia. La BBC utilizza DBpedia per aiutare a organizzare il suo contenuto. Faviki usa DBpedia per la codifica semantica. Samsung include anche DBpedia nel suo"Piattaforma di condivisione della conoscenza".

Una fonte così ricca di conoscenza strutturata cross-domain è un terreno fertile per i sistemi di intelligenza artificiale. DBpedia è stato utilizzato come una delle fonti di conoscenza nell’IBM Watson's Jeopardy![6]

Amazon fornisce un set di dati pubblici DBpedia che può essere integrato nelle applicazioni Amazon Web Services.

I dati sui creatori di DBpedia possono essere utilizzati per arricchire le osservazioni di vendita delle opere d'arte.

La società di software di crowdsourcing, Ushahidi, ha costruito un prototipo del suo software che ha sfruttato DBpedia per eseguire annotazioni semantiche sui rapporti generati dai cittadini. Il prototipo incorporava il servizio "YODIE"[7] (Yet another Open Data Information Extraction system) sviluppato dall'Università di Sheffield, che utilizza DBpedia per eseguire le annotazioni. L'obiettivo per Ushahidi era quello di migliorare la velocità e la facilità con cui potevano essere gestiti i rapporti in arrivo[8].

DBpedia Spotlight modifica

DBpedia Spotlight è uno strumento per annotare citazioni di risorse DBpedia nel testo. Ciò consente di collegare fonti di informazioni non strutturate al cloud Linked Open Data tramite DBpedia. DBpedia Spotlight esegue l'estrazione di entità denominate, incluso il rilevamento di entità e la risoluzione dei nomi (in altre parole, disambiguazione). Può anche essere utilizzato per il riconoscimento di entità denominate e altre attività di estrazione di informazioni. DBpedia Spotlight mira a essere personalizzabile per molti casi d'uso. Invece di concentrarsi su alcuni tipi di entità, il progetto si sforza di supportare l'annotazione di tutti i 3,5 milioni di entità e concetti da più di 320 classi in DBpedia. Il progetto è iniziato nel giugno 2010 presso ilWeb Based Systems Group presso la Libera Università di Berlino.

DBpedia Spotlight è disponibile pubblicamente come servizio Web per i test e un'API Java / Scala concessa in licenza tramite la licenza Apache. La distribuzione Spotlight di DBpedia include un plug-in jQuery che consente agli sviluppatori di annotare le pagine ovunque sul Web aggiungendo una riga alla loro pagina. I client sono disponibili anche in Java o PHP[9]. Lo strumento gestisce varie lingue attraverso la sua pagina demo[10] e i servizi web. L'internazionalizzazione è supportata per qualsiasi lingua che abbia un'edizione di Wikipedia[11].

Storia modifica

DBpedia è stato avviato nel 2007 da[2]:

  • Sören Auer
  • Christian Bizer
  • Georgi Kobilarov
  • Jens Lehmann
  • Richard Cyganiak
  • Zachary Ives

Note modifica

  1. ^ DBpedia 2014 released, su blog.dbpedia.org.
  2. ^ a b c DBpedia: A Nucleus for a Web of Open Data, available at [1], [2], or [3]
  3. ^ Copia archiviata, su wiki.dbpedia.org. URL consultato il 13 marzo 2021 (archiviato dall'url originale il 25 ottobre 2020).
  4. ^ a b YEAH! We did it again ;) – New 2016-04 DBpedia release, su blog.dbpedia.org, DBpedia, 19 ottobre 2016. URL consultato il 9 gennaio 2019.
  5. ^ E. Curry, A. Freitas, and S. O’Riáin, "The Role of Community-Driven Data Curation for Enterprises," Archiviato il 23 gennaio 2012 in Internet Archive. in Linking Enterprise Data, D. Wood, Ed. Boston, MA: Springer US, 2010, pp. 25-47.
  6. ^ David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer, and Chris Welty "Building Watson: An Overview of the DeepQA Project." Archiviato il 6 novembre 2020 in Internet Archive. In AI Magazine Fall, 2010. Association for the Advancement of Artificial Intelligence (AAAI).
  7. ^ GATE.ac.uk - applications/yodie.html, su gate.ac.uk. URL consultato l'11 maggio 2020.
  8. ^ (EN) ushahidi/platform-comrades, su GitHub. URL consultato il 9 marzo 2020.
  9. ^ Rob DiCiuccio, PHP Client for DBpedia Spotlight, in GitHub, 25 settembre 2016.
  10. ^ Demo of DBpedia Spotlight, su dbpedia-spotlight.github.io. URL consultato l'8 settembre 2013.
  11. ^ Internationalization of DBpedia Spotlight, su github.com. URL consultato l'8 settembre 2013.

Voci correlate modifica

Altri progetti modifica

Collegamenti esterni modifica

  Portale Internet: accedi alle voci di Wikipedia che trattano di internet