Apache Tika: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Ziounclesi (discussione | contributi)
→‎Storia: link a Nutch
Atarubot (discussione | contributi)
template cita "xxxx"; rinomina/fix nomi parametri; converto template cite xxx -> cita xxx; fix formato data; elimino parametri vuoti
Riga 10:
}}
 
'''Apache Tika''' è un software per l'estrazione di dati e analisi dei contenuti, scritto in [[Java (linguaggio di programmazione)|Java]], gestito dalla [[Apache Software Foundation]].<ref>{{CiteCita web|url=http://tika.apache.org/|titletitolo=Apache Tika|access-dateaccesso=2016-04-15 aprile 2016}}</ref> E' in grado di trovare ed estrarre testo e metadati da oltre un migliaio di formati di file. E' disponibilie come libreria Java, in versione server e command line, pronto per essere richiamato da altri linguaggi di programmazione.
 
== Storia ==
In origine apparteneva al progetto Apache [[Nutch]], per l'identificazione di contenuti e l'estrazione di dati da internet per i [[web crawler]]. Successivamente divenne un sottoprogetto di [[Lucene]].
 
Nel 2007 divenne un progetto autonomo, per diventare una libreria richiamabile da qualunque sistema di gestione dei contenuti ([[Content Management System]]) e motore di ricerca. La versione autonoma è frutto del lavoro di Jérôme Charron, [[Chris Mattmann]] e Jukka Zitting.<ref>{{CiteCita web|url=http://wiki.apache.org/incubator/TikaProposal|titletitolo=Tika Proposal|access-dateaccesso=2016-04-15 aprile 2016}}</ref> Nel 2011 Chris Mattmann e Jukka Zitting hanno pubblicato il libro "Tika in Action", e il progetto ha rilasciato la versione 1.0.
 
== Caratteristiche ==
Tika ha la capacità di analizzare oltre more 1400 tipi di file tra quelli elencati dalla [[Internet Assigned Numbers Authority]] nei tipi [[MIME]].
Per la maggior parte dei formati comuni e diffusi,<ref>{{citeCita web|url=http://tika.apache.org/1.12/formats.html| titletitolo= The Apache Software Foundation| websitesito=Apache Tika formats page|accessdateaccesso=16 Aprilaprile 2016}}</ref> Tika fornisce l'estrazione del contenuto, dei [[metadati]] e l'identificazione della lingua.
 
Tika è scritto in Java, ma è usato da moltissimi altri linguaggi <ref>{{CiteCita web|url=https://wiki.apache.org/tika/API%20Bindings%20for%20Tika|titletitolo=API Bindings for Tika|lastcognome=|firstnome=|datedata=|website=|publishereditore=Apache Tika|access-dateaccesso=2016-04-17 aprile 2016}}</ref>. In particolare il server [[REST]] e la versione CLI consentono agli altri linguaggi di agganciarsi e sfruttare le potenzialità della libreria.
 
== Casi di utilizzo notevoli ==
Tika viene utilizzato nel mondo finanziario da istitui quali: [[Fair Isaac Corporation]] (FICO),<ref>{{CiteCita web|url=http://www.fico.com/en/newsroom/fico-to-engage-kaggles-community-of-180000-data-scientists-to-drive-innovation-in-the-fico-analytic-cloud|titletitolo=FICO to Engage Kaggle's Community of 180,000 Data Scientists to Drive Innovation in the FICO Analytic Cloud {{!}} FICO®|websitesito=FICO® {{!}} Decisions|access-dateaccesso=15 aprile 2016-04-15|archive-urlurlarchivio=https://web.archive.org/web/20160603111240/http://www.fico.com/en/newsroom/fico-to-engage-kaggles-community-of-180000-data-scientists-to-drive-innovation-in-the-fico-analytic-cloud|archive-datedataarchivio=3 giugno 2016-06-03|dead-url=yes}}</ref> Goldman Sachs,<ref>{{CiteCita news|url=http://www.informationweek.com/software/enterprise-applications/goldman-sachs-puts-elasticsearch-to-work/d/d-id/1321778|titletitolo=Goldman Sachs Puts Elasticsearch To Work - InformationWeek|workopera=InformationWeek|access-dateaccesso=21 giugno 2017-06-21|languagelingua=en}}</ref> [[NASA]] e ricercatori universitari<ref>{{CiteCita web|url=https://opensource.com/life/15/4/interview-annie-burgess-USC-JPL|titletitolo=Studying polar data with the help of Apache Tika|websitesito=Opensource.com|access-dateaccesso=15 aprile 2016-04-15}}</ref>
 
Il 4 aprile 2016 [[Forbes]] pubblicò un articolo<ref>{{CiteCita web|url=https://www.forbes.com/sites/thomasbrewster/2016/04/05/panama-papers-amazon-encryption-epic-leak|titletitolo=From Encrypted Drives To Amazon's Cloud -- The Amazing Flight Of The Panama Papers|lastcognome=Fox-Brewster|firstnome=Thomas|websitesito=Forbes|access-dateaccesso=15 aprile 2016-04-15}}</ref> in cui si cita Tika come una delle chiavi tecnologiche che consentirono a oltre 400 giornalisti di analizzare gli 11 milioni e passa documenti sfuggiti al controllo ufficiale (leak), noti come i [[Panama Papers]], e ricostruire le vicende scandalose di movimento di denaro ed evasione di personalità di alto profilo che utilizzavano i fondi offshore.
 
==Vedi anche ==