Indice di Jaccard

L'indice di Jaccard, noto anche come coefficiente di similarità di Jaccard (originariamente denominato coefficient de communauté da Paul Jaccard), è un indice statistico utilizzato per confrontare la similarità e la diversità di insiemi campionari.

Il coefficiente di Jaccard misura la similarità tra insiemi campionari, ed è definito come la dimensione dell'intersezione divisa per la dimensione dell'unione degli insiemi campionari:

J(A,B)={{|A\cap B|} \over {|A\cup B|}}.

La distanza di Jaccard, che misura la dissimilarità tra insiemi campionari, è complementare al coefficiente di Jaccard e si ottiene sottraendo il coefficiente di Jaccard da 1, o, in modo equivalente, dividendo la differenza delle dimensioni dell'unione e dell'intersezione di due insiemi per la dimensione dell'unione:

J_{\delta }(A,B)=1-J(A,B)={{|A\cup B|-|A\cap B|} \over |A\cup B|}.

Questa distanza è propriamente una metrica^[1].

Similarità degli attributi binari asimmetrici modifica

Dati due oggetti, A e B, ciascuno con n attributi binari, l'indice di Jaccard è un'utile misura della sovrapposizione che A e B condividono con i loro attributi.
Ogni attributo di A e B può essere 0 oppure 1. Il numero totale di ogni combinazione di attributi sia per A che per B è specificato come segue:

M_{11}

rappresenta il numero totale di attributi dove A e B hanno entrambi valore 1.

M_{01}

rappresenta il numero totale di attributi dove l'attributo di A è 0 e l'attributo di B è 1.

M_{10}

rappresenta il numero totale di attributi dove l'attributo di A è 1 e l'attributo di B è 0.

M_{00}

rappresenta il numero totale di attributi dove A e B hanno entrambi valore 0.

Ogni attributo deve ricadere in una di queste quattro categorie, il che significa che:

M_{11}+M_{01}+M_{10}+M_{00}=n.

Il coefficiente di similarità di Jaccard, J, è dato da

J={M_{11} \over M_{01}+M_{10}+M_{11}}.

La distanza di Jaccard, J', è data invece da

J'={M_{01}+M_{10} \over M_{01}+M_{10}+M_{11}}.

Coefficiente di Tanimoto (coefficiente esteso di Jaccard) modifica

Il coseno di similitudine è una misura di similarità tra due vettori di n dimensioni trovando l'angolo tra di essi, utilizzato spesso per confrontare i documenti nel text mining. Dati due vettori di attributi, A e B, il coseno di similitudine, cos(θ), si rappresenta usando un prodotto scalare e una magnitudine come

\cos(\theta )={A\cdot B \over \|A\|\|B\|}.

Per la corrispondenza tra i testi, i vettori attributo A e B sono di solito i vettori tf-idf dei documenti.

Poiché l'angolo θ è nell'intervallo di [0, π], la similarità risultante produrrà il valore di −1 che significa esattamente opposto, 0 che significa indipendente, +1 che significa esattamente lo stesso, con i valori intermedi che indicano similarità o dissimilarità intermedie.

Questa metrica del coseno di similitudine può essere estesa in modo tale da produrre il coefficiente di Jaccard nel caso di attributi binari. Si ottiene così il coefficiente di Tanimoto T(A, B), rappresentato da

T(A,B)={A\cdot B \over \|A\|^{2}+\|B\|^{2}-A\cdot B}.

Note modifica

^ Alan H Lipkus, A proof of the triangle inequality for the Tanimoto distance, in J Math Chem, vol. 26, n. 1-3, 1999, pp. 263–265.

Bibliografia modifica

Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining (2005), ISBN 0-321-32136-7
Paul Jaccard (1901) Étude comparative de la distribution florale dans une portion des Alpes et des Jura. Bulletin de la Société Vaudoise des Sciences Naturelles 37, 547–579.
Tanimoto, T.T. (1957) IBM Internal Report 17th Nov. 1957.

Voci correlate modifica

Quoziente di similarità di Sørensen
Indice di similarità di Mountford
Distanza di Hamming
Coefficiente di Dice, che è equivalente a: $J=D/(2-D)$ e $D=2J/(1+J)$
Correlazione (statistica)
Informazione mutua, una cui variante metricata normalizzata è una distanza entropica di Jaccard.

Collegamenti esterni modifica

Jaccard's index and species diversity, su cals.ncsu.edu. URL consultato il 16 novembre 2010 (archiviato dall'url originale il 7 agosto 2007).
Example of Jaccard's coefficient, su people.revoledu.com.
Introduction to Data Mining lecture notes from Tan, Steinbach, Kumar (PDF), su www-users.cs.umn.edu.
https://sourceforge.net/projects/simmetrics/ SimMetrics a sourceforge implementation of Jaccard index and many other similarity metrics
Web based tool for comparing texts using Jaccard coefficient, su text-mining.info. URL consultato il 16 novembre 2010 (archiviato dall'url originale il 10 novembre 2010).

[1] Alan H Lipkus, A proof of the triangle inequality for the Tanimoto distance, in J Math Chem, vol. 26, n. 1-3, 1999, pp. 263–265.

[1]