La tecnica illustrata e' a livello di conteggio di parole. Funziona perche le parole portano con se' il significato. Tuttavia ci sono vari aspetti ancora da considerare.
![]() | Vengono eliminate le "stop words", quelle parole comuni come articoli, pronomi, verbi ausiliari, congiunzioni che sono presenti ovunque. |
![]() | Si usano le radici delle parole e non le forme flesse. (Usando un analizzatore morfologico). |
![]() | Si considerano come termini non solo parole singole ma anche occorrenze di coppie di parole che compaiono vicine nel testo. |
![]() | Si possono gestire i sinonimi o gerarchie di parole. (Vedi WORDNET) |
![]() | Si possono uisare delle metriche che pesano di piu' certi termini significativi nel calcolo della distanza fra vettori. |
![]() | Comunque l' information retrieval per ora non si basa su tecniche linguistiche vere e proprie. |