MARCIO.3000.IT :: Pillole :: Il TrustRank

introduzione
Il termine web spam si riferisce a pagine Super linkate (hyperlinked) nel www che sono state create con l'intenzione di traviare (io direi fregare OK ) i motori di ricerca.
Per esempio un sito pornografico potrebbe fare spam nel web aggiungendo migliaia di keywords nella sua home page, spesso mettendo testo invisibile agli umani (leggi navigatori) utilizzando ingegnosi schemi di colori. Un motore di ricerca indicizzerà le extra keywords e restituirà la pagina pornografica come risposta a queries che contengono alcune delle keyword (quelle nascoste).
Le key aggiunte non sono tipicamente di natura adult (pornografiche), i navigatori che cercano per altri argomenti possono arrivare alla pagina (quella porno). Un'altra tecnica di spamming è la creazione di un numero elevato di Bogus pages (lett. Pagine finte) tutte che puntano ad una singola pagina obbiettivo. Siccome molti motori di ricerca tengono in conto il numero di link in ingresso per dare un valore alle pagine, il rank della pagina obbiettivo aumenterà ed apparirà nelle parti alte nei risultati della query.
Esattamente come per l'e-mail spamming, determinare se una pagina, o un gruppo di pagine sia spam è soggettivo.
Per esempio consideriamo un gruppo di siti web che si linkano tra di loro in maniera ripetitiva. Questi links possono rappresentare una buona relazione tra i siti, oppure possono avere creato ciò con la precisa intenzione di aumentare il rank di tutte le altre pagine.
In generale è difficile distinguere tra questi due scenari.
Per quanto, esattamente come con l'e-mail spam, molte persone possono facilmente identificare le assordanti e sfacciate sollecitazioni del web spam.
Jamba – le ultime suonerie per il tuo cellulare!
Per esempio molti saranno d'accordo che se molto testo della pagina è invisibile agli "umani" (come fatto notare sopra) e quest'ultimo è irrilevante per l'argomento della pagina, allora è stato aggiunto con l'intenzione di imbrogliare.
Similmente se si trova una pagina con molti URL che si riferiscono ad host tipo:

buy-canon-rebel-300d-lens-case.camerasx.com, buy-nikon-d100-d70-lens-case.camerasx.com, ...,
e si scopre che tutti questi host name fanno capo allo stesso IP si può concludere che le pagine sono state create per imbrogliare i motori di ricerca.
(la motivazione che sta dietro all'URL spamming è che molti motori di ricerca prestano molta attenzione ai vocaboli che si trovano nell'host name e danno a questi vocaboli un peso maggiore che se si trovassero all'interno del testo.)
Mentre molti "umani" possono riconoscere lo spam questo non vuol dire che sia facile per i computer scoprirlo.
Le company dei motori di ricerca di solito impiegano personale specializzato nella scoperta del web spam e sono continuamente a scandagliare il web per trovare i colpevoli(cioè i siti spam) Quando una pagina spam viene identificata il search engine smette di fare il crawling, ed il suo contenuto non viene più indicizzato.
Questo modo di trovare lo spam è un processo molto lento e dispendioso ma è una fase critica per il successo di un motore di ricerca: senza la rimozione degli sfacciati colpevoli (dice proprio così OK ) la qualità dei risultati subisce un degrado significativo.
L'obbiettivo della nostra ricerca è quello di aiutare gli esperti "umani" che scoprono lo spam.
In particolar modo vogliamo identificare le pagine ed i siti che fanno spam e le pagine ed i siti che sono "buoni".
I metodi che presentiamo in questa relazione possono essere usati in due modi:
1) ambedue come aiuto in uno screening iniziale, suggerendo le pagine che devono essere analizzate più approfonditamente da un esperto,
o
2) COME UN counter-bias (contatore di predisposizione ?) da applicare quando i risultati sono stabiliti in modo di ridurre il possibile boost realizzato dallo spam.
Siccome la identificazione dello spam tramite algoritmi è molto difficile. il nostro schema non opera interamente senza il supporto umano. Così vedremo l'algoritmo principale ricevere in seguito l'assistenza umana. L'algoritmo seleziona inizialmente un piccolo Campione di pagine che hanno uno "spam status" che deve essere stabilito. Un esperto poi esamina queste pagine campione e dice all'algoritmo se sono spam (pagine cattive) oppure no (pagine buone). Infine l'algoritmo identifica altre pagine che sembrano buone basandosi sulla connettività con le buone pagine campione.
Riassumendo i contributi di questo studio sono:
1. formalizziamo il problema del web spam e dell'algoritmo scova-webspam
2. definiamo una metrica per stimare l'efficacia dell'algoritmo scova-spam
3. presenteremo (?) lo schema per selezionare le pagine campione che dovranno essere valutate manualmente.
4. Introduciamo l'algoritmo TRUST RANK per determinare la probabilità che le pagine abbiano una buona reputazione.
5. discuteremo i risultati e li valuteremo a fondo basandoci sui 31 milioni di siti spiderizzati da Alta Vista, e l'analisi manuale di oltre 2000 siti. Forniremo alcune interessanti statistiche sul tipo e la frequenza del contenuto web incontrato, e useremo i nostri dati per valutare l'algoritmo proposto.