PageRank, TrustRank, Real Time Search, Twitter (e chi più ne ha piu ne metta)

Torno sull’argomento della incapacità del PageRank di rappresentare l’autorevolezza di tutte le pagine web e quindi di essere la giusta base per ogni ricerca su internet.

L’emergere di nuove forme di diffusione dell’informazione, prima tra tutte il microblogging, richiede nuovi strumenti di ricerca. Probabilmente un maggiore numero di strumenti, una maggiore articolazione dell’offerta di servizi di ricerca sulla rete.

Trovo l’argomento interessante non tanto sotto un punto di vista SEO quanto di analisi della distribuzione futura dell’informazione. I motori di ricerca infatti saranno sempre più determinanti nello stabilire quale sia la notizia importante e quale invece destinata all’oblio. Un ruolo quindi particolarmente importante anche in ottica (mi consentano) politica – sociologica.

Una sola necessità comune a tutti i servizi di ricerca

Una sola è la necessità di un qualsiasi buon servizio di ricerca: eliminare lo spam!

Una seconda necessità, quella di stabilire una gerarchia delle fonti basata sull’autorevolezza, la inserisco invece tra le necessità specifiche di alcuni tipi di ricerca. La diffusione del microblogging ha infatti fatto nascere una nuova esigenza di ricerca in cui i risultati sono tanto più importanti quanto sono più freschi: la real time search.

La ricerca su Twitter è un evidente esempio di real time search. Non a caso Twitter Search è il primo risultato di Google effettuando una ricerca su “real time search”. Durante le ultime elezioni in Iran era possibile monitorare il flusso continuo di informazioni relative a #IranElection, ordinate esclusivamente per sequenza temporale dei tweet anzichè per autorevolezza della fonte.

Le dieci domande

E’ utile avere dei risultati ordinati esclusivamente per sequenza temporale di pubblicazione?
Una delle chiavi di successo del microblogging è la possibilità aperta a chiunque di partecipare al flusso informativo (fornire informazione ma anche, semplicemente, redistribuirle). Escludere alcuni utenti dai risultati delle ricerche vuole dire escluderli da questa possibilità
Quando l’informazione è quantitativamente eccessiva quali sono i modi per filtrarla? Eliminare i contenuti duplicati?
In alcuni casi (vedi elezioni iraniane) il flusso informativo diventa ridondante. I retweet se da una parte sono indice della importanza della notizia dall’altra sporcano i risultati di ricerca con contenuti duplicati. Una proposta interessante a riguardo l’ho trovata nella proposta di inserimento di funzionalità di meta-tracking dei tweet
Il ranking e l’autorevolezza sono l’unico modo di escludere lo spam?
Una delle principali ragioni d’essere del PR è quello di escludere lo spam. Ma molti spammer sono SEO (ma non viceversa). Modi alternativi per bloccare subito chi infetta le ricerche? TwitChunk ad esempio ti dice che probabilità ci sia che un utente twitter sia uno spammer.
Il PageRank può sempre essere uno strumento di stima dell’autorevolezza della fonte?
Per l’informazione “storica” è facile stabilire un ranking sulla base dei backlinks. Ma per l’informazione fresca fresca fresca? Si attribuisce maggiore importanza se il publisher aveva acquisito autorevolezza in passato? E il tweet del ragazzo che si trova per caso sul posto dove hanno sparato a Neda sparisce quindi dal flusso di informazioni importanti?
L’autorevolezza è un valore abbastanza stabile nel tempo?
Il PageRank dovrebbe essere un valore abbastanza stabile. Se il PR proviene da link che si rincorrono e sostituiscono rapidamente è facile che sia un valore soggetto a rapidi cambiamenti: il link che mi trasmette PR passa rapidamente dalla prima pagina alle pagine d’archivio (che hanno PR inferiore) o scompare del tutto.
Il tag rel=nofollow altera in maniera scorretta la distribuzione del ranking?
Ho già scritto a riguardo in occasione della scoperta di avere un profilo twitter con PR pari a 5. Faccio presente che twitter ha il rel=nofollow su tutti i link. Ma twitter è un servizio usufruibile attraverso altre interfacce (con le API) per cui non è detto che la situazione sia identica ovunque. Il trasferimento di link-juice diventa quindi totalmente aleatorio e privo di significato.
L’informazione è eterna? I tweet sono eterni e per sempre dovranno comparire tutti nei risultati di ricerca?
Domanda forse leggermente off-topics etico-filosofica. Ma è giusto che qualsiasi informazione sia ricercabile e trovabile in eterno? Ci troveremo presto invasi da zettabyte (10 ²¹) di dati? Ci servono tutti? E poi esiste anche il diritto all’oblio. Non mi trovo così in disaccordo con la proposta di legge che sancirebbe questo diritto (se non fosse per l’uso che poi se ne fa di queste cose in Italia).
Deve esistere anche un ranking morale dell’informazione?
Il filtro deve rivolgersi solo a chi fa spam o anche a chi distribuisce informazione falsa o contro il sentire comune? Sempre in occasione delle elezioni iraniane ci sono stati casi di account twitter creati dal regime per monitorare i dissidenti e creare disinformazione.
Tassonomia e semantica come interagiranno nelle ricerche web?
I portali verticali, le directory, etc sono sempre esistite sul web. Yahoo nasce così. Poi è arrivato Google e ha spazzato via quasi tutto. Però forse è ora di ripensarci. Se cerco “thematic” (il framework per WordPress) su Google ottengo migliaia di risultati inutili. E sono obbligato a restringere la ricerca a “Thematic WordPress”. Non mi piace!
I contenuti non testuali hanno minore valenza?
Se non accompagnati da testo descrittivo (inidicizzabile) rischiano di rimanere “muti” e nascosti ai motori di ricerca. E’ un bene?

Conclusioni

Mi pare difficile che si possa dare risposta a tutte queste domande con un unico servizio di ricerca. Ritengo più probabile che i motori di ricerca consentiranno in futuro di definire le proprie ricerche personalizzate attraverso parametri avanzati nei quali la dicotomia “real-time” e “archivio” giochi un ruolo chiave.

ULTIMISSIMA: subito prima di pubblicare questo post ho strovato questo articolo sull’argomento: The Future of Search: Social Relevancy Rank che merita una lettura.

I SEO sono chiamati a esprimere la loro opinione.

PageRank, TrustRank, Real Time Search, Twitter (e chi più ne ha piu ne metta)

Una sola necessità comune a tutti i servizi di ricerca

Le dieci domande

Conclusioni

Un Trackback

SEGUIMI

Articoli correlati

Tag