Desert scraping
Il desert scraping è una tecnica black hat che consiste nell’appropriarsi di contenuti altrui non più indicizzati su Google e pubblicarli di nuovo, facendoli passare per nuovi. Dal momento che Google non li ha più nel proprio indice, non può riconoscerli come duplicati.
Una domanda sorge spontanea: come è possibile trovare contenuti che Google non ha più nei propri archivi?
La parola magica è proprio questa: gli archivi. Ma procediamo con ordine, vediamo come agisce questa sporca tecnica SEO e come è possibile proteggere i propri contenuti, una volta che un sito è stato chiuso.
Desert scraping significa “raschiatura del deserto”. Il termine racchiude realmente il senso di questa tecnica: perché di questo si tratta, di raschiare il deserto. Scovare pagine che non esistono più ed appropriarsene. Raschiare il web alla ricerca di contenuti dimenticati e abbandonati.
Nei siti che trattano di black hat questa tecnica- e tante altre- viene descritta bene e i black SEO pare riescano a ripescare dall’oblio della rete diversi contenuti, per riutilizzarli, riciclarli anzi, nei propri siti.
Alla ricerca del dominio perduto
Il primo passo da compiere è cercare, negli elenchi di domini scaduti, quelli attinenti alla chiave o alle chiavi di nostro interesse.
Esistono in rete diversi siti che offrono questo servizio. Per trovarli è sufficiente cercare nel vostro motore di ricerca preferito i termini “deleted domains” o “expired domains”. Basta sceglierne uno e cominciare la ricerca.
A questi domini non è più associato alcun sito. I contenuti di quei siti, dunque, sono pronti per essere rubati e reclamati come propri.
Alla ricerca del contenuto dimenticato
Ho accennato prima alla parola magica “archivi”. Sì, perché se anche un sito è stato chiuso e il suo dominio è scaduto, i contenuti di quel sito esistono ancora.
Sono presenti nell’immenso archivio di internet. Sto parlando ovviamente di Internet Archive.
Per chi non lo sapesse:
The Internet Archive is a 501(c)(3)[1] non-profit that was founded to build an Internet library, with the purpose of offering permanent access for researchers, historians, and scholars to historical collections that exist in digital format.
“Internet Archive è un’associazione non profit che appartiene alla sezione 501(c)(3), fondata (nel 1996) per costruire una biblioteca di internet, con lo scopo di offrire un accesso permanente per ricercatori, storici e studiosi a collezioni storiche che esistono in formato digitale.”
Cosa significa in parole povere? Che i contenuti “dimenticati” possono essere scovati all’interno di Internet Archive.
Nel campo di ricerca si inserisce il dominio scaduto che abbiamo scelto di svaligiare e si clicca sul futuristico bottone “Take me back”… il sito ci fa tornare così “indietro nel tempo”, mostrandoci l’intera storia del sito in questione.
A questo punto i black SEO scelgono una vecchia data, risalente magari a 7-8 anni fa, e navigano quel sito alla ricerca di contenuti interessanti. Con questa tecnica possono riuscire a prelevare anche decine di testi, da riutilizzare come contenuti originali.
Prima di ripubblicarli effettuano un controllo sul sito Copyscape, che permette di vedere, inserendo un contenuto, se questo è presente ancora in rete e in quali siti.
Se questo controllo dà esito negativo, se quindi non esistono copie di quei contenuti appena rubati, i black SEO possono predisporre tranquillamente di quei testi.
In poco tempo, in una manciata di ore magari, hanno ottenuto qualche decina di pagine di contenuti…
Proteggere i propri contenuti
Internet Archive consiglia di utilizzare il file robots.txt per escludere i propri contenuti dai loro archivi.
Il file dovrebbe dare queste istruzioni:
User-agent: ia_archiver
Disallow: /
Ma siamo sicuri che queste istruzioni vengano poi seguite? Il sito assicura che i maggiori motori di ricerca rispettano queste esclusioni, ma in realtà non è così. Ho usato varie volte il file robots.txt, ma senza successo. Google non ne ha tenuto conto.
Se quindi il vostro sito è ancora attivo, non c’è alcuna sicurezza che venga escluso da Internet Archive.
E se il vostro sito non esiste più?
Se avete chiuso un sito e volete proteggere i vostri contenuti, è bene leggere come escludere quel sito da Internet Archive.
Purtroppo il link sull’esclusione del sito da Internet Archive restituisce una pagina bianca (http://www2.sims.berkeley.edu/research/conferences/aps/removal-policy.html).
Ho spedito un’email e ho chiesto come poter essere esclusi: “Se ho un sito chiuso e il dominio scaduto, è possibile rimuovere i contenuti dal vostro archivio? Ecco la risposta dell’Office Manager di Internet Archive:
Sì, se riesci ad inviare un’email da un indirizzo presente dalla pagina dei contatti di quel sito, inoltrarci una dichiarazione o una fattura che associ te col dominio o almeno indirizzarci a un’area sul sito in cui sono riportate le tue informazioni personali, riuscirò ad evadere la tua richiesta.
Ma non finisce qui. Perché al concetto di desert scraping è legato quello della clonazione di un sito. Prossimamente su Seo Spam.
Note
- Religious.
- Charitable.
- Scientific.
- Testing for public safety.
- Literary.
- Educational.
- Fostering national or international amateur sports competition.
- The prevention of cruelty to children or animals.
Sitografia
E' la prima volta che visiti questo blog? Ti consiglio di leggere Il meglio di Seo Spam, una raccolta dei post più utili e informativi del blog.
Ti è piaciuto l'articolo? Allora segui tutti gli aggiornamenti del blog!















Loading ...

© 2008 - 2012
Aggiungi un commento