SEO - Gevonden worden in Google

De nieuwe structuur van Google's datacentra - Bigdaddy.

Beschrijving van de nieuwe structuur en de problemen.

Beschrijving van de nieuwe structuur.

Nog even in herinnering brengen wat Bigdaddy nu eigenlijk is:

De Bigdaddy update is eigenlijk geen 'normale' update, een update waarbij alleen het algoritme wijzigt, neen, hierbij wordt ook de interne structuur (infrastructuur) van de databanken aangepast.

De nieuwe structuur moet ervoor gaan zorgen dat Google niet alleen nu, snel goede resultaten afleverd, maar dat ook in de toekomst doet. Om haar positie als grootste marktaandeelhouder te kunnen behouden en verstevigen, is het noodzakelijk zeer snel, relevante en objectieve resultaten te verstrekken bij een zoekopdracht.

Om relatief snel goede resultaten te verstrekken, hangt veel af van de wijze waarop gegevens worden opgeslagen, gewaardeerd en gepresenteerd. De datacentra vullen zich in een razend tempo met nieuwe informatie gevonden op een enorme stroom aan nieuwe websites die dagelijks op internet gepubliceerd worden. Om die vloedgolf aan informatie aan te kunnen, is snelheid geboden. Snelheid die, zo hebben enkelen uitgevogeld, wel eens twee maal de snelheid van de oude structuur kan gaan inhouden.

Onderdeel van de update Bigdaddy is ook een nieuwe zoekrobot.

De robot is te herkennen aan de volgende string: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Eea. is te vinden in de access-log van uw website.

Was het vroeger nog zo dat vanaf de verschillende datacentra, zoekrobots werden uitgezonden om overal informatie vandaan te halen en u dus bezocht kon worden door een tiental vanaf verschillende IP's afkomstige robots, is er nu per datacentrum een opgegeven taakgebied. U zult dus in de toekomst in de access-log nog slechts 1 zoekrobot van een bepaald IP tegenkomen.

Wat houdt dit structureel gezien in?

Nieuwe data en wijzigingen van uw website worden nu opgenomen door 1 datacentrum en van daaruit gedistribueerd. Dit beperkt het dataverkeer aanzienlijk. Het heeft echter ook een nadeel, stel dat uw datacentrum (lees de desbetreffende robot) een probleem heeft, de gevolgen voor uw positie in de resultaten laat zich raden. In de oude situatie bezochten vanaf verschillende IP's diverse robots uw website. Een probleem werd snel ondervangen.

Zoekmachine problemen - Opgelost?

304 status gewijzigd

Daarnaast tracht men middels het opvragen van de status 'gewijzigd' (te zien als een 304) het verkeer te beperken en alleen die delen van de website te spideren, die ook daadwerkelijk veranderd zijn. Dit houdt dus in dat uw pagina's, eenmaal als 'niet gewijzigd' bekend staan, veel minder frequent bezocht gaan worden. Voor een statisch geheel niet echt schokkerend, maar wat nu als u nieuwe inhoud toevoegd en deze dagen, ja zelfs weken op zich laat wachten alvorens te worden opgenomen?

Het gevaar dat daar in schuilt is dat we te maken krijgen met resultaten die niet up to date zijn!

Bovendien schijnt de nieuwe robot (ten tijde van het schrijven van dit stuk, 16 April 2006) een probleem te hebben met deze melding.

Na het opvragen van de headers van het document om te kunnen bepalen of het document tussentijds gewijzigd is, krijgt de robot een 304 indien het document niet gewijzigd is. De zoekrobot vertrekt en komt pas na geruime tijd weer terug. Voor diverse documenten die niet gewijzigd zijn vraagt de robot deze headers op, echter ook voor veel documenten niet, gezien de 200 'status ok'.

Een probleem in de software?

Canonical probleem / 301

Doordat Google een 'canonical-' probleem had, werden voor verschillende resultaten doublures geïndexeerd. Een website kon in de resultaten met .www en zonder .www voorkomen.

Een zoektocht naar webontwerp leverde bijvoorbeeld de resultaten:

"http://vision2form.nl/webontwerp/"
en
"http://www.vision2form.nl/webontwerp/"

Veel websites trachten hun positie in de resultaten te verbeteren door bewust dubbele inhoud te plaatsen op diverse websites. In voorgaande situatie echter ziet Google de 2 verschillende websites, die er eigenlijk niet zijn. De inhoud op beide is identiek en dat is volgens Google ongeoorloofd. Dus, zonder het te weten zou uw website wel eens een 'penalty' of een ban gekregen kunnen hebben door een probleem dat bij Google zelf is ontstaan.

Een oplossing hiervoor is het plaatsen van een wegwijzer voor Google die aangeeft dat het document dat opgevraagd wordt zich ergens anders bevind. Dit heet een 301 'Redirect permanent'.

Helaas bleek de afhandeling van een 301 in sommige situaties problemen op te leveren en bleef de zoekmachine toch dubbele URl's zien.

302 hijack

Ook het probleem met een 302 waarmee het weliswaar vrij moeilijk te realiseren, maar toch niet onmogelijk bleek een website te 'kapen'. Door het opgeven van een '302 redirect' naar een andere pagina bleek het mogelijk die pagina in plaats van de originele in de resultaten te laten verschijnen. Op die manier verdwijnt al het verkeer naar de pagina van de hijacker.

Een ware nachtmerrie voor elke webmaster. Wat een 302 hijack precies is en hoe deze mogelijk weer kan worden verwijderd is beschreven op: 302 page hijack.

In de nieuwe structuur wordt getracht deze problemen te ondervangen.

Gekopieerde inhoud / wikipedia en DMOZ doublures

Veel webmasters trachten hun pagina snel van veel inhoud te voorzien door gebruik te maken van artikelen op Wikipedia of de directory van DMOZ. De inhoud van Wikipedia is beschikbaar onder de GNU Free Documentation License, ook de Open Directory gegevens zijn gratis beschikbaar voor iedereen die toestemt met haar licentie en daardoor door iedereen op zijn eigen website te plaatsen.

Normaal gesproken geen groot probleem, voor Google echter wel. De resultaten worden meer en meer vervuild door kopieën van Wikipedia en DMOZ. U ben ze vast al wel tegengekomen, elke zoekopdracht bevat wel een aantal resultaten die hiervan gebruik maken.

Deze resultaten zijn voor u als zoeker niet echt interessant en kunnen daardoor ook uw vertrouwen in de zoekresultaten van Google doen afnemen. Ook voor dit probleem, de dubbele inhoud, is in de nieuwe structuur extra aandacht gegeven.

Regionaal gebonden resultaten

Een ander 'nieuw' probleem dat zich zeer sluipend merkbaar maakt zijn de aanwijzingen voor een versterkt regionaal gebonden aanbieden van resultaten. Hierdoor worden de weergegeven resultaten beperkt op locatie en minder op het criterium welke voor u het meest relevant is.

Google tracht uw regio te bepalen, maar slaat keer op keer de plank mis. Als voorbeeld ons eigen IP. Woonachtig in Gelderland, om precies te zijn Lobith, geeft Google stellig aan dat het IP behoort tot de omgeving Alkmaar en soms ook Haarlem. Een luttele 200km verschil.

Indien Google de positiebepaling niet voorelkaar krijgt, zult u als inwoner van Groningen ongetwijfeld resultaten als meer relevant voorgeschoteld gaan krijgen wiens daadwerkelijke locatie zich in Zeeland zou kunnen bevinden.

Bovendien wordt het voor u als zoeker zo wel erg klein, dat wereldwijde internet. Of zoals een bezorgde webmaster uit India het verwoordde 'fishing in the same little pond surrounding us'.

Visie op de nieuwe structuur

De nieuwe structuur van Google heeft zeker grote voordelen, echter ook nog veel problemen, die toch echt opgelost dienen te worden wil deze 'update' succesvol genoemd mogen worden.

Voetnoot:

Bovenstaande is slechts mijn persoonlijke visie, verkregen door observatie van de resultaten, het lezen van diverse blogs en het uitwisselen van ideeën en bevindingen.

Aanvullingen, correcties of een discussie zijn altijd welkom!


Zoekmachine optimalisatie faq's - overzicht

  • Toppositie in de zoekmachines
    Een veel gestelde vraag is; "Hoe kom ik in de top van de zoekmachines terecht?" of "Kunt u mij een toppositie garanderen?"
  • Wat is een zoekmachine update?
    Regelmatig wordt er melding gemaakt of gesproken over een update, maar wat is dat nu eigenlijk?
  • Website promotie wat is dat?
    Veelal wordt gedacht dat het promoten van een website zich slechts beperkt tot "SEO" of "Zoekmachine optimalisatie". Niets is echter minder waar. Het is een zeer breed pakket aan maatregelen die ervoor zorgen dat uw website gevonden wordt.
  • Ik wil gevonden worden op internet!
    De meest gestelde vraag op zoekmachineoptimalisatie gebied is wel de vraag: "Ik wil gevonden worden op internet, hoe doe ik dat?"
  • Mijn Flash-site toch gevonden laten worden!
    Steeds meer pagina's worden in Flash gemaakt. Flitsend, trendy en hip. Echter gevonden worden ho maar. Google kan er niets mee. Hoe maak ik een Flash site dan toch vindbaar?
  • Aanmelden bij zoekmachines
    Veel vragen richten zich op het 'aanmelden bij zoekmachines'. Maar: "heeft aanmelden bij zoekmachines nog wel zin?"
  • Zoekmachine optimalisatie wedstrijd
    Een SEO wedstrijd kan ons veel leren over de werking van de zoekmachines. Maar: "Is een zoekmachine wedstrijd 'zoekmachinespam of sport'?"
  • Zoekmachine optimalisatie en de ethiek
    Hoe zit het met optimalisatie van een website en de ethiek? Of: Wat is ethisch verantwoord bij SEO?
  • SEO advies door een expert
    Bestaat er wel iemand die echt een SEO expert is en volgens de ethiek werkt?
  • SEO Basics - Zoekmachine optimalisatie - De basis van SEO
    Om te begrijpen wat SEO inhoud (of in zou moeten houden) moeten we terug naar de basis, hoe werkt het internet? En wat is het principe daarvan en dus ook van een zoekmachine?
  • SEO Tips
    Enkele tips om uw website te optimaliseren en zo beter gevonden te worden.

Serps - Zoekmachines en de resultaten

Zoekmachine updates:


Ook uw site gevonden laten worden? ik wil gevonden worden