Hur Googles indexering fungerar: En tekniskt, patent-grundad genomgång

Googles index är världens mest avancerade informationssystem. Det är inte en sökmotor i klassisk mening – det är en kontinuerligt omvärderande kvalitetsmotor som:

– crawlar webben
– analyserar dokument
– extraherar entiteter
– bearbetar användarbeteenden
– bedömer kvalitet, trust och topical relevans
– avgör vilka dokument som får behålla sin plats i indexet

Denna innehåll beskriver:

– vad Google lagrar i sitt index
– hur patentsystem som “Importance Threshold”, “Information Gain” och “Phrase-Based Indexing” styr indexering
– hur Google skiljer mellan indexering & ranking
– hur Google avgör crawl-hastighet och crawl-prioritet
– varför vissa sidor tas bort från index
– varför nya sidor tar tid att indexeras
– hur du bygger en sajt som konsekvent kvalificerar sig

Informationen du hittar är baserad på expertis, erfarenhet, patent, föreläsningar från Google Search Team och empirisk data från miljontals URLer.

Innehåll

Vad indexering är och varför Google är selektiv

När Googlebot hämtar en sida går dokumentet genom en pipeline:

1. Crawl (HTML-first fetch)
2. Rendering (JS / WRS)
3. Elaboration (analys & extraction)
4. Indexing (lagringsbeslut)
5. Ranking (matchning mot query → dynamic scoring)

Indexering handlar inte om positioner. Indexering innebär:

👉 “Får dokumentet över huvud taget lagras i Googles index och bli **eligible** att visas?”

Inte mer.

Ranking sker först efter indexering och använder liknande men betydligt mer query-specifika signalsystem.

Varför Google måste vara selektiv

Webben växer snabbare än Googles index
– duplicerat innehåll exploderar
– spamvolym är extrem
– användare tolererar inte dåliga resultat

Google försöker därför endast indexera: “The useful part of the web.”

Dokumentet Google lagrar är mer än bara text

Google lagrar:

– rubriker
– strukturerad data
– mobilversionens HTML
– interna & externa länkar
– canonical-signaler
– bilder + alt-texter
– videometadata
– entities extraherade från texten
– vector embeddings (semantisk representation)
– historik (länkhistorik, uppdateringshistorik, click history)
– trustsignaler på dokument- & domännivå

Google lagrar även icke-indexerade dokument.
Skillnaden: de är inte eligibla att visas i SERP.

INDEXERING ≠ RANKING: Den viktigaste skillnaden

Många tror att:

“Min sida är indexerad → därför syns den.”

Men Google har två separata pipelines:

Indexering (får dokumentet komma in?)

Styrs av:

– importance threshold
– dupliceringsdetektion
– innehållskvalitet (Q*)
– tekniska barriärer
– host-level quality
– crawl frequency
– topical relevans

Indexering är en binär process:

✔ indexerad
✘ inte indexerad

Ranking (hur högt ska dokumentet visas?)**

När en query körs i SERP aktiveras:

– query expansion
– embeddings-matchning
– intent detection
– P*, T*, Q* i realtid
– freshnessevaluation
– experimental scoring (interleaving)
– användarsignaler (CTR, dwell time, short clicks)

Ett dokument kan därför vara:

indexerat → men aldrig få trafik
avindexerat → om ranking faller för lågt under importance threshold

Konsekvens för SEO

En sida kan:

1. vara indexerad
2. ranka lågt
3. tappa användarbeteenden
4. sjunka i importance
5. tappa crawl-frekvens
6. falla ur index

Då ser du “Crawled – currently not indexed” i Google Search Console

Indexeringen är alltså en kvalitetströskel, inte en garanti.

Deduplicering: ett av Googles viktigaste system

60 % av webben är duplicerad. Google måste därför:

– gruppera liknande dokument
– välja canonical
– kasta bort alla andra kopior

Phrase-based indexing + embeddings + boilerplate-stripping + document chunking gör att Google kan avgöra:

“Finns verkligt unikt värde här?”

Om inte → ingen indexering.

Google’s Three-Tier Exclusion Engine

Detta är inte Googles officiella namn, utan en förenklad modell av hur Google filtrerar bort URL:er innan de ens får chansen att ranka.
Det viktiga: Google har inte tid att indexera skräp. Den filtrerar bort allt som inte tydligt ser ut som värdefullt.

Här är vad varje nivå innebär:

Tier 1: Tekniska blockeringar

“Kan Google komma åt denna sida?”

Detta är den första tröskeln. Innan Google ens funderar på kvalitet vill den bara veta om sidan får och kan crawlas.

Vanliga orsaker

  • robots.txt blockeringar
    Ex: Disallow: /wp-admin/ — men ofta råkar man blockera hela sajten av misstag.

  • noindex-taggar
    Exempel: ett staging-läge råkade pushas till produktion med noindex kvar.

  • Password protection / IP-blockering
    Vanligt på utvecklingsmiljöer.

  • Server errors:

    • 5xx-fel

    • Timeout

    • Redirect loops

    • Felaktiga canonical-taggar som pekar mot 404 eller annan domän.

  • JavaScript som hindrar rendering
    Googlebot fastnar → “Crawled – currently not indexed”.

Vanliga misstag att akta sig för

  • Man tror att sidan är crawlbar bara för att man själv kan se den i webbläsaren.

  • Man använder en plugin som genererar fel canonicals (EX: Shopify-appar, Yoast-inställningar).

  • Man blockar filtreringssidor men “råkar blocka” underkategorier också.

  • Man sätter noindex på testversioner → glömmer ta bort.

  • Man har en sitemap som pekar mot URL:er som inte ens finns.

Tier 2: Duplicering & Soft-404

“Tillför denna sida något nytt?”

När Google väl kan läsa din sida evaluerar den nästa filter:
Är detta faktiskt en unik och värdefull sida, eller är det duplicerat/tråkigt?

Vanliga orsaker

  • Dubbla URL-versioner

    • ?color=red

    • ?sort=price

    • /page/2
      → Google ser dem som duplicerade.

  • Thin content:
    50–120 ord på en sida som borde ha 600–1000.

  • Soft-404:
    Sidan ser ut som en 404 för Google även om den tekniskt sett är “200 OK”.
    Exempel:

    • Tomma kategorisidor (Shopify och WooCommerce klassiker)

    • Produkter som är out of stock → “den här finns inte längre” utan alternativ.

    • “Coming soon”-sidor

  • Mall-innehåll
    10 000 produktsidor som använder exakt samma text med olika färg/variant.

Vanliga misstag att akta sig för

  • Kategorisidor utan produkter → Soft-404

  • Produktsidor som saknar riktig beskrivning → “Crawled – not indexed”

  • Man skriver AI-content → men AI-texten liknar redan befintligt innehåll → duplicering

  • Filtrerings-URL:er indexeras → utspädning av ranking signaler

  • För många liknande artiklar:
    “10 tips för X” → “10 knep för X” → “Guide för X”

Tier 3: Kvalitet

“Är detta tillräckligt bra för att vi ska lägga det i vårt index?”

Detta är den kritiska delen.
När Google kan crawla sidan och den inte är duplicerad återstår frågan:

Google indexerar inte allt då det är dyrt.

Det är här 86 % av alla icke-indexerade sidor faller bort.

Först och främst, vad Google menar med “kvalitet”

  • Är detta bästa svaret för en sökare?

  • Är innehållet seriöst, korrekt, djupgående?

  • Visar sidan E-E-A-T signaler?

  • Ser sidan ut som en “tunn affiliate”, “AI-content”, eller “SEO content farm”?

  • Är designen modern och användbar, eller ser sidan ut som 2012-template?

  • Finns det interna länkar som pekar hit och ger värde?

Vanliga kvalitetssignaler som brister

  • Innehåll utan riktig expertis (AI-genererat utan förbättring)

  • Innehåll utan struktur (bara textväggar)

  • Innehåll som inte svarar på sökintentionen

  • Brist på relevanta interna länkar

  • Brist på extern auktoritetsbyggande

  • För många publicerade sidor → men låg kvalitet → Google tappar förtroende

  • Saknad av “information gain”—inget nytt värde jämfört med konkurrenterna

Vanliga misstag att akta sig för

  • Man skriver 40 bloggartiklar → Google indexerar 5 st → resten dör.

  • Man tror att “många sidor = bra SEO”.
    I verkligheten: många dåliga sidor försämrar hela domänens kvalitetspoäng.

  • Man skriver bara vad alla andra redan har skrivit.

  • Man optimerar inte för användaren → bara för sökord.

Entities, Knowledge Graph & Entity-Based Indexing

Google har två parallella indexsystem.

Dokumentindex (URL:er)

Det du ser i Search Console.

Entitetsindex (Knowledge Graph)

Abstrakta objekt Google extraherar från dokument:

– företag
– produkter
– personer
– platser
– koncept
– händelser
– organisationer

Varje entitet får:

– attribut
– relationer
– kontext
– beskrivning
– relevansscore
– trustscore

Google bygger entiteter genom:

– strukturerad data
– brödtext
– länkar
– externa databaser (Wikidata, GeoNames, MusicBrainz…)
– cross-document evidence

Varför entiteter är avgörande för indexering

När Google förstår:

“Detta dokument handlar om X och X är en verifierad entitet.”

…då får sidan:

– högre topical precision
– snabbare indexeringskvalificering
– bättre P*/T*/Q*-score
– större sannolikhet att överleva long-term

Entiteter + dokument ihop skapar semantic graphs som Google använder för:

– E-E-A-T
– brand trust
– duplicate detection
– product & review ranking
– lokala sökningar

Entities, Knowledge Graph & Entity-Based Indexing

Google har två parallella indexsystem.

Dokumentindex (URL:er)

Det du ser i Search Console.

Entitetsindex (Knowledge Graph)

Abstrakta objekt Google extraherar från dokument:

– företag
– produkter
– personer
– platser
– koncept
– händelser
– organisationer

Varje entitet får:

– attribut
– relationer
– kontext
– beskrivning
– relevansscore
– trustscore

Google bygger entiteter genom:

– strukturerad data
– brödtext
– länkar
– externa databaser (Wikidata, GeoNames, MusicBrainz…)
– cross-document evidence

Varför entiteter är avgörande för indexering

När Google förstår:

“Detta dokument handlar om X och X är en verifierad entitet.”

…då får sidan:

– högre topical precision
– snabbare indexeringskvalificering
– bättre P*/T*/Q*-score
– större sannolikhet att överleva long-term

Entiteter + dokument ihop skapar semantic graphs som Google använder för:

– E-E-A-T
– brand trust
– duplicate detection
– product & review ranking
– lokala sökningar

PATENT: Managing URLs — Importance Threshold**

Google prioriterar dokument enligt en importance-score:

– länkar
– topical relevans
– trust signals
– use case-signaler
– behavior
– dokumentets roll i sidans struktur
– freshnesseffekter

Dokument som faller under threshold → kastas ut.

Indexering är därför en konkurrenssituation, inte en rättighet.

Patent: US7509315B1 — Managing URLs

PATENT: Historical Data & Staleness

Google analyserar:

– länkevolution
– uppdateringsmönster
– freshnesstrender
– click decay
– dokumentets ålder vs användarintention

Om dokumentet inte längre ger värde → staleness → avindexering.

Patent: US7346839B2 — Information retrieval based on historical data

PATENT: Phrase-Based Indexing – Googles Semantiska Kärna

Google analyserar fraser, inte bara ord.

På en sida om “solceller” förväntas finnas:

– effekt
– växelriktare
– kWh
– installation
– bidrag
– livslängd

Om semantiska fraser saknas → låg T*-score → låg importance.

Patent: US7536408B2 – Phrase-based indexing in an information retrieval system

Faustas Nazarovas

“Jag ser SEO som en vetenskap – inte en trend. För mig handlar det inte om gissningar, utan om att förstå mönstren, matematikens logik och människans beteende bakom varje sökresultat.”

Läs mer om Faustas Nazarovas