SEO

Journal

Patent

Om mig

Hur Googles indexering fungerar: En tekniskt, patent-grundad genomgång

Googles index är världens mest avancerade informationssystem. Det är inte en sökmotor i klassisk mening – det är en kontinuerligt omvärderande kvalitetsmotor som:

– crawlar webben
– analyserar dokument
– extraherar entiteter
– bearbetar användarbeteenden
– bedömer kvalitet, trust och topical relevans
– avgör vilka dokument som får behålla sin plats i indexet

Denna innehåll beskriver:

– vad Google lagrar i sitt index
– hur patentsystem som “Importance Threshold”, “Information Gain” och “Phrase-Based Indexing” styr indexering
– hur Google skiljer mellan indexering & ranking
– hur Google avgör crawl-hastighet och crawl-prioritet
– varför vissa sidor tas bort från index
– varför nya sidor tar tid att indexeras
– hur du bygger en sajt som konsekvent kvalificerar sig

Informationen du hittar är baserad på expertis, erfarenhet, patent, föreläsningar från Google Search Team och empirisk data från miljontals URLer.

Vad indexering är och varför Google är selektiv

När Googlebot hämtar en sida går dokumentet genom en pipeline:

1. Crawl (HTML-first fetch)
2. Rendering (JS / WRS)
3. Elaboration (analys & extraction)
4. Indexing (lagringsbeslut)
5. Ranking (matchning mot query → dynamic scoring)

Indexering handlar inte om positioner. Indexering innebär:

👉 “Får dokumentet över huvud taget lagras i Googles index och bli **eligible** att visas?”

Inte mer.

Ranking sker först efter indexering och använder liknande men betydligt mer query-specifika signalsystem.

Varför Google måste vara selektiv

Webben växer snabbare än Googles index
– duplicerat innehåll exploderar
– spamvolym är extrem
– användare tolererar inte dåliga resultat

Google försöker därför endast indexera: “The useful part of the web.”

Dokumentet Google lagrar är mer än bara text

Google lagrar:

– rubriker
– strukturerad data
– mobilversionens HTML
– interna & externa länkar
– canonical-signaler
– bilder + alt-texter
– videometadata
– entities extraherade från texten
– vector embeddings (semantisk representation)
– historik (länkhistorik, uppdateringshistorik, click history)
– trustsignaler på dokument- & domännivå

Google lagrar även icke-indexerade dokument.
Skillnaden: de är inte eligibla att visas i SERP.

INDEXERING ≠ RANKING: Den viktigaste skillnaden

Många tror att:

“Min sida är indexerad → därför syns den.”

Men Google har två separata pipelines:

Indexering (får dokumentet komma in?)

Styrs av:

– importance threshold
– dupliceringsdetektion
– innehållskvalitet (Q*)
– tekniska barriärer
– host-level quality
– crawl frequency
– topical relevans

Indexering är en binär process:

✔ indexerad
✘ inte indexerad

Ranking (hur högt ska dokumentet visas?)**

När en query körs i SERP aktiveras:

– query expansion
– embeddings-matchning
– intent detection
– P*, T*, Q* i realtid
– freshnessevaluation
– experimental scoring (interleaving)
– användarsignaler (CTR, dwell time, short clicks)

Ett dokument kan därför vara:

– indexerat → men aldrig få trafik
– avindexerat → om ranking faller för lågt under importance threshold

Konsekvens för SEO

En sida kan:

1. vara indexerad
2. ranka lågt
3. tappa användarbeteenden
4. sjunka i importance
5. tappa crawl-frekvens
6. falla ur index

Då ser du “Crawled – currently not indexed” i Google Search Console

Indexeringen är alltså en kvalitetströskel, inte en garanti.

Deduplicering: ett av Googles viktigaste system

60 % av webben är duplicerad. Google måste därför:

– gruppera liknande dokument
– välja canonical
– kasta bort alla andra kopior

Phrase-based indexing + embeddings + boilerplate-stripping + document chunking gör att Google kan avgöra:

“Finns verkligt unikt värde här?”

Om inte → ingen indexering.

Google’s Three-Tier Exclusion Engine

Detta är inte Googles officiella namn, utan en förenklad modell av hur Google filtrerar bort URL:er innan de ens får chansen att ranka.
Det viktiga: Google har inte tid att indexera skräp. Den filtrerar bort allt som inte tydligt ser ut som värdefullt.

Här är vad varje nivå innebär:

Tier 1: Tekniska blockeringar

“Kan Google komma åt denna sida?”

Detta är den första tröskeln. Innan Google ens funderar på kvalitet vill den bara veta om sidan får och kan crawlas.

Vanliga orsaker

robots.txt blockeringar
Ex: Disallow: /wp-admin/ — men ofta råkar man blockera hela sajten av misstag.
noindex-taggar
Exempel: ett staging-läge råkade pushas till produktion med noindex kvar.
Password protection / IP-blockering
Vanligt på utvecklingsmiljöer.
Server errors:
- 5xx-fel
- Timeout
- Redirect loops
- Felaktiga canonical-taggar som pekar mot 404 eller annan domän.
JavaScript som hindrar rendering
Googlebot fastnar → “Crawled – currently not indexed”.

Vanliga misstag att akta sig för

Man tror att sidan är crawlbar bara för att man själv kan se den i webbläsaren.
Man använder en plugin som genererar fel canonicals (EX: Shopify-appar, Yoast-inställningar).
Man blockar filtreringssidor men “råkar blocka” underkategorier också.
Man sätter noindex på testversioner → glömmer ta bort.
Man har en sitemap som pekar mot URL:er som inte ens finns.

Tier 2: Duplicering & Soft-404

“Tillför denna sida något nytt?”

När Google väl kan läsa din sida evaluerar den nästa filter:
Är detta faktiskt en unik och värdefull sida, eller är det duplicerat/tråkigt?

Vanliga orsaker

Dubbla URL-versioner
- ?color=red
- ?sort=price
- /page/2
  → Google ser dem som duplicerade.
Thin content:
50–120 ord på en sida som borde ha 600–1000.
Soft-404:
Sidan ser ut som en 404 för Google även om den tekniskt sett är “200 OK”.
Exempel:
- Tomma kategorisidor (Shopify och WooCommerce klassiker)
- Produkter som är out of stock → “den här finns inte längre” utan alternativ.
- “Coming soon”-sidor
Mall-innehåll
10 000 produktsidor som använder exakt samma text med olika färg/variant.

Vanliga misstag att akta sig för

Kategorisidor utan produkter → Soft-404
Produktsidor som saknar riktig beskrivning → “Crawled – not indexed”
Man skriver AI-content → men AI-texten liknar redan befintligt innehåll → duplicering
Filtrerings-URL:er indexeras → utspädning av ranking signaler
För många liknande artiklar:
“10 tips för X” → “10 knep för X” → “Guide för X”

Tier 3: Kvalitet

“Är detta tillräckligt bra för att vi ska lägga det i vårt index?”

Detta är den kritiska delen.
När Google kan crawla sidan och den inte är duplicerad återstår frågan:

Google indexerar inte allt då det är dyrt.

Det är här 86 % av alla icke-indexerade sidor faller bort.

Först och främst, vad Google menar med “kvalitet”

Är detta bästa svaret för en sökare?
Är innehållet seriöst, korrekt, djupgående?
Visar sidan E-E-A-T signaler?
Ser sidan ut som en “tunn affiliate”, “AI-content”, eller “SEO content farm”?
Är designen modern och användbar, eller ser sidan ut som 2012-template?
Finns det interna länkar som pekar hit och ger värde?

Vanliga kvalitetssignaler som brister

Innehåll utan riktig expertis (AI-genererat utan förbättring)
Innehåll utan struktur (bara textväggar)
Innehåll som inte svarar på sökintentionen
Brist på relevanta interna länkar
Brist på extern auktoritetsbyggande
För många publicerade sidor → men låg kvalitet → Google tappar förtroende
Saknad av “information gain”—inget nytt värde jämfört med konkurrenterna

Vanliga misstag att akta sig för

Man skriver 40 bloggartiklar → Google indexerar 5 st → resten dör.
Man tror att “många sidor = bra SEO”.
I verkligheten: många dåliga sidor försämrar hela domänens kvalitetspoäng.
Man skriver bara vad alla andra redan har skrivit.
Man optimerar inte för användaren → bara för sökord.

Entities, Knowledge Graph & Entity-Based Indexing

Google har två parallella indexsystem.

Dokumentindex (URL:er)

Det du ser i Search Console.

Entitetsindex (Knowledge Graph)

Abstrakta objekt Google extraherar från dokument:

– företag
– produkter
– personer
– platser
– koncept
– händelser
– organisationer

Varje entitet får:

– attribut
– relationer
– kontext
– beskrivning
– relevansscore
– trustscore

Google bygger entiteter genom:

– strukturerad data
– brödtext
– länkar
– externa databaser (Wikidata, GeoNames, MusicBrainz…)
– cross-document evidence

Varför entiteter är avgörande för indexering

När Google förstår:

“Detta dokument handlar om X och X är en verifierad entitet.”

…då får sidan:

– högre topical precision
– snabbare indexeringskvalificering
– bättre P*/T*/Q*-score
– större sannolikhet att överleva long-term

Entiteter + dokument ihop skapar semantic graphs som Google använder för:

– E-E-A-T
– brand trust
– duplicate detection
– product & review ranking
– lokala sökningar

Entities, Knowledge Graph & Entity-Based Indexing

Google har två parallella indexsystem.

Dokumentindex (URL:er)

Det du ser i Search Console.

Entitetsindex (Knowledge Graph)

Abstrakta objekt Google extraherar från dokument:

– företag
– produkter
– personer
– platser
– koncept
– händelser
– organisationer

Varje entitet får:

– attribut
– relationer
– kontext
– beskrivning
– relevansscore
– trustscore

Google bygger entiteter genom:

– strukturerad data
– brödtext
– länkar
– externa databaser (Wikidata, GeoNames, MusicBrainz…)
– cross-document evidence

Varför entiteter är avgörande för indexering

När Google förstår:

“Detta dokument handlar om X och X är en verifierad entitet.”

…då får sidan:

– högre topical precision
– snabbare indexeringskvalificering
– bättre P*/T*/Q*-score
– större sannolikhet att överleva long-term

Entiteter + dokument ihop skapar semantic graphs som Google använder för:

– E-E-A-T
– brand trust
– duplicate detection
– product & review ranking
– lokala sökningar

PATENT: Managing URLs — Importance Threshold**

Google prioriterar dokument enligt en importance-score:

– länkar
– topical relevans
– trust signals
– use case-signaler
– behavior
– dokumentets roll i sidans struktur
– freshnesseffekter

Dokument som faller under threshold → kastas ut.

Indexering är därför en konkurrenssituation, inte en rättighet.

Patent: US7509315B1 — Managing URLs

PATENT: Historical Data & Staleness

Google analyserar:

– länkevolution
– uppdateringsmönster
– freshnesstrender
– click decay
– dokumentets ålder vs användarintention

Om dokumentet inte längre ger värde → staleness → avindexering.

Patent: US7346839B2 — Information retrieval based on historical data

PATENT: Phrase-Based Indexing – Googles Semantiska Kärna

Google analyserar fraser, inte bara ord.

På en sida om “solceller” förväntas finnas:

– effekt
– växelriktare
– kWh
– installation
– bidrag
– livslängd

Om semantiska fraser saknas → låg T*-score → låg importance.

Patent: US7536408B2 – Phrase-based indexing in an information retrieval system

Faustas Nazarovas

“Jag ser SEO som en vetenskap – inte en trend. För mig handlar det inte om gissningar, utan om att förstå mönstren, matematikens logik och människans beteende bakom varje sökresultat.”

Läs mer om Faustas Nazarovas

Hur Googles indexering fungerar: En tekniskt, patent-grundad genomgång

Innehåll

Vad indexering är och varför Google är selektiv

Varför Google måste vara selektiv

Dokumentet Google lagrar är mer än bara text

INDEXERING ≠ RANKING: Den viktigaste skillnaden

Indexering (får dokumentet komma in?)

Ranking (hur högt ska dokumentet visas?)**

Konsekvens för SEO

Deduplicering: ett av Googles viktigaste system

Google’s Three-Tier Exclusion Engine

Tier 1: Tekniska blockeringar

Vanliga orsaker

Vanliga misstag att akta sig för

Tier 2: Duplicering & Soft-404

Vanliga orsaker

Vanliga misstag att akta sig för

Tier 3: Kvalitet

Först och främst, vad Google menar med “kvalitet”

Vanliga kvalitetssignaler som brister

Vanliga misstag att akta sig för

Entities, Knowledge Graph & Entity-Based Indexing

Dokumentindex (URL:er)

Entitetsindex (Knowledge Graph)

Varför entiteter är avgörande för indexering

Entities, Knowledge Graph & Entity-Based Indexing

Dokumentindex (URL:er)

Entitetsindex (Knowledge Graph)

Varför entiteter är avgörande för indexering

PATENT: Managing URLs — Importance Threshold**

PATENT: Historical Data & Staleness

PATENT: Phrase-Based Indexing – Googles Semantiska Kärna

Faustas Nazarovas