Googles index är världens mest avancerade informationssystem. Det är inte en sökmotor i klassisk mening – det är en kontinuerligt omvärderande kvalitetsmotor som:
– crawlar webben
– analyserar dokument
– extraherar entiteter
– bearbetar användarbeteenden
– bedömer kvalitet, trust och topical relevans
– avgör vilka dokument som får behålla sin plats i indexet
Denna innehåll beskriver:
– vad Google lagrar i sitt index
– hur patentsystem som “Importance Threshold”, “Information Gain” och “Phrase-Based Indexing” styr indexering
– hur Google skiljer mellan indexering & ranking
– hur Google avgör crawl-hastighet och crawl-prioritet
– varför vissa sidor tas bort från index
– varför nya sidor tar tid att indexeras
– hur du bygger en sajt som konsekvent kvalificerar sig
Informationen du hittar är baserad på expertis, erfarenhet, patent, föreläsningar från Google Search Team och empirisk data från miljontals URLer.
När Googlebot hämtar en sida går dokumentet genom en pipeline:
1. Crawl (HTML-first fetch)
2. Rendering (JS / WRS)
3. Elaboration (analys & extraction)
4. Indexing (lagringsbeslut)
5. Ranking (matchning mot query → dynamic scoring)
Indexering handlar inte om positioner. Indexering innebär:
👉 “Får dokumentet över huvud taget lagras i Googles index och bli **eligible** att visas?”
Inte mer.
Ranking sker först efter indexering och använder liknande men betydligt mer query-specifika signalsystem.
Webben växer snabbare än Googles index
– duplicerat innehåll exploderar
– spamvolym är extrem
– användare tolererar inte dåliga resultat
Google försöker därför endast indexera: “The useful part of the web.”
Google lagrar:
– rubriker
– strukturerad data
– mobilversionens HTML
– interna & externa länkar
– canonical-signaler
– bilder + alt-texter
– videometadata
– entities extraherade från texten
– vector embeddings (semantisk representation)
– historik (länkhistorik, uppdateringshistorik, click history)
– trustsignaler på dokument- & domännivå
Google lagrar även icke-indexerade dokument.
Skillnaden: de är inte eligibla att visas i SERP.
Många tror att:
“Min sida är indexerad → därför syns den.”
Men Google har två separata pipelines:
Styrs av:
– importance threshold
– dupliceringsdetektion
– innehållskvalitet (Q*)
– tekniska barriärer
– host-level quality
– crawl frequency
– topical relevans
Indexering är en binär process:
✔ indexerad
✘ inte indexerad
När en query körs i SERP aktiveras:
– query expansion
– embeddings-matchning
– intent detection
– P*, T*, Q* i realtid
– freshnessevaluation
– experimental scoring (interleaving)
– användarsignaler (CTR, dwell time, short clicks)
Ett dokument kan därför vara:
– indexerat → men aldrig få trafik
– avindexerat → om ranking faller för lågt under importance threshold
En sida kan:
1. vara indexerad
2. ranka lågt
3. tappa användarbeteenden
4. sjunka i importance
5. tappa crawl-frekvens
6. falla ur index
Då ser du “Crawled – currently not indexed” i Google Search Console
Indexeringen är alltså en kvalitetströskel, inte en garanti.
60 % av webben är duplicerad. Google måste därför:
– gruppera liknande dokument
– välja canonical
– kasta bort alla andra kopior
Phrase-based indexing + embeddings + boilerplate-stripping + document chunking gör att Google kan avgöra:
“Finns verkligt unikt värde här?”
Om inte → ingen indexering.
Detta är inte Googles officiella namn, utan en förenklad modell av hur Google filtrerar bort URL:er innan de ens får chansen att ranka.
Det viktiga: Google har inte tid att indexera skräp. Den filtrerar bort allt som inte tydligt ser ut som värdefullt.
Här är vad varje nivå innebär:
“Kan Google komma åt denna sida?”
Detta är den första tröskeln. Innan Google ens funderar på kvalitet vill den bara veta om sidan får och kan crawlas.
robots.txt blockeringar
Ex: Disallow: /wp-admin/ — men ofta råkar man blockera hela sajten av misstag.
noindex-taggar
Exempel: ett staging-läge råkade pushas till produktion med noindex kvar.
Password protection / IP-blockering
Vanligt på utvecklingsmiljöer.
Server errors:
5xx-fel
Timeout
Redirect loops
Felaktiga canonical-taggar som pekar mot 404 eller annan domän.
JavaScript som hindrar rendering
Googlebot fastnar → “Crawled – currently not indexed”.
Man tror att sidan är crawlbar bara för att man själv kan se den i webbläsaren.
Man använder en plugin som genererar fel canonicals (EX: Shopify-appar, Yoast-inställningar).
Man blockar filtreringssidor men “råkar blocka” underkategorier också.
Man sätter noindex på testversioner → glömmer ta bort.
Man har en sitemap som pekar mot URL:er som inte ens finns.
“Tillför denna sida något nytt?”
När Google väl kan läsa din sida evaluerar den nästa filter:
Är detta faktiskt en unik och värdefull sida, eller är det duplicerat/tråkigt?
Dubbla URL-versioner
?color=red
?sort=price
/page/2
→ Google ser dem som duplicerade.
Thin content:
50–120 ord på en sida som borde ha 600–1000.
Soft-404:
Sidan ser ut som en 404 för Google även om den tekniskt sett är “200 OK”.
Exempel:
Tomma kategorisidor (Shopify och WooCommerce klassiker)
Produkter som är out of stock → “den här finns inte längre” utan alternativ.
“Coming soon”-sidor
Mall-innehåll
10 000 produktsidor som använder exakt samma text med olika färg/variant.
Kategorisidor utan produkter → Soft-404
Produktsidor som saknar riktig beskrivning → “Crawled – not indexed”
Man skriver AI-content → men AI-texten liknar redan befintligt innehåll → duplicering
Filtrerings-URL:er indexeras → utspädning av ranking signaler
För många liknande artiklar:
“10 tips för X” → “10 knep för X” → “Guide för X”
“Är detta tillräckligt bra för att vi ska lägga det i vårt index?”
Detta är den kritiska delen.
När Google kan crawla sidan och den inte är duplicerad återstår frågan:
Google indexerar inte allt då det är dyrt.
Det är här 86 % av alla icke-indexerade sidor faller bort.
Är detta bästa svaret för en sökare?
Är innehållet seriöst, korrekt, djupgående?
Visar sidan E-E-A-T signaler?
Ser sidan ut som en “tunn affiliate”, “AI-content”, eller “SEO content farm”?
Är designen modern och användbar, eller ser sidan ut som 2012-template?
Finns det interna länkar som pekar hit och ger värde?
Innehåll utan riktig expertis (AI-genererat utan förbättring)
Innehåll utan struktur (bara textväggar)
Innehåll som inte svarar på sökintentionen
Brist på relevanta interna länkar
Brist på extern auktoritetsbyggande
För många publicerade sidor → men låg kvalitet → Google tappar förtroende
Saknad av “information gain”—inget nytt värde jämfört med konkurrenterna
Man skriver 40 bloggartiklar → Google indexerar 5 st → resten dör.
Man tror att “många sidor = bra SEO”.
I verkligheten: många dåliga sidor försämrar hela domänens kvalitetspoäng.
Man skriver bara vad alla andra redan har skrivit.
Man optimerar inte för användaren → bara för sökord.
Google har två parallella indexsystem.
Det du ser i Search Console.
Abstrakta objekt Google extraherar från dokument:
– företag
– produkter
– personer
– platser
– koncept
– händelser
– organisationer
Varje entitet får:
– attribut
– relationer
– kontext
– beskrivning
– relevansscore
– trustscore
Google bygger entiteter genom:
– strukturerad data
– brödtext
– länkar
– externa databaser (Wikidata, GeoNames, MusicBrainz…)
– cross-document evidence
När Google förstår:
“Detta dokument handlar om X och X är en verifierad entitet.”
…då får sidan:
– högre topical precision
– snabbare indexeringskvalificering
– bättre P*/T*/Q*-score
– större sannolikhet att överleva long-term
Entiteter + dokument ihop skapar semantic graphs som Google använder för:
– E-E-A-T
– brand trust
– duplicate detection
– product & review ranking
– lokala sökningar
Google har två parallella indexsystem.
Det du ser i Search Console.
Abstrakta objekt Google extraherar från dokument:
– företag
– produkter
– personer
– platser
– koncept
– händelser
– organisationer
Varje entitet får:
– attribut
– relationer
– kontext
– beskrivning
– relevansscore
– trustscore
Google bygger entiteter genom:
– strukturerad data
– brödtext
– länkar
– externa databaser (Wikidata, GeoNames, MusicBrainz…)
– cross-document evidence
När Google förstår:
“Detta dokument handlar om X och X är en verifierad entitet.”
…då får sidan:
– högre topical precision
– snabbare indexeringskvalificering
– bättre P*/T*/Q*-score
– större sannolikhet att överleva long-term
Entiteter + dokument ihop skapar semantic graphs som Google använder för:
– E-E-A-T
– brand trust
– duplicate detection
– product & review ranking
– lokala sökningar
Google prioriterar dokument enligt en importance-score:
– länkar
– topical relevans
– trust signals
– use case-signaler
– behavior
– dokumentets roll i sidans struktur
– freshnesseffekter
Dokument som faller under threshold → kastas ut.
Indexering är därför en konkurrenssituation, inte en rättighet.
Google analyserar:
– länkevolution
– uppdateringsmönster
– freshnesstrender
– click decay
– dokumentets ålder vs användarintention
Om dokumentet inte längre ger värde → staleness → avindexering.
Patent: US7346839B2 — Information retrieval based on historical data
Google analyserar fraser, inte bara ord.
På en sida om “solceller” förväntas finnas:
– effekt
– växelriktare
– kWh
– installation
– bidrag
– livslängd
Om semantiska fraser saknas → låg T*-score → låg importance.
Patent: US7536408B2 – Phrase-based indexing in an information retrieval system
“Jag ser SEO som en vetenskap – inte en trend. För mig handlar det inte om gissningar, utan om att förstå mönstren, matematikens logik och människans beteende bakom varje sökresultat.”