View Full Version : Google
Na koji način google pretražuje samo siteove određene zemlje (npr. hrvatske), kako ih prepozna ?
bbsantic
22-11-2002, 01:10
Vrlo zanimljivo pitanje. Mislim da Višnja nije u pravu, jer google uredno prikaže moju web stranicu na kojoj unutar META taga piše samo:
HTTP-EQUIV="Content-Type"
CONTENT="text/html;
charset=windows-1250">
Prvo dvoje nema veze s Hrvatskom a ovo treće koristi se i npr. u Srbiji koju Google uredno razlikuje od Hrvatske prilikom pretraživanja. Ne znam koji se kriterij koristi, što sam više razmišljao i provjeravao, to sam zbunjeniji. Najviše me zbunilo što na mojoj web stranici razlikuje hrvatsku verziju od stranice na kojoj piše da engleska verzija još nije gotova
:zbunj:
Originally posted by bbsantic
Prvo dvoje nema veze s Hrvatskom a ovo treće koristi se i npr. u Srbiji koju Google uredno razlikuje od Hrvatske prilikom pretraživanja.
Ne bih se složio...
Meni kad tražim "hrvatske stranice" uredno izlista i srpske i bosanske.
charset=windows-1250
ne razlikuje google hrvatske od srpskih
bbsantic
22-11-2002, 14:31
Originally posted by kezo
charset=windows-1250
ne razlikuje google hrvatske od srpskih
Ne znam koliko je to točno. Evo primjera - pretražuje se naravno pojam bojanova stranica (marketinški razlozi), a rezultati su slijedeći:
Pretraživanje hrvatskih stranica, google na hrvatskom:
Na vrhu popisa. U rezultatima popisa NEMA srpskih stranica!
Pretraživanje srpskih stranica, google i dalje na lokaliziran na hrvatskom (mislim da i to ima neke veze!) :
Nema moje web stranice. Rezultati isključivo srpske stranice.
Pretraživanje slovenskih stranica, google na hrvatskom:
Samo moja web stranica, ovaj put link na .tk verziju, koja se u prethodnim pretraživanjima nije javila kao rezultat!?
Pretraživanje na engleskom, google na hrvatskom:
Dva rezultata, nemaju veze sa mnom - jedan iz Hrvatske, drugi iz Srbije a obe stranice ne koriste slova s kvačicama.
Nisam toliko siguran oko zaključaka...
Moje istraživanje ;)
Google na hrvatskom i tražim riječ "bojan" na hrvatskom jeziku.
Na prvom mjestu je stranca nekog Slovenca pisana na engleskom :zbunj:
Među prvih 10 su srpski elitesecurity.org i bosanski omnibus.ba
Google na hrvatskom i tražim riječ "bojan" na srpskom jeziku.
U prvih 10 rezultata su samo srpske stranice.
Google na hrvatskom i tražim riječ "bojan" na slovenskom jeziku.
U prvih 10 rezultata su samo slovenske stranice.
Kraj istraživanja :D
Moj zaključak:
Google razlikuje hrvatski, srpski i slovenski, bez obzira na isti charset (jedino mu hrvatski nije baš potpuno jasan :rolleyes: )
I kaj na kraju ??? Na koji način google pretažuje hrvatske stranice, kada uključim opciju "Pretraži hrvatski stranice"
moje misljenje: na osnovu IP adrese koju kompjuter dobije kad se prikljuci na Net, Google zna iz koje si zemlje! Mislim da svaka zemlja ima svoj IP opseg. Tako, ako shvati da si iz HR, davace ti samo HR rezultate; ako "zna" da si iz SR, davace ti samo SR rezultate! Naravno, slicnost jezika mozda igra neku ulogu...
Originally posted by spyder
I kaj na kraju ??? Na koji način google pretažuje hrvatske stranice, kada uključim opciju "Pretraži hrvatski stranice"
Neobjašnjiva misterija! :eek:
Originally posted by ZoNi
moje misljenje: na osnovu IP adrese koju kompjuter dobije kad se prikljuci na Net, Google zna iz koje si zemlje! Mislim da svaka zemlja ima svoj IP opseg. Tako, ako shvati da si iz HR, davace ti samo HR rezultate; ako "zna" da si iz SR, davace ti samo SR rezultate! Naravno, slicnost jezika mozda igra neku ulogu... da, ima onih alata geoblabla, doduse kostaju dosta, ali dobro prepozna otkud si..
Originally posted by ZoNi
moje misljenje: na osnovu IP adrese koju kompjuter dobije kad se prikljuci na Net, Google zna iz koje si zemlje! Mislim da svaka zemlja ima svoj IP opseg. Tako, ako shvati da si iz HR, davace ti samo HR rezultate; ako "zna" da si iz SR, davace ti samo SR rezultate! Naravno, slicnost jezika mozda igra neku ulogu...
A što kažeš na ovo. Ja odem na google i promjeni jezik na npr. Finski, i odaberm da pretražuje samo finske stranice.
Kak onda može po IP adresi pretraživati. Mislim da to nije to. Ajmo dalje. Imate još kakve prijedloge !
a kako onda kad otvorim google.com mi nudi prertrazi web i pretrazi hrvatske web stranice, a ne srpske ili finske ?
To odredi po IP-u, ali ne i pretražuje stranice. Ima neki system po kojemu razvrstava hrvatske stranice od ostalih npr. engleskih.
Ideja da Google razlikuje jezike po meta tagovima ne stoji.
Google razlikuje hrvatski i srpski bez obzira na iste meta tagove (zbog iste abecede).
"language=hr" se baš i ne koristi redovito.
Ono sa IP adresom posjetitelja isto ne stoji. Kad tražim hrvatske stranice - dobijem hrvatske stranice, kad tražim srpske - dobijem srpske.
Moja pretpostavka je da Google ima bazu karakterističnih riječi za pojedine jezike (za onih tridesetak jezika koje zna).
Onda, kad indeksira stranice, potraži u njima karakteristične riječi i ako ih nađe, svakoj indeksiranoj stranici doda oznaku jezika kojim je pisana.
Recimo, ako na stranici nađe riječ "klikni", time je već znatno smanjio izbor. Ako nađe riječ "riječ" onda zna da je to hrvatska riječ. Prema tome iz kojeg jezika ima najviše karakterističnih riječi određuje kojim jezikom je stranica pisana.
To ujedno objašnjava i sljedeće:
Ako stranice pisane ijekavicom smatra za hrvatske, a one pisane ekavicom smatra za srpske, to objašnjava i zašto se ne mogu pretraživati samo BH stranice, nego se BH stranice računaju kao HR.
Google ne može odgonetnuti je li Hrvat ili Bosanac napisao "svijet".
Također, Srbi ne koriste riječi pisane ijekavicom karakteristične za hrvatski jezik poput "svijet" ili "rijeci". Zato se pri traženju srpskih stranica u rezultatima ne nalaze hrvatske stranice.
Nasuprot tome, iste te riječi pisane ekavicom "svet", "reci" postoje u hrvatskom jeziku (s drugim značenjem). Zato se pri traženju hrvatskih stranica u rezultate ubacuju i srpske.
Naravno, ovo su samo nagađanja, ali meni se čini da ova teorija, za sada, najbolje drži vodu.
Originally posted by ZoNi
moje misljenje: na osnovu IP adrese koju kompjuter dobije kad se prikljuci na Net, Google zna iz koje si zemlje! Mislim da svaka zemlja ima svoj IP opseg. Tako, ako shvati da si iz HR, davace ti samo HR rezultate; ako "zna" da si iz SR, davace ti samo SR rezultate! Naravno, slicnost jezika mozda igra neku ulogu...
ali to nije pitanje, nego na koji način razlikuje stranice u svojoj arhivi
bbsantic
23-11-2002, 14:38
Originally posted by gambo
Moja pretpostavka je da Google ima bazu karakterističnih riječi za pojedine jezike (za onih tridesetak jezika koje zna).
Onda, kad indeksira stranice, potraži u njima karakteristične riječi i ako ih nađe, svakoj indeksiranoj stranici doda oznaku jezika kojim je pisana.
Svaka čast, ovaj zaključak mi ima najviše smisla, s obzirom na ono što sam vidio, iako mislim da jezik nije jedini kriterij po kojem google bira nacionalnu pripadnost stranice prilikom svrstavanja siteova u svoju bazu podataka.
Originally posted by kezo
ali to nije pitanje, nego na koji način razlikuje stranice u svojoj arhivi
pa ovako: Google zna na kojem sajtu se nalazi npr. rec "webmajstor"... recimo da je to sajt www.webmajstor.net - njegova brojcana oznaka je npr. 100.100.100.100, a na osnovu tog broja Google moze da zakljuci u kojoj zemlji je sajt hostovan (tj. unutar kog domena!)...
Originally posted by ZoNi
pa ovako: Google zna na kojem sajtu se nalazi npr. rec "webmajstor"... recimo da je to sajt www.webmajstor.net - njegova brojcana oznaka je npr. 100.100.100.100, a na osnovu tog broja Google moze da zakljuci u kojoj zemlji je sajt hostovan (tj. unutar kog domena!)...
Da i?!
Evo ja mogu nabaviti .hr domenu i hostati je u SADu (jer mi je, recimo, tamo jeftinije), što znači da ću imati IP koji je dodjeljen nekoj firmi koja hosta stranice u SADu.
I kako sad da Google zna da je to hr stranica (osim po domeni)?!
Isto tako mogu napraviti neku com domenu, i staviti je na neki host u SADu i što imam?! Ha?!
Originally posted by ZoNi
pa ovako: Google zna na kojem sajtu se nalazi npr. rec "webmajstor"... recimo da je to sajt www.webmajstor.net - njegova brojcana oznaka je npr. 100.100.100.100, a na osnovu tog broja Google moze da zakljuci u kojoj zemlji je sajt hostovan (tj. unutar kog domena!)...
po toj logici ne bi mogao hostati stranice na serveru van hrvatske ako želim da mi ih google pretražuje pod hrvatske, to mi objašnjenje ne pije vodu.
ono sa prepoznatljivim riječima unutar jezika, koliko god bilo nevjerovatno, je ipak logičnije
bbsantic
24-11-2002, 00:57
Originally posted by ZoNi
osnovu tog broja Google moze da zakljuci u kojoj zemlji je sajt hostovan (tj. unutar kog domena!)...
Jesi li ti uopće malo pogledao po rezultatima istraživanja?
Ako je site na Hr jeziku, bit će izlistan čak i ako ima Austrijsku domenu (ne govorim napamet, jedan od primjera).
Jedino što me zbunilo je to što npr. Yu veleposlanstvo u Hrvatskoj smatra za Hr site. S druge strane, možda je pronašao riječi poput Zagreb i Hrvatska, vidio hr domenu i krivo zaključio.
vBulletin® v3.7.4, Copyright ©2000-2009, Jelsoft Enterprises Ltd.