Strana: 1
Štítek: vyhledávače
Marek Prokop zpovídal Dušana Janovského
Co bych o tom víc psal, přečtěte si rozhovor, Dušan Janovský: Seznam se snaží být přísný, sami.
Že fulltext má občas problém s určení nejrelevantnější stránky z webu, o tom víme. Je to důsledek toho, že jsem při specifikaci nedomyslel některé věci. Pracuje se na tom. Já vím, že „pracuje se na tom“ zní otřepaně, ale je to tak.
~~Dušan Janovský: Seznam se snaží být přísný, Marek Prokop, Vyhledávače.info, 13.3.2006~~
V rozhovoru padlo hodně zajímavých informací. Mě nejvíc zaujaly odpovědi na otázky točící se kolem relevantnosti výsledků zmíněného fulltextu. Jako například citovaná odpověď.
Jirka Ch | 13. Březen 2006, 22:22 | „Články“ | Trvalý odkaz | Komentáře (2) | Štítky: Přidat nový štítek, rozhovor, seznam.cz, vyhledávače
Nový fulltext na obchodech Internet Mall
O změnách na obchodech Internet Mall jsem psal tento čtvrtek (Obchody Internet Mall v novém kabátě) a pokračování na sebe nedalo dloho čekat, jenže ne mou zásluhou.
Podrobně se o novém fulltextu rozepsal, „blogující technický ředitel“ společnosti Internet Mall, Michal Táborský, ve spotu Nový fulltext obchodů Internet Mall.
Připomínám jen, že nový fulltext funguje jen na obchodech převedených na nový systém, jejich seznam naleznete na této stránce.
- Související:
- Nový fulltext obchodů Internet Mall – Michal Táborský, Zápisník, 27.8.2005
- Obchody Internet Mall v novém kabátě – Jiří Chomát, Články, 24.8.2005
Jirka Ch | 28. Srpen 2005, 19:33 | „Články“ | Trvalý odkaz | Komentáře (0) | Štítky: internet mall, mall, vyhledávače, vyhledávání
Digitální fotoaparát u mě nehledejte
Mě se to nedávno stalo na velmi konkurenční heslo digitální fotoaparát. Jak tato nechtěná optimalizace dopadla prozradí třeba nástroj Pozice ve vyhledávačích, ze kterého pochází obrázek níže.
Hledání fráze „digitální fotoaparát“ v různých vyhledávačích a pozice domény www.chomat.net (30.6.2005)
Jirka Ch | 30. Červen 2005, 13:42 | „Články“ | Trvalý odkaz | Komentáře (4) | Štítky: fotoaparát, seo, vyhledávače
Google My Search History napovídá sklerotikům
O službě jako takové už napsali jiní, viz níže, ale moc se mi líbí, že přímo při vyhledávání jsem upozorňován, že už jsem tenhle výraz hledal a klikl jsem na jeden z výsledků.

Zatím to sice není zobrazováno vždy, zřejmě to zatím Google testuje, ale je to hodně povedené.
- Související:
- Personalizované hledání na Googlu – Petr Weida, About Weblog, 21.4.2005
- Google My Search History – Jiří Bureš, conBLOG, 21.4.2005
- Google Search History – Dušan Janovský, Yuhůův weblog o webu, 22.5.2005
Jirka Ch | 22. Duben 2005, 22:11 | „Články“ | Trvalý odkaz | Komentáře (1) | Štítky: google, historie, vyhledávače
Být na Seznamu znamená být
Právě se snažím z acess.logu vygrepovat jaké
má jeden nejmenovaný web přístupy z nového fulltextu Seznamu. Výsledek mě hodně překvapil a
rychlou kontrolou jsem zjistil, že podobná změna se udála i na tomto webu,
viz níže. Omlouvám se, ale kódování výrazů neřeším.
Přístupy na tento web z search.seznam.cz
140 [16/Mar/2005] 123 [17/Mar/2005] 39 [15/Mar/2005]
Podělíte se v komentářích jak je to u vás?
Možná vám pomůže tento příkaz, kterým jsem údaje z logu získal:
cat access.log | grep 'search.seznam.cz' | cut -d " " -f 4 | cut -d ":" -f 1 | sort | uniq -ci | sort -nr
Přístupy na tento web z www.google.
94 [17/Mar/2005] 78 [16/Mar/2005] 57 [15/Mar/2005]
A opět příkaz:
cat access.log | grep 'www.google.' | cut -d " " -f 4 | cut -d ":" -f 1 | sort | uniq -ci | sort -nr
Přístupy – Shrnutí
Nárůst přístupů ze Seznamu, pro který jsem neudělal naprosto nic, mě hodně překvapil. Vysvětluji si to nasazením nového fulltextu a hlavně tím, že fulltext je nyní nasazen implicitně. I když samozřejmě míchá výsledky s katalogem, ale je to daleko příjemější a hlavně relevantnější než dříve.
Hledané výrazy na search.seznam.cz
66 letn%ed %e8as 35 turistick%e9 mapy 25 google.cz 24 p%f8evod mp3 23 mp3 do wav 20 www.google.cz 17 wav 12 pl%e1nov%e1n%ed trasy 12 netscape 11 konzumn%ed spole%e8nost 11 dom%e1c%ed pek%e1rna 10 p%f8evod mp3 na wav
Příkaz…
cat access.log | grep 'search.seznam.cz' | cut -d " " -f 11 | tr '?&' 'n' | grep "w=" |cut -d "=" -f 2 |tr '[:upper:]' '[:lower:]' | sort | uniq -ci | sort -nr | tr "+" " "
Hledané výrazy na www.google.
58 rss kan%c3%a1ly 46 google.cz 22 turistick%c3%a9 mapy 19 mp3 p%c5%99ehr%c3%a1va%c4%8d 19 google cz 15 parazit 12 php fotogalerie 12 dom%c3%a1c%c3%ad pek%c3%a1rny 12 domaci pekarny 11 p%c5%99ipojen%c3%ad na internet 11 knedl%c3%adky 11 batoh notebook 10 prohl%c3%ad%c5%bee%c4%8d opera
Příkaz…
cat access.log | grep 'www.google.' | cut -d " " -f 11 | tr '?&' 'n' | grep "q=" |cut -d "=" -f 2 |tr '[:upper:]' '[:lower:]' | sort | uniq -ci | sort -nr | tr "+" " "
Srovnání hledaných frází na Google a na Seznamu se budu ještě věnovat, stejně jako přístupům výše.
Jirka Ch | 18. Březen 2005, 14:07 | „Články“ | Trvalý odkaz | Komentáře (8) | Štítky: google, seznam.cz, vyhledávače
Kde mě našli?
Milan Kryl reagoval, v článku Odkud mě hledají?,na spot Dušana Janovského – Podíl vyhledávačů bez větších změn, který reagoval na tiskovou zprávu Navrcholu.cz: Seznam je hlavní bránou do českého Internetu. Vše souvisí se vším, jak se zdá.
Nemohu se tedy nepřidat a zároveň nepochlubit, kde mě uživatelé hledají nebo spíše nacházejí.
Listopad 2004:
- Seznam.cz 51,8%
- Google 39,8%
- Jyxo.cz 4,5%
- Zoohoo.cz 2,4%
- Centrum.cz 0,6%
Složení vyhledavačů je u mě jiné než u Milana, ale to je tím, že nemám na stránkách jen odborné texty. Nicméně Seznam je skutečně branou do českého internetu a to přestože má jeho vyhledávání do dokonalosti hodně daleko.
Související:
- Odkud mě hledají? – (Milan Kryl, Kryl Blog, 2.12.2004)
- Podíl vyhledávačů bez větších změn – (Dušan Janovský, Yuhůův weblog o webu, 2.12.2004)
- Navrcholu.cz: Seznam je hlavní bránou do českého Internetu – (tisková zpráva Internet Info, 2.12.2004)
Jirka Ch | 2. Prosinec 2004, 23:45 | „Články“ | Trvalý odkaz | Komentáře (0) | Štítky: google, seznam.cz, vyhledávače, weblogy
Komu jste podobní?
Například o mě tvrdí Jan Bien, že jsem podobný Petrovi „Pixy“ Staníčkovi a to je samozřejmě důvod proč to sem píšu :-) Přece jen když vás Google přirovná (screenshot) k takové veličině je to už důvod k zamyšlení a oslavě :-)
Jan Bien je prý podobný Marku Propokovi, Petr Weida zase Jirkovi Burešovi a Dušanovi „Yuhů“ Janovskému (viz odkzazy níže).
Zajímavější ovšem je podle čeho Google vyhodnocuje onu podobnost a jaké stránky se se podle něj podobají. Celkem by mě zajímalo co všechno hraje roli při vyhodnocování podobostí. O tom by zřejmě mohl dlouho povídat Jirka Lahvička, který používá genetické a další algoritmy pro vyhodnocování do které kategorie spadá konkrétní článek.
PS: toto je první spot, který jsem napsal a publikoval cestou vlakem domů.
Související:
- Mraveniště je nejpodobnější Sově v síti – (Jan Bien, Mraveniště Weblog, 19.5.2004)
- About je podobný na Nitra, Yuhůa a J. Bureše – (Petr Weida, About weblog, 19.5.2004)
Jirka Ch | 19. Květen 2004, 19:07 | „Články“ | Trvalý odkaz | Komentáře (7) | Štítky: google, vyhledávače
Zaindexuje-li Google?
Považuje se obecně za
bernou minci, že Google
neindexuje dynamicky generované stránky s parametrem id. Jenže
to není pravda, pro ověření stačí běžný
dotaz do Google. Možná to tak platilo dříve, ale v tuto
chvíli Google indexuje stránky ve tvaru http://www.example.com/neco/?…
zcela bez bázně a hany, ověřeno na několika rozsáhlých serverech. Jestli
máte, přes tuto skutečnost, obavy, tak vás samozřejmě nikdo nenutí
parametr id používat.
Pokud budete mít jako parametr stránky třeba clanek, ale jeho
hodnota bude delší
než je únosná mez, tak se do výsledků na Google stejně
nedostanete.
Stále ovšem existují parametry, které opravdu není radno používat. V případě dvou posledních si dokonce myslím, že to o nich není až tak známo.
Parametry:
- id –
idse nyní indexuje zcela běžně (již dole na 1 stránce) - phpsessid –
ve výsledcích není
phpsessidjako parametr; jen vyjímky, ale s prázdnou hodnotou - search –
ve výsledcích není
searchjako parametr - find –
ve výsledcích není
findjako parametr
Víte ještě o nějakém dalším parametru na blacklistu Googlu?
Aha, objevil jsem objevené…
- Google indexuje stránky obsahující parametr id – (Milan Kryl, Kryl Blog, 26.2.2004)
Související:
- Id chyba Google odstraněna – (Dušan Janovský, Yuhůův weblog o webu, 26.3.2004)
Jirka Ch | 26. Březen 2004, 0:04 | „Články“ | Trvalý odkaz | Komentáře (1) | Štítky: vyhledávače
Nedáte si pizzu v N.Y. ?
Petr Weida, sepsal článek o nové funkci Google local. Lokální hledání pizzerie v New Yorku, je skvělý příklad využití této nové aplikace.
Až si budu moct najít lokální hospůdku tak budu spokojený maximálně…
Související:
- Google local
- Lokální hledání na Googlu – (Petr Weida, About Weblog, 16.3.2004)
Jirka Ch | 18. Březen 2004, 0:44 | „Články“ | Trvalý odkaz | Komentáře (0) | Štítky: google, vyhledávače
Jak jsem se smazal z Google
Kolega mě upozornil na skvělou funkci Google, která mi do této chvíle unikala. Podívejte se na stránku Remove Content from Googles Index, to ještě není ono, ale dozvíte se zde, jak zakázat (nebo odebrat již existující stránku) Googlu indexovat danou stránku, dokumenty, obrázky a nebo si vaši stránku uložit do archivu.
Tato řešení jsou založena na vložení speciálních „meta“ hlaviček
do kódu stránek, například <meta name=„robots“
content=„noarchive“ />, nebo na souboru robots.txt. Samozřejmě
nějaký čas trvá, než tyto informace Google zjistí a provede je ve své
databázi.
To co mě zaujalo, je skvělá možnost vše uspíšit a nečekat: automatic URL removal system.
Na této stránce je možné získat přístup (jednoduché přihlášení, vyžaduje se email) na stránku, kde je možné Googlu sdělit aby aplikoval změny ihned a bez čekání.
Můžete zde Googlu říci aby aplikoval změny:
- v
robots.txt - v
metahlavičkách - aby odstranil, jednotlivé, neexistující stránky z databáze a archivu Googlu
- můžete smazat své příspevky v Google Groups
Pokud zadáte, do tohoto systému, požadavek na vymazání a nebo na změnu
meta hlaviček, projeví se změny cca za 24 hodin (v mém
případě za 36) od zadání. Při požadavku na vymazání jediné stránky,
Google kontroluje zda server nemá výpadek a zda stránka skutečně
neexistuje. Není tedy možné vymazat „nepohodlné“ stránky :-)
Myslím, že výše uvedený způsob je ideální, ve chvíli kdy jste
zapoměli do robots.txt zapsat stránku, podadresář, který si
nechcete nechat indexovat, ale už se stalo. Změny proto potřebujete rychle.
Také v případě, že na jakémkoli serveru zrušíte bez náhrady nějakou
sekci, je ideální zaindexované stránky z Google smazat. Pokud
náhrada existuje, je samozřejmě lepší použít přesměrování.
Sám jsem si vše vyzkoušel a smazal jsem se. Stránka www.chomat.net/omne.html již ve výsledcích na Google neexistuje a naopak si již stihl zaindexovat stránku novou www.chomat.net/omne/.
Třeba se něčeho podobného dočkáme také u Jyxa.
Související:
Jirka Ch | 14. Březen 2004, 19:46 | „Články“ | Trvalý odkaz | Komentáře (0) | Štítky: google, vyhledávače