Strana: 1

Štítek: vyhledávače

Marek Prokop zpovídal Dušana Janovského

Co bych o tom víc psal, přečtěte si rozhovor, Dušan Janovský: Seznam se snaží být přísný, sami.

Že fulltext má občas problém s určení nejrelevantnější stránky z webu, o tom víme. Je to důsledek toho, že jsem při specifikaci nedomyslel některé věci. Pracuje se na tom. Já vím, že „pracuje se na tom“ zní otřepaně, ale je to tak.

~~Dušan Janovský: Seznam se snaží být přísný, Marek Prokop, Vyhledávače.info, 13.3.2006~~

V rozhovoru padlo hodně zajímavých informací. Mě nejvíc zaujaly odpovědi na otázky točící se kolem relevantnosti výsledků zmíněného fulltextu. Jako například citovaná odpověď.

| | Články | Trvalý odkaz | Komentáře (2) | Štítky: , , ,


Nový fulltext na obchodech Internet Mall

O změnách na obchodech Internet Mall jsem psal tento čtvrtek (Obchody Internet Mall v novém kabátě) a pokračování na sebe nedalo dloho čekat, jenže ne mou zásluhou.

Podrobně se o novém fulltextu rozepsal, „blogující technický ředitel“ společnosti Internet Mall, Michal Táborský, ve spotu Nový fulltext obchodů Internet Mall.

Připomínám jen, že nový fulltext funguje jen na obchodech převedených na nový systém, jejich seznam naleznete na této stránce.

| | Články | Trvalý odkaz | Komentáře (0) | Štítky: , , ,


Digitální fotoaparát u mě nehledejte

Mě se to nedávno stalo na velmi konkurenční heslo digitální fotoaparát. Jak tato nechtěná optimalizace dopadla prozradí třeba nástroj Pozice ve vyhledávačích, ze kterého pochází obrázek níže.

Digitální fotoaparát na chomat.net 30.6.2005

Hledání fráze „digitální fotoaparát“ v různých vyhledávačích a pozice domény www.chomat.net (30.6.2005)

| | Články | Trvalý odkaz | Komentáře (4) | Štítky: , ,


Google My Search History napovídá sklerotikům

O službě jako takové už napsali jiní, viz níže, ale moc se mi líbí, že přímo při vyhledávání jsem upozorňován, že už jsem tenhle výraz hledal a klikl jsem na jeden z výsledků.

Google My Search History

Zatím to sice není zobrazováno vždy, zřejmě to zatím Google testuje, ale je to hodně povedené.

| | Články | Trvalý odkaz | Komentáře (1) | Štítky: , ,


Být na Seznamu znamená být

Právě se snažím z acess.logu vygrepovat jaké má jeden nejmenovaný web přístupy z nového fulltextu Seznamu. Výsledek mě hodně překvapil a rychlou kontrolou jsem zjistil, že podobná změna se udála i na tomto webu, viz níže. Omlouvám se, ale kódování výrazů neřeším.

Přístupy na tento web z search.seznam­.cz

140 [16/Mar/2005]
123 [17/Mar/2005]
 39 [15/Mar/2005]

Podělíte se v komentářích jak je to u vás?

Možná vám pomůže tento příkaz, kterým jsem údaje z logu získal:

cat access.log | grep 'search.seznam.cz' | cut -d " " -f 4 | cut -d ":" -f 1 | sort | uniq -ci | sort -nr

Přístupy na tento web z www.google.

94 [17/Mar/2005]
78 [16/Mar/2005]
57 [15/Mar/2005]

A opět příkaz:

cat access.log | grep 'www.google.' | cut -d " " -f 4 | cut -d ":" -f 1 | sort | uniq -ci | sort -nr

Přístupy – Shrnutí

Nárůst přístupů ze Seznamu, pro který jsem neudělal naprosto nic, mě hodně překvapil. Vysvětluji si to nasazením nového fulltextu a hlavně tím, že fulltext je nyní nasazen implicitně. I když samozřejmě míchá výsledky s katalogem, ale je to daleko příjemější a hlavně relevantnější než dříve.

Hledané výrazy na search.seznam.cz

66 letn%ed %e8as
35 turistick%e9 mapy
25 google.cz
24 p%f8evod mp3
23 mp3 do wav
20 www.google.cz
17 wav
12 pl%e1nov%e1n%ed trasy
12 netscape
11 konzumn%ed spole%e8nost
11 dom%e1c%ed pek%e1rna
10 p%f8evod mp3 na wav

Příkaz…

cat access.log | grep 'search.seznam.cz' |  cut -d " " -f 11 | tr '?&' 'n' | grep "w=" |cut -d "=" -f 2 |tr '[:upper:]' '[:lower:]' | sort | uniq -ci | sort -nr | tr "+" " "

Hledané výrazy na www.google.

58 rss kan%c3%a1ly
46 google.cz
22 turistick%c3%a9 mapy
19 mp3 p%c5%99ehr%c3%a1va%c4%8d
19 google cz
15 parazit
12 php fotogalerie
12 dom%c3%a1c%c3%ad pek%c3%a1rny
12 domaci pekarny
11 p%c5%99ipojen%c3%ad na internet
11 knedl%c3%adky
11 batoh notebook
10 prohl%c3%ad%c5%bee%c4%8d opera

Příkaz…

cat access.log | grep 'www.google.' |  cut -d " " -f 11 | tr '?&' 'n' | grep "q=" |cut -d "=" -f 2 |tr '[:upper:]' '[:lower:]' | sort | uniq -ci | sort -nr | tr "+" " "

Srovnání hledaných frází na Google a na Seznamu se budu ještě věnovat, stejně jako přístupům výše.

| | Články | Trvalý odkaz | Komentáře (8) | Štítky: , ,


Kde mě našli?

Milan Kryl reagoval, v článku Odkud mě hledají?,na spot Dušana Janovského – Podíl vyhledávačů bez větších změn, který reagoval na tiskovou zprávu Navrcholu.cz: Seznam je hlavní bránou do českého Internetu. Vše souvisí se vším, jak se zdá.

Nemohu se tedy nepřidat a zároveň nepochlubit, kde mě uživatelé hledají nebo spíše nacházejí.

Listopad 2004:

  • Seznam.cz 51,8%
  • Google 39,8%
  • Jyxo.cz 4,5%
  • Zoohoo.cz 2,4%
  • Centrum.cz 0,6%

Složení vyhledavačů je u mě jiné než u Milana, ale to je tím, že nemám na stránkách jen odborné texty. Nicméně Seznam je skutečně branou do českého internetu a to přestože má jeho vyhledávání do dokonalosti hodně daleko.

Související:

| | Články | Trvalý odkaz | Komentáře (0) | Štítky: , , ,


Komu jste podobní?

Například o mě tvrdí Jan Bien, že jsem podobný Petrovi „Pixy“ Staníčkovi a to je samozřejmě důvod proč to sem píšu :-) Přece jen když vás Google přirovná (screenshot) k takové veličině je to už důvod k zamyšlení a oslavě :-)

Jan Bien je prý podobný Marku Propokovi, Petr Weida zase Jirkovi Burešovi a Dušanovi „Yuhů“ Janovskému (viz odkzazy níže).

Zajímavější ovšem je podle čeho Google vyhodnocuje onu podobnost a jaké stránky se se podle něj podobají. Celkem by mě zajímalo co všechno hraje roli při vyhodnocování podobostí. O tom by zřejmě mohl dlouho povídat Jirka Lahvička, který používá genetické a další algoritmy pro vyhodnocování do které kategorie spadá konkrétní článek.

PS: toto je první spot, který jsem napsal a publikoval cestou vlakem domů. 

Související:

| | Články | Trvalý odkaz | Komentáře (7) | Štítky: ,


Zaindexuje-li Google?

Považuje se obecně za bernou minci, že Google neindexuje dynamicky generované stránky s parametrem id. Jenže to není pravda, pro ověření stačí běžný dotaz do Google. Možná to tak platilo dříve, ale v tuto chvíli Google indexuje stránky ve tvaru http://www.example.com/neco/?… zcela bez bázně a hany, ověřeno na několika rozsáhlých serverech. Jestli máte, přes tuto skutečnost, obavy, tak vás samozřejmě nikdo nenutí parametr id používat.

Pokud budete mít jako parametr stránky třeba clanek, ale jeho hodnota bude delší než je únosná mez, tak se do výsledků na Google stejně nedostanete.

Stále ovšem existují parametry, které opravdu není radno používat. V případě dvou posledních si dokonce myslím, že to o nich není až tak známo.

Parametry:

  • id – id se nyní indexuje zcela běžně (již dole na 1 stránce)
  • phpsessid – ve výsledcích není phpsessid jako parametr; jen vyjímky, ale s prázdnou hodnotou
  • search – ve výsledcích není search jako parametr
  • find – ve výsledcích není find jako parametr

Víte ještě o nějakém dalším parametru na blacklistu Googlu?

Aha, objevil jsem objevené…

Související:

| | Články | Trvalý odkaz | Komentáře (1) | Štítky:


Nedáte si pizzu v N.Y. ?

Petr Weida, sepsal článek o nové funkci Google local. Lokální hledání pizzerie v New Yorku, je skvělý příklad využití této nové aplikace.

Až si budu moct najít lokální hospůdku tak budu spokojený maximálně…

Související:

| | Články | Trvalý odkaz | Komentáře (0) | Štítky: ,


Jak jsem se smazal z Google

Kolega mě upozornil na skvělou funkci Google, která mi do této chvíle unikala. Podívejte se na stránku Remove Content from Googles Index, to ještě není ono, ale dozvíte se zde, jak zakázat (nebo odebrat již existující stránku) Googlu indexovat danou stránku, dokumenty, obrázky a nebo si vaši stránku uložit do archivu.

Tato řešení jsou založena na vložení speciálních „meta“ hlaviček do kódu stránek, například <meta name=„robots“ content=„noarchive“ />, nebo na souboru robots.txt. Samozřejmě nějaký čas trvá, než tyto informace Google zjistí a provede je ve své databázi.

To co mě zaujalo, je skvělá možnost vše uspíšit a nečekat: automatic URL removal system.

Na této stránce je možné získat přístup (jednoduché přihlášení, vyžaduje se email) na stránku, kde je možné Googlu sdělit aby aplikoval změny ihned a bez čekání.

Můžete zde Googlu říci aby aplikoval změny:

  • robots.txt
  • meta hlavičkách
  • aby odstranil, jednotlivé, neexistující stránky z databáze a archivu Googlu
  • můžete smazat své příspevky v Google Groups

Pokud zadáte, do tohoto systému, požadavek na vymazání a nebo na změnu meta hlaviček, projeví se změny cca za 24 hodin (v mém případě za 36) od zadání. Při požadavku na vymazání jediné stránky, Google kontroluje zda server nemá výpadek a zda stránka skutečně neexistuje. Není tedy možné vymazat „nepohodlné“ stránky :-)


Myslím, že výše uvedený způsob je ideální, ve chvíli kdy jste zapoměli do robots.txt zapsat stránku, podadresář, který si nechcete nechat indexovat, ale už se stalo. Změny proto potřebujete rychle. Také v případě, že na jakémkoli serveru zrušíte bez náhrady nějakou sekci, je ideální zaindexované stránky z Google smazat. Pokud náhrada existuje, je samozřejmě lepší použít přesměrování.

Sám jsem si vše vyzkoušel a smazal jsem se. Stránka www.chomat.net/omne.html již ve výsledcích na Google neexistuje a naopak si již stihl zaindexovat stránku novou www.chomat.net/omne/.

Třeba se něčeho podobného dočkáme také u Jyxa.

Související:

| | Články | Trvalý odkaz | Komentáře (0) | Štítky: ,