Web Design SEO Paksitan

Krytycznej analizy robotów indeksujących "Algorytmy

minou asked:




krytycznej analizy robotów indeksujących" Algorytmy

Minou Parhizkar 0527553

Streszczenie-A robota internetowego jest programem lub zautomatyzowany skrypt, który przegląda World Wide Web w metodyczną, zautomatyzowany sposób. Celem referatu jest wniesienie dokonać krytycznej analizy algorytmów wykorzystywanych przez roboty sieciowe. Komisja zamierza dokonać przeglądu i oceny różne i różne podejścia do metod stosowanych przez różnych wyszukiwarek do katalogu informacji.





Indeks Warunki-

robota internetowego, Wyszukiwarki, WWW, SEO



• I. < strong> Wprowadzenie



Oprogramowanie że wyszukuje informacje i zwraca witryn, które zapewniają, że informacje, o których mowa w wyszukiwarkach internetowych lub robot . Każdy używa robotów indeksujących-pośrednio, co najmniej! Za każdym razem, gdy wyszukiwanie w Internecie przy użyciu usługi, takie jak Alta Vista, Excite, Lycos czy, masz wykorzystanie wskaźnika w oparciu o dane wyjściowe internetowej robota. Web roboty-znany także jako pająki, roboty lub wędrowców, są programy, które automatycznie trawersować sieci. Wyszukiwarki wykorzystania roboty, aby znaleźć to, co jest w sieci, a następnie ich konstruowania indeks stron, które zostały znalezione.



Wyszukiwanie Silniki korzystać pająki do indeksu witryn. Podczas zgłaszania stron witryny do wyszukiwarki wypełniając wymagane przedłożenie ich stronie wyszukiwarki pająk będzie indeks całej witryny. A "pająk" jest automatyczny program, który jest uruchamiany przez wyszukiwarkę systemu. Spider odwiedzin strony internetowej, należy zapoznać się z treścią na rzeczywistej stronie witryny Meta tagi, a także zgodne z linków na stronie łączy. Pająk następnie zwraca wszystkie te informacje do centralnego depozytariusza, gdy dane są zindeksowane. Będzie można odwiedzić każdy link na Twojej stronie i indeksu, jak również tych witrynach. Niektóre pająki jedynie indeks pewnej liczby stron witryny.

A pająk jest niemal jak książka, gdy zawiera spis treści, rzeczywista treść i linki i odniesienia dla wszystkich jej stron internetowych stwierdzi podczas wyszukiwania, a może to indeks do miliona stron dziennie.





Przykład: Google pająk
< br />

Kiedy zwrócić się do wyszukiwarki, aby znaleźć informacje, to rzeczywiście jest wyszukiwanie poprzez indeks, które stworzył, a nie faktycznie wyszukiwanie w internecie. Różne wyszukiwarki produkcji różnych rankingach, ponieważ nie każdy wyszukiwarka używa tego samego algorytmu do wyszukiwania za pomocą indeksów.

Jedną z rzeczy, które algorytmu wyszukiwarki skanuje do częstotliwości i lokalizacja słów kluczowych na stronie internetowej, ale może również wykrywać sztuczne farszu słów kluczowych lub spamdexing. Następnie algorytmy analizy sposobu, w jaki strony odwołują się do innych stron w sieci. Poprzez sprawdzenie w jaki sposób strony łączą się wzajemnie, silnika można określić, jakie obie strony jest ok., jeśli słowa kluczowe do stron są podobne do słów kluczowych na stronie oryginalnej. Większość z najwyższej rankingu wyszukiwarek są oparte robota wyszukiwarki choć niektóre mogą być oparte na ludzkich zestawione katalogów. Ludzie za wyszukiwarek ma to samo co webmaster chce – ruch na swojej witrynie. Ponieważ ich treść jest głównie linki do innych witryn, rzeczy dla nich zrobić, to do ich wyszukiwarki przywołać najbardziej odpowiednich terenów do zapytania, a do wyświetlania najlepsze wyniki tych pierwszych. W tym celu stosują one skomplikowany zestaw reguł nazywany algorytmów. Jeśli zapytanie zostanie złożone w wyszukiwarki, witryny są określane za istotne lub nie mające związku z zapytaniem do tych algorytmów, a następnie uszeregowane w kolejności to z tych algorytmów oblicza się najlepiej pasuje pierwsze.

Wyszukiwarki algorytmy zachować ich tajemnicę i zmienić je często w celu zapobieżenia webmasterami z ich baz danych i manipulowanie wynikami wyszukiwania dominacji. Oni również chcą dostarczyć nowych terenów na górze wyników wyszukiwania, w sposób regularny, a nie zawsze o tym samym stare witryny pojawi się miesiąc po miesiącu. Istotną różnicą jest to, że do realizacji wyszukiwarek i katalogów nie są takie same. Wyszukiwarki używają do pająka "indeksowanie" w internecie i na stronach internetowych znajdują, jak również przedstawione witryn. W indeksowania internetu, które zbierają informacje, które są wykorzystywane przez algorytmy w celu pozycjonowanie witryny.

Niniejszy dokument ma na celu krytycznej analizy różnych wyszukiwania inżynierów, jak one działają i porównanie ich algorytmów. < br />
• II . Praca z robotów indeksujących – szczegółowy wygląd up

Niech nas wyglądać na bardziej szczegółowe wyjaśnienie, w jaki sposób Wyszukiwarki pracy. Robot indeksujący wyszukiwarki oparte są przede wszystkim składa się z trzech części.

A robota wyszukiwarki działania nazywa spidering, ponieważ nawiązuje do wielu legged pająki. The Spider's zadaniem jest, aby przejść do strony internetowej, przeczytaj zawartość, należy podłączyć do innych stron w tej witrynie internetowej za pomocą linków i przywrócić informacje. Z jednej strony będzie podróżować do kilku stron, a tej broni następuje kilka równoległych ścieżek i zagnieżdżonych jednocześnie. Pająki częste miejscu w pewnym odstępie, mogą być w miesiącu na kilka miesięcy, a ponowne indeksowanie stron. W ten sposób wszelkie zmiany, które mogą mieć miejsce na swoich stronach można również znaleźć odzwierciedlenie w indeksie. W pająki automatycznie Twojej strony i tworzyć ich aukcji. Ważnym aspektem jest badanie, jakie czynniki wspierania "głębokie indeksowanie" – głębokość, do której pająk przejdzie do witryny internetowej ze strony po raz pierwszy odwiedził. Aukcja "składaniu lub rejestracji" z wyszukiwarki jest krokiem, który może przyspieszyć i zwiększyć szanse, że silnik "spidering" stronach.

Pająk ruch całej strony internetowe sklepy tych stron w pamięci ale kluczem jest działanie w indeksowania. Wskaźnik jest ogromne bazy danych, zawierającej wszystkie informacje sprowadzeni przez pająka. Indeks jest stale aktualizowany, jak pająk gromadzi więcej informacji. Cała strona nie jest indeksowana i wyszukiwania i rankingu stron algorytm jest stosowany tylko do indeksu, który został utworzony. Większość wyszukiwarek twierdzą, że indeks pełny tekst widoczny na stronie. W kolejnym rozdziale wyjaśniamy kluczowych rozważań w celu zapewnienia, że indeksowanie stron internetowych zwiększa znaczenie podczas wyszukiwania. Połączone zrozumienia indeksowania i rankingu stron procesu doprowadzi do tworzenia właściwej strategii. Meta tagi "Opis" oraz "Słowa kluczowe" mają zasadnicze znaczenie, ponieważ są one indeksowane w szczególny sposób. Niektóre z najważniejszych wyszukiwarek nie indeksują słowa kluczowe, które uznają za spam. Będą one również nie indeksu niektórych "stop words" (powszechnie używanych słów takich jak "a" lub "w" lub "o", tak aby zaoszczędzić miejsce lub przyspieszyć ten proces. Zdjęcia oczywiście nie są indeksowane, ale obraz opisy lub Alt tekst lub tekst uwagi "jest uwzględniona w indeksie przez niektóre wyszukiwarki.

Wyszukiwarka oprogramowania lub program jest w końcowej części. Jeżeli osoba złoży zapytanie wyszukiwania na słowa kluczowe lub frazy, wyszukiwania Silnik oprogramowania wyszukiwań indeks do odpowiednich informacji. Oprogramowanie to dostarcza raport z powrotem do wyszukiwarki z najbardziej odpowiednich stronach internetowych wymienionych w pierwszej kolejności. Algorytm oparte procesy wykorzystywane do ustalenia rankingu wyniki zostały omówione bardziej szczegółowo później.

te katalogi stron internetowych aukcjach skompilować do poszczególnych kategorii przemysł i podlegają one zazwyczaj przeprowadza krótki opis o stronie. Uwzględnienie w katalogach jest zadaniem człowieka i wymaga złożenia do katalogu producentów. odwiedzających i badaczy ponad netto dość często korzystać z tych katalogów, aby znaleźć odpowiednich terenów i źródeł informacji. W ten sposób pomóc w katalogach ustrukturyzowanego wyszukiwania. Innym ważnym powodem jest to, że robot silniki często znaleźć na stronach internetowych indeksowania poprzez ich wystawianie i linki w katalogach. Yahoo i Open Directory są wśród największych i najbardziej znane katalogów. LookSmart jest katalog, który zawiera wyniki witryn partnerskich, takich jak MSN Search, Excite i inne. Lycos jest przykład witryny, pionierem w wyszukiwarce, ale przesunięte do katalogu w zależności od modelu AlltheWeb.com jego aukcji.

Hybrid Wyszukiwarki są oparte robot jak również ludzi z napędem. W zwykły słowy, te wyszukiwarki dwa zestawy aukcje na podstawie obu wyżej wymienionych mechanizmów. Najlepszym przykładem jest hybrydowy wyszukiwarki Yahoo , który ma ludzkie powered katalog, a także pasek wyszukiwania podawane przez firmę Google. Pomimo, takich silników dostarcza zarówno aukcje są one zazwyczaj zdominowane przez jeden z dwóch mechanizmów. Yahoo znany jest jej więcej niż katalog robota oparta wyszukiwarki.

Wyszukiwarki rankingu stron internetowych zgodnie z oprogramowania zrozumienia internetowej strony trafności do terminu są przeszukiwane. Aby określić istotność, wyszukiwarki następująco własnej grupy reguł. Najważniejsze zasady. < br />
– Lokalizacja słów kluczowych na stronie, oraz – jak często te słowa pojawią się na stronie "częstotliwość"

Na przykład, jeśli pojawia się słowo kluczowe w tytule strony, a następnie będzie uważane za znacznie bardziej istotne niż słów kluczowych pojawiających się w tekście na dole strony. Wyszukiwarki rozważyć słowa kluczowe, które mają być bardziej istotne, jeżeli pojawiają się wcześniej na stronie (np. w nagłówku), a nie później. Pomysł polega na tym, że będziesz wprowadzenie najważniejszych słów – te, które rzeczywiście mają istotne informacje – na stronie pierwszej.

Wyszukiwarki także częstotliwości, z jaką pojawiają się słowa kluczowe. W częstotliwości jest zazwyczaj określane przez słowa kluczowe, jak często są używane ze wszystkich słów na stronie. Jeśli słowo kluczowe jest stosowany 4 razy na 100 słów, częstotliwość będzie wynosić 4%. Oczywiście można teraz opracować idealny odpowiednią stronę o jedno słowo kluczowe w 100% częstotliwości – wystarczy umieścić jedno słowo na stronie i to tytuł strony, jak również. Niestety, wyszukiwarki nie czynią rzeczy proste.

Podczas wszystkich wyszukiwarek zrobić się na tych samych podstawowych zasad trafności, lokalizacji i częstotliwości, z których każda wyszukiwarka ma swój własny sposób ustalania rankingów. Aby dokonać rzeczy bardziej interesujące, wyszukiwarki zmienić zasady od czasu do czasu, tak aby zmienić rankingach, nawet jeśli stron pozostają takie same. Jedną z metod określania trafności używane przez niektóre wyszukiwarki "jak i HotBot Infoseek", ale nie innych jak Lycos, jest Meta tagi. Meta tagi są ukryte kodów HTML, które zapewniają wyszukiwarka pająki potencjalnie ważne informacje, takie jak strony opis i słowa kluczowe strony.

Meta tagi są często oznaczone jako tajne do uzyskania wysokiego rankingu, ale Meta tagi samodzielnie nie będzie Ci top 10 rankingu. Z drugiej strony, to z pewnością nie zaszkodzi. Szczegółowe informacje na temat tagów meta i innych sposobów poprawy wyszukiwarki rankingu jest podany w dalszej części tego rozdziału.

W pierwszych dniach internetowych, webmasterzy byłoby powtórzyć setki razy słowa kluczowego w Meta tagi a następnie dodać go setki razy do tekstu na stronie internetowej przez co ten sam kolor, co tło. Jednakże, obecnie główne wyszukiwarki algorytmy, że strony mogą wyłączyć z rankingu, jeżeli nie uciekał się do "spam oparty na słowach kluczowych", w rzeczywistości niektóre wyszukiwarki będzie downgrade rankingu w takich przypadkach i ukarania strony.

Link analizy i "klikalności" pomiaru są pewne inne czynniki, które są "od strony" a jednak kluczowe w rankingu mechanizm przyjęte przez niektórych czołowych wyszukiwarek. To szybko powstających jako najważniejszy wyznacznik rankingu, ale przed tym badaniu, musimy najpierw spojrzeć na najbardziej popularnych wyszukiwarek internetowych, a następnie spójrz na różnych czynności można podjąć, aby poprawić swój sukces na każdym z etapów – spidering, indeksowania i pozycjonowania stron.

W marcu 2003, według badań Jupiter Media Metrix, było szacunkowo 114 milionów użytkowników Internetu w trybie online USA w pracy lub w domu, 80 procent z nich to szacuje się, że w jakiś rodzaj wyszukiwania wniosek w ciągu miesiąca.

• III . jeden podsumować porównaniu wyszukiwarek

Yahoo!

zostały wyszukiwania gra od wielu lat. lepiej niż MSN ale nigdzie w pobliżu tak dobra jak Google na stwierdzeniu, czy łącze jest naturalnym cytowania lub nie. dysponuje mnóstwem wewnętrznej treści i płatne włączenia programu. obu które dają im motywację do stronniczości wyników wyszukiwania do wyników handlowych, jak cheesy off topic wzajemnych powiązań nadal wielką Yahoo!

MSN Search

nowe wyszukiwanie gra jest złe określenie, czy łącze jest naturalne lub sztuczne w charakter ze względu na ssące na link analizy ich miejsce zbyt wiele wagi do zawartości strony ich słabe trafności algorytmów powodować ciężkie uprzedzeń wobec komercyjnych wyniki lubi bursty ostatnich linki nowych terenów, które są ogólnie un-zaufany w innych systemach można szybko w rankingu, jak MSN Search cheesy off topic wzajemnych powiązań nadal pracować w wielkiej MSN Search

Google

został w poszukiwaniu gra od dłuższego czasu, i zobaczył w internecie wykresu kiedy jest znacznie czystsze niż obecny internetowej wykres jest znacznie lepsza niż w innych silników na stwierdzeniu, czy łącze jest prawdziwym redakcyjnej cytowania lub sztuczne link szuka naturalne powiązanie wzrostu w czasie silnie uprzedzeń wyników wyszukiwania do zasobów informacyjnych ufa stare witryny sposób zbyt wiele stron w witrynie lub sub-domeny witryny o znaczącej wiek lub link związanych zaufania może rankingu znacznie lepiej niż powinna, nawet bez zewnętrznych odniesień one agresywne duplikaty filtrów odfiltruj wiele stron o podobnej treści, jeżeli strona jest oczywiście skupia się na perspektywie mogą one filtr dokumentu dla tego okresu. zmienność na stronie tekstu i linków kotwica zmienności są ważne. strony z jednym lub kilkoma odniesienia odniesienia modyfikatora będą często przewyższać stron, które są silnie skoncentrowane na wyszukiwania frazy zawierające tę modyfikatora zaindeksować głębokości określone nie tylko powiązanie ilości, ale także powiązania jakości. Zbyt niska jakość łącza może dokonać witryny mniej prawdopodobne jest zaindeksowana głębokich nawet uwzględniona w indeksie. rzeczy jak cheesy off topic wzajemne powiązania są na ogół nieskuteczne w Google, kiedy wziąć pod uwagę koszty związane

Zapytaj

wygląda na miejscowym społecznościom ze względu na ich ciężki nacisk na miejscowym społecznościom są powoli do rangi witryn, dopóki nie są cytowane w dużym stopniu z ich miejscowego społeczności ze względu na ich ograniczony udział w rynku nie są one wiele warte zwracając uwagę, chyba że są w pionowe gdy mają silną markę, że dyski znaczące wyszukiwania

• IV . Szczegółowa analiza Wyszukiwarki

teraz zrozumieć, że mamy do pracy i podstawy robotów indeksujących i przejrzeniu podsumować porównanie kilku głównych wyszukiwarek w rynku, teraz jesteśmy w stanie do szczegółowej analizy i porównania tych i dostać się do nitty ziarnistej szczegóły techniczne. Poniższe sekcje będą dotyczyć każdego z tych silników, jeden przez jedną ze szczegółową analizą.

• V. Yahoo!

< br />
Yahoo! została założona w 1994 roku przez David Filo i Jerry Yang jako katalog stron internetowych. Przez wiele lat ich wyszukiwania outsourcingu usług innych dostawców, ale do końca 2002 r. zdali sobie sprawę z wagi i wartości Poszukiwanie i zaczął agresywnie nabycia wyszukiwanie firm.

Overture zakupione AllTheWeb i AltaVista. Yahoo! zakupione Inktomi (w grudniu 2002), a następnie spożywane Overture (w lipcu 2003 r.), a w połączeniu z różnymi technologiami wyszukiwania Firmy te zakupione do nowej wyszukiwarki.

• a) Na stronie treści
< br /> Yahoo! oferuje płatne włączenia programu, więc gdy Yahoo! Szukaj użytkowników kliknij na wysokim rankingu wypłacane włączenia wyników w organicznych wynikach wyszukiwania Yahoo! zysków. W części możliwość łatwego włączenia wypłacane uczestników rankingu, uważam, że Yahoo! miejsc większej wagi w trakcie zawartości strony niż wyszukiwarki takie jak Google.

Będąc # 1 miejsca treści witryny internetowej, Yahoo! ma boatload własnych treści, które często odniesienia w wynikach wyszukiwania. Ponieważ mają tyle własnych treści i zarabiania pieniędzy z komercyjnych organicznych wynikach wyszukiwania może sensu ich stronniczość ich wyników wyszukiwania nieco do komercyjnych witryn internetowych.

Korzystanie opisowe tytułów i zawartości strony wykraczają daleko w Yahoo!

Moim zdaniem ich wyniki wydają się być bardziej tendencyjne wobec handlu niż witryn informacyjnych, w porównaniu z Google.

< strong> • b) Crawling

Yahoo! jest całkiem dobry w indeksowania witryn głęboko tak długo, jak długo mają one wystarczającej popularności linków do dostęp do wszystkich swoich stron indeksowanych. Jedna uwaga ostrożności jest to, że Yahoo! może nie chcesz głęboko indeksu witryn z wielu zmiennych w ciągu URL, zwłaszcza od

Yahoo! już boatload własnych treści, które pragnie promować (w tym pionowych, takich jak Yahoo! Zakupy) Yahoo! oferuje wypłacane integracji społecznej, co może pomóc Yahoo! wzrost wpływów do ładowania kupców do indeksu niektórych ich głębokie zawartość bazy danych.

Możesz użyć Yahoo! Site Explorer, aby sprawdzić, jak dobrze są one indeksowania witryny i które witryny link na Twojej witrynie.

• c) Query Przetwarzanie < / strong>

Niektóre słowa w zapytaniu są lepsze zdefiniowanie celów wyszukiwarki. Jeśli wyszukiwania Yahoo! na coś w stylu "jak SEO" wiele o najwyższej pozycji w rankingu wyników będzie miał "jak do "i" SEO "na stronie tytuły, które mogłyby wskazywać, że Yahoo! stawia sporo wagi, nawet w sprawie wspólnych słów, które występują w zapytaniu.

Yahoo! wydaje się więcej na temat tekstu dopasowania w porównaniu do Google, które, wydaje się więcej na temat koncepcji dopasowania.

• d) reputacja Link < br />
Yahoo! jest nadal dość łatwo manipulować za pomocą niskiej do średniej jakości linków i trochę się agresywnie skoncentrowane kotwica tekstu. Rand Fishken ostatnio wysłana o wiele Technorati Ranking stron oraz ich podstawowych pojęć w Yahoo!. te strony głównie mają te same anchor tekst w prawie wszystkie linki wskazujące na nich.

Witryny z zaufania wynik Technorati mogą być w stanie wydostać się z więcej niż większość wzorców nienaturalnych webmasterzy mogą, ale widziałem flamethrown z terenów słabo mieszanych kotwica tekst na niską jakość połączeń, tylko aby zobaczyć ranking witryn całkiem dobrze w Yahoo! szybko.

• e) Page Strona vs

Kilka lat temu na konferencji Search Engine Strategies Jon Glick, że Yahoo! spojrzał na obu linki do strony oraz linki do witryny przy określaniu trafności na stronie. Strony na nowsze witryny mogą nadal rangi dobrze, nawet jeżeli związane z nimi domeny nie ma dużo zaufania zbudowany jeszcze tak długo, jak one mają pewne opisowych linków.

• f) Strona wiek

Yahoo! może umieścić na starszych wagi niektórych miejscach, ale efekt jest nigdzie w pobliżu tak wyraźne, jak skutkiem w Google SERPs.

Uzasadnione jest dla nowych witryn w rankingu Yahoo! w zaledwie 2 lub 3 miesiące.

• g) Płatne wyszukiwanie

Yahoo! cen reklam w otwartej licytacji, z najwyższą ofertą najwyższej rangi. Na początku 2007 r., które mają do Yahoo! Search Marketing więcej zamknięty system, który czynniki klikalności (algorithmic i innych czynników) na ich ranking reklam algorytmu.

Yahoo! oferuje także płatną włączenia program opłaty ryczałtowej stawki za kliknięcie do wyświetlania witryny Yahoo! 's organicznych wynikach wyszukiwania.

Yahoo! oferuje również sieć reklamy kontekstowej. Yahoo! Wydawnictwo programu nie ma głębi, że reklamy Google systemu, a oni wydają się próbuje uzupełnienia, że zniekształcający kierowania ich do bardziej kosztowne reklamy, która zazwyczaj powoduje ich syndykowana reklamy mają wyższy koszt kliknij niższa, ale współczynnik klikalności.

• h) Redakcja

Yahoo! redakcyjnej ma wiele elementów do ich wyszukiwanie produktu. Jeżeli dana osoba płaci za Yahoo! Search Submit że zawartość jest sprawdzane w celu zapewnienia, że mecze Yahoo! 's jakości wytycznych. Witryny przedstawione Yahoo! Directory są sprawdzane pod względem jakości, jak również.

Oprócz tych dwóch form płatnego opinii Yahoo! także często gości ich wyników wyszukiwania w wielu branżach . konkurencyjnej zapytań Dla niektórych z najlepszych wyników wyszukiwania mogą być kodowane strony. Jeśli szukaj Viagra, na przykład w górę 5 aukcji patrzył przydatne, a następnie musiałem przejdź do # 82, zanim znalazłem inny wynik, że było " t spamerski.

Yahoo! również ręcznie opinii niektórych z spamerski kategorii nieco częściej, a następnie Opinie innych próbek ich indeks. Czasami widać skierowanie jak http://corp.yahoo-inc.com / projekt / zdrowiem blogi / dysponentami jeżeli sprawdzeniu witryny i ocenili ją dobrze.

Witryny, które zostały poddane edytorsko i godnej jakości mogą otrzymać małe zwiększenia trafności gości. Witryny, które zostały przeglądowi i są złej jakości może być obniżony w trafności lub usunięta z indeksu wyszukiwania.

Yahoo! opublikowała ich treść jakości wytycznych. Niektóre witryny są odfiltrowane z wyników wyszukiwania przez automatyczne algorytmy może powrócić, jeśli miejscu sprząta związane z problemami, ale zazwyczaj jeśli jakiekolwiek silnika ręcznie gości witryny i usuwa ją do spamowania masz do czyszczenia, a następnie go bronić sprawy.

• I ) aspektów społecznych

Yahoo! mocno wierzy w ludzkim aspektem wyszukiwania. wypłacana one wiele milionów dolarów na zakup Del.icio.us , społeczną zakładki witryny. Mają też one podobne do produktów rodzimych Yahoo! zwany My Yahoo!

Yahoo! również nalegaliśmy pytanie odbieranie usługi o nazwie Yahoo! Odpowiedzi, które mocno promują w swoich wynikach wyszukiwania i w całej sieci. Yahoo! Odpowiedzi pozwala nikomu do zadawania pytań i odpowiedzi. Yahoo! jest również próbuje mieszać amatorskie treści z Yahoo! Odpowiedzi pochodzą z profesjonalnie zawartość pionowych, takich jak Yahoo! Tech.

• j) Yahoo! Narzędzia SEO

Yahoo! posiada wiele przydatnych narzędzi SEO.

Overture Keyword Selector Tool – pokazuje miesięcy przed wyszukiwania wielkości całej Yahoo! i sieci wyszukiwania. Overture Wyświetl Oferty Tool – wyświetla reklamy górę i ceny ofertowej słowa kluczowego w Yahoo! Search Marketing sieci reklamowej. Yahoo! Site Explorer – pokazuje, które stronach Yahoo! jest indeksowane z witryny i strony, które nie wiemy, że link na stronach Twojej witryny. Yahoo! myślenia – pokazuje jak Yahoo! może stronniczości wyników wyszukiwania bardziej ku informacyjnych lub handlowych wyników wyszukiwania. Yahoo! Wyszukiwanie zaawansowane Strona – czyni łatwe szukać. edu i. gov wstecznych Yahoo! Buzz – pokazuje bieżący popularne wyszukiwania

• k) Yahoo! Biznes perspektywy

Będąc największym treści na stronie internetowej sprawia, że Yahoo! się w niektórych kwestiach ze względu na nieskuteczność jest duży wewnętrzny klienta. Na przykład, Yahoo! Zakupy był duży związek nabywcy na okres czasu, Yahoo! Szukaj nalegaliśmy, że nie zgadzają się z łącza skup. Oferowanie wypłacane włączenie i posiadające tak wiele wewnętrznych treści sprawia, że sens dla Yahoo! mieć nieco handlowych stronniczości ich wynikach wyszukiwania.
< br /> one mocno wierzę w ludzi i społecznych aspektów wyszukiwania, naciskając produktów, takich jak Yahoo! Odpowiedzi i My Yahoo!.

Myślę, że Yahoo! jest największą słabością jest różnorodny zbiór rzeczy, które oni nie. W wielu dziedzinach nie tylko wewnętrzny klientów, ale w niektórych dziedzinach mają powielania produktu, podobnie jak z Yahoo! My Web i Del.icio.us.

• l ) Search Marketing perspektywy

Wierzę, że jeśli tego standardu podręcznik SEO praktyk i aktywnie budować jakości linków można się spodziewać, aby móc również w rankingu Yahoo! w ciągu 2 lub 3 miesiące. Jeśli próbujesz rangi wysoce spammed fraz pamiętać, że w górę lub 5 więc wyniki mogą być wybrane edytorsko, ale jeśli używasz już ogon zapytań lub spojrzeć poza górę 5 wysoce rentowne warunkach widać, że wiele osób rzeczywiście wciąż spamu im bitów.

jak Yahoo! więcej popycha ich pionowe Oferty może on nadać sens witryny i marki dodatkowej ekspozycji na Yahoo ! 's ruchu wykonując rzeczy jak stworzenie kilku autorytatywnych odpowiedzi na istotne pytania dotyczące topically Yahoo! Answers.

• VI . MSN Search

MSN Search miał wiele wcieleń, jest zasilany przez m.in. Inktomi i LookSmart od kilku lat. Po Yahoo! kupił Inktomi i Overture było oczywiste, że Microsoft musiał do rozwijania własnej wyszukać produkt. Oni uruchomiła swoje technologie podgląd ich wyszukiwarka około 1 lipca 2004 roku. one formalnie przeszli z Yahoo! organicznych wyników wyszukiwania do swoich dom w technologii 31 styczeń 2005.

• a) Na stronie treści

Używanie opisowych tytułów i zawartości strony jest długa droga, aby pomóc Ci rangi w MSN. widziałem przykłady wielu dziedzinach, że w rankingu dla rzeczy jak

nazwa + + ubezpieczenia typu ubezpieczenia

w witrynach, które nie były bardzo autorytatywny, który miał tylko kilka przypadków nazwa i ubezpieczenia jako kotwica tekstu. Dodanie słowa zdrowia, życia, itp. do tytułu strony w serwisie właściwych dla tych rodzajów ubezpieczeń, pomimo witryny posiadające kilka autorytatywny linki żadnych kotwica tekst tych specyficzne nisze.

Dodatkowo, na wewnętrznych stronach witryny, takie jak te mogą również ranking dla wielu istotnych zapytań tylko poprzez Hyper skoncentrowane, ale obecnie dyski MSN mały ruch w porównaniu z lubi Google.

• b) Crawling

MSN ma lepszego indeksowania, ale nadal uważam, Yahoo! i Google są dużo lepiej zaindeksowaniem. Najlepiej jest unikać identyfikatory sesji, wysyłanie plików cookie roboty, lub przy użyciu wielu zmiennych w adresie URL ciągi. MSN jest nigdzie w pobliżu kompleksowe jak Yahoo! lub Google na głębokie dzięki indeksowaniu dużych zakładów, jak eBay.com lub Amazon.com.

• c) Query Przetwarzanie

Wierzę MSN może być nieco lepsze niż Yahoo! na przetwarzanie zapytań w rozumieniu zamiast podejmowania nich całkiem dosłownie tak, ale nie sądzę, są tak dobre, jak to jest w Google.

Choć MSN oferuje narzędzie, które szacunków, jak komercyjne strony lub zapytanie jest myślę ich brak zdolności do rozróżniania jakości linków z niskiej jakości linków sprawia, że ich wyniki wyjątkowo duża handlowych wyniki.

• d) reputacja Link

Do czasu Microsoft dostał w poszukiwaniu gry internetowej wykresie została skażona z spamerski i kupować linków. Z tego powodu, i Microsoft ograniczone zaindeksowaniem historii, nie są tak dobre, jak w innych dużych wyszukiwarek na mówienie różnica między rzeczywistym cytatów ekologicznych i niskiej jakości łącza.

MSN Search reaguje znacznie szybciej niż inne silniki w rankingu nowych witryn ze względu link do rozerwania. Witryny ze stosunkowo niewiele jakości linków zdobyć wystarczająco opisowe linki są w stanie szybko rangi w MSN. widziałem witryn do rangi jednej z czołowych kilkudziesięciu najdroższe frazy w sieci około tygodnia.

• e) Page vs Witryna

Myślę wszystkich głównych wyszukiwarek rozważyć miejscu organ przy ocenie pojedyncze strony, ale z MSN wydaje się, jakby nie trzeba budować jak najwięcej władzy w miejscu tak jak do rangi również w innych silników.

• f) Strona wiek

Ze względu na ograniczone zaindeksowaniem MSN w historii i internecie wykres jest bardzo zanieczyszczone, zanim wsiedli do wyszukiwania nie są tak dobre jak innych silników w określaniu wieku związane zaufania ocenę. witryn Nowy sposób ogólny podręcznik SEO i zdobywanie kilka opisowych linków (nawet niskiej jakości linków) może również w rankingu MSN w ciągu miesiąca.

• g) Płatne wyszukiwanie

Microsoft wyszukiwania płatnego produktu AdCenter, jest najbardziej zaawansowaną platformą wyszukiwania reklamy w internecie. Podobnie jak w Google, MSN szeregach reklamy oparte na maks. cenę ofertową i współczynnik klikalności reklamy. Oprócz tych czynników MSN także pozwala na wprowadzenie oferty regulowany w oparciu o dane demograficzne. Na przykład, kredyt hipoteczny prowadzić z zamożnych starszych osób może być warta więcej niż równoważne Wyszukiwanie z młodszych i biedniejszych osób.

• h) Redakcja

Wszystkie główne wyszukiwarki wewnętrznej trafności pomiaru zespołów. MSN wydaje się być bardzo brakuje w tym departamencie, albo staramy się wykorzystywać fakt, że ich wyniki wyszukiwania są spamerski jako kąt obrotu.

MSN działa wiele promotional campaigns to try to get people to try out MSN Search, and in many cases some of the searches they are sending people to have bogus spam or pornography type results in them. A good example of this is when they used Stacey Kiebler to market their Celebrity Maps product. As of writing this, their top search result for Stacey Kiebler is still pure spam.

Based on MSN's lack of feedback or concern toward the obvious search spam noted above on a popular search marketing community site I think MSN is trying to automate much of their spam detection, but it is not a topic you see people talk about very often. Here are MSN's Guidelines for Successful Indexing, but they still have a lot of spam in their search results. ; )

•i)                    Social Aspects

Microsoft continues to lag in understanding what the web is about. Executives there should read The Cluetrain Manifesto. Twice.Or maybe three times.

They don't get the web. They are a software company posing as a web company.

They launch many products as though they have the market stranglehold monopolies they once enjoyed, and as though they are not rapidly losing them. Many of Microsoft's most innovative moves get little coverage because when they launch key products they often launch them without supporting other browsers and trying to lock you into logging in to Microsoft.

•j)                    MSN SEO Tools

MSN has a wide array of new and interesting search marketing tools. Their biggest limiting factor with them is that they have limited search market share.

Some of the more interesting tools are

Keyword Search Funnel Tool – shows terms that people search for before or after they search for a particular keyword Demographic Prediction Tool – predicts the demographics of searchers by keyword or site visitors by website Online Commercial Intention Detection Tool – estimates the probability of a search query or web page being commercial, informational-transactional, or Search Result Clustering Tool – clusters search results based on related topics

You can view more of their tools under the demo section at Microsoft's Adlab.

•VII.     Google Search

Google sprang out of a Stanford research project to find authoritative link sources on the web. In January of 1996 Larry Page and Sergey Brin began working on BackRub.

After they tried shopping the Google search technology to no avail they decided to set up their own search company. Within a few years of forming the company they won distribution partnerships with AOL and Yahoo! that helped build their brand as the industry leader in search. Traditionally search was viewed as a loss leader.

Google did not have a profitable business model until the third iteration of their popular AdWords advertising program in February of 2002, and was worth over 100 billion dollars by the end of 2005.

< strong>•a)                   On Page Content


If a phrase is obviously targeted (ie: the exact same phrase is in most of the following location: in most of your inbound links, internal links, at the start of your page title, at the beginning of your first page header, etc.) then Google may filter the document out of the search results for that phrase. Other search engines may have similar algorithms, but if they do those algorithms are not as sophisticated or aggressively deployed as those used by Google.

Google is scanning millions of books, which should help them create an algorithm that is pretty good at differentiating real text patterns from spammy manipulative text (although I have seen many garbage content cloaked pages ranking well in Google, especially for 3 and 4 word search queries).

You need to write naturally and make your copy look more like a news article than a heavily SEOed page if you want to rank well in Google. Sometimes using less occurrences of the phrase you want to rank for will be better than using more.

You also want to sprinkle modifiers and semantically related text in your pages that you want to rank well in Google.

Some of Google's content filters may look at pages on a page by page basis while others may look across a site or a section of a site to see how similar different pages on the same site are. If many pages are exceptionally similar to content on your own site or content on other sites Google may be less willing to crawl those pages and may throw them into their supplemental index. Pages in the supplemental index rarely rank well, since generally they are trusted far less than pages in the regular search index.

Duplicate content detection is not just based on some magical percentage of similar content on a page, but is based on a variety of factors. Both Bill Slawski and Todd Malicoat offer great posts about duplicate content detection. This shingles PDF explains some duplicate content detection techniques.

•b)                   Crawling

While Google is more efficient at crawling than competing engines, it appears as though with Google's BigDaddy update they are looking at both inbound and outbound link quality to help set crawl priority, crawl depth, and weather or not a site even gets crawled at all. To quote Matt Cutts:

The sites that fit "no pages in Bigdaddy" criteria were sites where our algorithms had very low trust in the inlinks or the outlinks of that site. Examples that might cause that include excessive reciprocal links, linking to spammy neighborhoods on the web, or link buying/selling.

In the past crawl depth was generally a function of PageRank (PageRank is a measure of link equity – and the more of it you had the better you would get indexed), but now adding in this crawl penalty for having an excessive portion of your inbound or outbound links pointing into low quality parts of the web creates an added cost which makes dealing in spammy low quality links far less appealing for those who want to rank in Google.

•c)                   Query Processing

While I mentioned above that Yahoo! seemed to have a bit of a bias toward commercial search results it is also worth noting that Google's organic search results are heavily biased toward informational websites and web pages.

Google is much better than Yahoo! or MSN at determining the true intent of a query and trying to match that instead of doing direct text matching. Common words like how to may be significantly deweighted compared to other terms in the search query that provide a better discrimination value.

Google and some of the other major search engines may try to answer many common related questions to the concept being searched for. For example, in a given set of search results you may see any of the following:

a relevant .gov and/or .edu document a recent news article about the topic a page from a well known directory such as DMOZ or the Yahoo! Directory a page from the Wikipedia an archived page from an authority site about the topic the authoritative document about the history of the field and recent changes a smaller hyper focused authority site on the topic a PDF report on the topic a relevant Amazon, eBay, or shopping comparison page on the topic one of the most well branded and well known niche retailers catering to that market product manufacturer or wholesaler sites a blog post / review from a popular community or blog site about a slightly broader field

Some of the top results may answer specific relevant queries or be hard to beat, while others might be easy to compete with. You just have to think of how and why each result was chosen to be in the top 10 to learn which one you will be competing against and which ones may perhaps fall away over time.

•d)                   Link Reputation

PageRank is a weighted measure of link popularity, but Google's search algorithms have moved far beyond just looking at PageRank.

As mentioned above, gaining an excessive number of low quality links may hurt your ability to get indexed in Google, so stay away from known spammy link exchange hubs and other sources of junk links. I still sometimes get a few junk links, but I make sure that I try to offset any junky link by getting a greater number of good links.

If your site ranks well some garbage automated links will end up linking to you weather you like it or not. Don't worry about those links, just worry about trying to get a few real high quality editorial links.

Google is much better at being able to determine the difference between real editorial citations and low quality, spammy, bought, or artificial links.

When determining link reputation Google (and other engines) may look at

link age rate of link acquisition anchor text diversity deep link ratio link source quality (based on who links to them and who else they link at) weather links are editorial citations in real content (or if they are on spammy pages or near other obviously non-editorial links) does anybody actually click on the link?

It is generally believed that .edu and .gov links are trusted highly in Google because they are generally harder to influence than the average .com link, but keep in mind that there are some junky .edu links too (I have seen stuff like .edu casino link exchange directories).

When getting links for Google it is best to look in virgin lands that have not been combed over heavily by other SEOs. Either get real editorial citations or get citations from quality sites that have not yet been abused by others. Google may strip the ability to pass link authority (even from quality sites) if those sites are known obvious link sellers or other types of link manipulators. Make sure you mix up your anchor text and get some links with semantically related text.

Google likely collects usage data via Google search, Google Analytics, Google AdWords , Google AdSense, Google news, Google accounts, Google notebook, Google calendar, Google talk, Google's feed reader, Google search history annotations, and Gmail. They also created a Firefox browser bookmark synch tool, an anti-phishing tool which is built into Firefox and have relationships with the Opera (another web browser company). Most likely they can lay some of this data over the top of the link graph to record a corroborating source of the legitimacy of the linkage data. Other search engines may also look at usage data.

•e)                   Page vs Site

Sites need to earn a certain amount of trust before they can rank for competitive search queries in Google. If you put up a new page on a new site and expect it to rank right away for competitive terms you are probably going to be disappointed.
< br/>If you put that exact same content on an old trusted domain and link to it from another page on that domain it can leverage the domain trust to quickly rank and bypass the concept many people call the Google Sandbox.
< br/>Many people have been exploiting this algorithmic hole by throwing up spammy subdomains on free hosting sites or other authoritative sites that allow users to sign up for a cheap or free publishing account. This is polluting Google's SERPs pretty bad, so they are going to have to make some major changes on this front pretty soon.

•f)                    Site Age

Google filed a patent about information retrieval based on historical data which stated many of the things they may look for when determining how much to trust a site. Many of the things I mentioned in the link section above are relevant to the site age related trust (ie: to be well trusted due to site age you need to have at least some link trust score and some age score).

I have seen some old sites with exclusively low quality links rank well in Google based primarily on their site age, but if a site is old AND has powerful links it can go a long way to helping you rank just about any page you write (so long as you write it fairly naturally).

Older trusted sites may also be given a pass on many things that would cause newer lesser trusted sites to be demoted or de-indexed.

The Google Sandbox is a concept many SEOs mention frequently. The idea of the 'box is that new sites that should be relevant struggle to rank for some queries they would be expected to rank for. While some people have debunked the existence of the sandbox as garbage, Google's Matt Cutts said in an interview that they did not intentionally create the sandbox effect, but that it was created as a side effect of their algorithms:

"I think a lot of what's perceived as the sandbox is artefacts where, in our indexing, some data may take longer to be computed than other data."

•g)                   Paid Search

Google AdWords factors in max bid price and clickthrough rate into their ad algorithm. In addition they automate reviewing landing page quality to use that as another factor in their ad relevancy algorithm to reduce the amount of arbitrage and other noisy signals in the AdWords program.

The Google AdSense program is an extension of Google AdWords which offers a vast ad network across many content websites that distribute contextually relevant Google ads. These ads are sold on a cost per click or flat rate CPM basis.

•h)                   Editorial

Google is known to be far more aggressive with their filters and algorithms than the other search engines are. They are known to throw the baby out with the bath water quite often. They flat out despise relevancy manipulation, and have shown they are willing to trade some short term relevancy if it guides people along toward making higher quality content.

Short term if your site is filtered out of the results during an update it may be worth looking into common footprints of sites that were hurt in that update, but it is probably not worth changing your site structure and content format over one update if you are creating true value add content that is aimed at your customer base. Sometimes Google goes too far with their filters and then adjusts them back.

Google published their official webmaster guidelines and their thoughts on SEO. Matt Cutts is also known to publish SEO tips on his personal blog. Keep in mind that Matt's job as Google's search quality leader may bias his perspective a bit.

Google Sitemaps gives you a bit of useful information from Google about what keywords your site is ranking for and which keywords people are clicking on your listing.

< strong>•i)                    Social Aspects


Google allows people to write notes about different websites they visit using Google Notebook. Google also allows you to mark and share your favorite feeds and posts. Google also lets you flavorize search boxes on your site to be biased towards the topics your website covers.

Google is not as entrenched in the social aspects of search as much as Yahoo! is, but Google seems to throw out many more small tests hoping that one will perhaps stick.They are trying to make software more collaborative and trying to get people to share things like spreadsheets and calendars, while also integrating chat into email. If they can create a framework where things mesh well they may be able to gain further marketshare by offering free productivity tools.

•j)                    Google SEO Tools

Google Sitemaps – helps you determine if Google is having problems indexing your site. AdWords Keyword Tool – shows keywords related to an entered keyword, web page, or web site AdWords Traffic Estimator – estimates the bid price required to rank #1 on 85% of Google AdWords ads near searches on Google, and how much traffic an AdWords ad would drive Google Suggest – auto completes search queries based on the most common searches starting with the characters or words you have entered Google Trends – shows multi-year search trends Google Sets – creates semantically related keyword sets based on keyword(s) you enter Google Zeitgeist – shows quickly rising and falling search queries Google related sites – shows sites that Google thinks are related to your site related:www.site.com Google related word search – shows terms semantically related to a keyword ~term -term

•k)                   Business Perspectives

Google has the largest search distribution, the largest ad network, and by far the most efficient search ad auction. They have aggressively extended their brand and amazing search distribution network through partnerships with small web publishers, traditional media companies, portals like AOL, computer and other hardware manufacturers such as Dell, and popular web browsers such as Firefox and Opera.

I think Google's biggest strength is also their biggest weakness. With some aspects of business they are exceptionally idealistic. While that may provide them an amazingly cheap marketing vehicle for spreading their messages and core beliefs it could also be part of what unravels Google.

As they throw out bits of their relevancy in an attempt to keep their algorithm hard to manipulate they create holes where competing search businesses can become more efficient.

In the real world there are celebrity endorsements . Google's idealism associated with their hatred toward bought links and other things which act similarly to online celebrity endorsements may leave holes in their algorithms, business model, and business philosophy that allows a competitor to sneak in and grab a large segment of the market by factoring the celebrity endorsement factor into being part of the way that businesses are marketed.

•VIII.     Ask Search< br/>
Ask was originally created as Ask Jeeves, and was founded by Garrett Gruener and David Warthen in 1996 and launched in April of 1997. It was a natural query processing engine that used editors to match common search queries, and backfilled the search results via a meta search engine that searched other popular engines.

As the web scaled and other search technologies improved Ask Jeeves tried using other technologies, such as Direct Hit (which roughly based popularity on page views until it was spammed to death), and then in 2001 they acquired Teoma, which is the core search technology they still use today. In March of 2005 InterActive Corp. announced they were buying Ask Jeeves, and by March of 2006 they dumped Jeeves , changing the brand to Ask.

•a)                   On Page Content

For topics where there is a large community Ask is good at matching concepts and authoritative sources. Where those communities do not exist Ask relies a bit much on the on page content and is pretty susceptible to repetitive keyword dense search spam.
< br/>•b)                   Crawling

Ask is generally slower at crawling new pages and sites than the other major engines are. They also own Bloglines, which gives them incentive to quickly index popular blog content and other rapidly updated content channels.

•c)                   Query Processing

I believe Ask has a heavy bias toward topical authority sites independent of anchor text or on the page content. This has a large effect on the result set the provide for any query in that it creates a result set that is more conceptually and community oriented than keyword oriented.

•d)                   Link Reputation

Ask is focused on topical communities using a concept they call Subject-Specific PopularitySM. This means that if you are entering a saturated or hyper saturated field that Ask will generally be one of the slowest engines to rank your site since they will only trust it after many topical authorities have shown they trusted it by citing it. Due to their heavy bias toward topical communities, for generic search they seem to be far more biased on how many quality related citations you have than looking as much at anchor text. For queries where there is not much of a topical community their relevancy algorithms are nowhere near as sharp.

•e)                   Page vs Site

Pages on a well referenced trusted site tend to rank better than one would expect. For example, I saw some spammy press releases on a popular press release site ranking well for some generic SEO related queries. Presumably many companies link to some of their press release pages and this perhaps helps those types of sites be seen as community hubs.

•f)                    Site Age

Directly I do not believe it is much of a factor. Indirectly I believe it is important in that it usually takes some finite amount of time to become a site that is approved by your topical peers.

•g)                   Paid Search < /strong>

Ask gets most of their paid search ads from Google AdWords. Some ad buyers in verticals where Ask users convert well may also want to buy ads directly from Ask. Ask will only place their internal ads above the Google AdWords ads if they feel the internal ads will bring in more revenue.

•h)                   Editorial

Ask heavily relies upon the topical communities and industry experts to in essence be the editors of their search results. They give an overview of their ExpertRank technology on their web search FAQ page. While they have such limited distribution that few people talk about their search spam policies they reference a customer feedback form on their editorial guidelines page.

•i)                    Social Aspects

Ask is a true underdog in the search space. While they offer Bloglines and many of the save a search personalization type features that many other search companies offer they do not have the critical mass of users that some of the other major search companies have.

•j)                    Ask SEO Tools

Ask search results show related search phrases in the right hand column. Due to the nature of their algorithms Ask is generally not good at offering link citation searches, but recently their Bloglines service has allowed you to look for blog citations by authority, date, or relevance.

•IX.     Technical Working of a Search Engine – Taking Google as example

•1)     Google Architecture Overview

 

In this section, we will give a high level overview of how the whole system works as pictured in Figure below. Further sections will discuss the applications and data structures not mentioned in this section. Most of Google is implemented in C or C++ for efficiency and can run in either Solaris or Linux.

 

 

In Google, the web crawling (downloading of web pages) is done by several distributed crawlers. There is a URLserver that sends lists of URLs to be fetched to the crawlers. The web pages that are fetched are then sent to the storeserver. The storeserver then compresses and stores the web pages into a repository. Every web page has an associated ID number called a docID which is assigned whenever a new URL is parsed out of a web page. The indexing function is performed by the indexer and the sorter. The indexer performs a number of functions. It reads the repository, uncompresses the documents, and parses them. Each document is converted into a set of word occurrences called hits. The hits record the word, position in document, an approximation of font size, and capitalization. The indexer distributes these hits into a set of "barrels", creating a partially sorted forward index. The indexer performs another important function. It parses out all the links in every web page and stores important information about them in an anchors file. This file contains enough information to determine where each link points from and to, and the text of the link.

The URLresolver reads the anchors file and converts relative URLs into absolute URLs and in turn into docIDs. It puts the anchor text into the forward index, associated with the docID that the anchor points to. It also generates a database of links which are pairs of docIDs. The links database is used to compute PageRanks for all the documents.

The sorter takes the barrels, which are sorted by docID, and resorts them by wordID to generate the inverted index. This is done in place so that little temporary space is needed for this operation. The sorter also produces a list of wordIDs and offsets into the inverted index. A program called DumpLexicon takes this list together with the lexicon produced by the indexer and generates a new lexicon to be used by the searcher. The searcher is run by a web server and uses the lexicon built by DumpLexicon together with the inverted index and the PageRanks to answer queries.

 

•2)     Major Data Structures

 
< br/>Google's data structures are optimized so that a large document collection can be crawled, indexed, and searched with little cost. Although, CPUs and bulk input output rates have improved dramatically over the years, a disk seek still requires about 10 ms to complete. Google is designed to avoid disk seeks whenever possible, and this has had a considerable influence on the design of the data structures.

•a)                   BigFiles

 

BigFiles are virtual files spanning multiple file systems and are addressable by 64 bit integers. The allocation among multiple file systems is handled automatically. The BigFiles package also handles allocation and deallocation of file descriptors, since the operating systems do not provide enough for our needs. BigFiles also support rudimentary compression options.

•b)                    Repository

  

The repository contains the full HTML of every web page. Each page is compressed using zlib. The choice of compression technique is a tradeoff between speed and compression ratio. We chose zlib's speed over a significant improvement in compression offered by bzip. The compression rate of bzip was approximately 4 to 1 on the repository as compared to zlib's 3 to 1 compression. In the repository, the documents are stored one after the other and are prefixed by docID, length, and URL as can be seen in Figure below. The repository requires no other data structures to be

 

 

 

used in order to access it. This helps with data consistency and makes development much easier; we can rebuild all the other data structures from only the repository and a file which lists crawler errors.

•c)                   Document Index

 

The document index keeps information about each document. It is a fixed width ISAM (Index sequential access mode) index, ordered by docID. The information stored in each entry includes the current document status, a pointer into the repository, a document checksum, and various statistics. If the document has been crawled, it also contains a pointer into a variable width file called docinfo which contains its URL and title. Otherwise the pointer points into the URLlist which contains just the URL. This design decision was driven by the desire to have a reasonably compact data structure, and the ability to fetch a record in one disk seek during a search

Additionally, there is a file which is used to convert URLs into docIDs. It is a list of URL checksums with their corresponding docIDs and is sorted by checksum. In order to find the docID of a particular URL, the URL's checksum is computed and a binary search is performed on the checksums file to find its docID. URLs may be converted into docIDs in batch by doing a merge with this file. This is the technique the URLresolver uses to turn URLs into docIDs. This batch mode of update is crucial because otherwise we must perform one seek for every link which assuming one disk would take more than a month for our 322 million link dataset.

•d)                   Lexicon



The lexicon has several different forms. One important change from earlier systems is that the lexicon can fit in memory for a reasonable price. In the current implementation we can keep the lexicon in memory on a machine with 256 MB of main memory. The current lexicon contains 14 million words (though some rare words were not added to the lexicon). It is implemented in two parts — a list of the words (concatenated together but separated by nulls) and a hash table of pointers. For various functions, the list of words has some auxiliary information which is beyond the scope of this paper to explain fully.

•e)                   Hit Lists

A hit list corresponds to a list of occurrences of a particular word in a particular document including position, font, and capitalization information. Hit lists account for most of the space used in both the forward and the inverted indices. Because of this, it is important to represent them as efficiently as possible. We considered several alternatives for encoding position, font, and capitalization — simple encoding (a triple of integers), a compact encoding (a hand optimized allocation of bits), and Huffman coding. In the end we chose a hand optimized compact encoding since it required far less space than the simple encoding and far less bit manipulation than Huffman coding. The details of the hits are shown in Figure below.

 

 

Our compact encoding uses two bytes for every hit. There are two types of hits: fancy hits and plain hits. Fancy hits include hits occurring in a URL, title , anchor text, or meta tag. Plain hits include everything else. A plain hit consists of a capitalization bit, font size, and 12 bits of word position in a document (all positions higher than 4095 are labeled 4096). Font size is represented relative to the rest of the document using three bits (only 7 values are actually used because 111 is the flag that signals a fancy hit). A fancy hit consists of a capitalization bit, the font size set to 7 to indicate it is a fancy hit, 4 bits to encode the type of fancy hit, and 8 bits of position. For anchor hits, the 8 bits of position are split into 4 bits for position in anchor and 4 bits for a hash of the docID the anchor occurs in. This gives us some limited phrase searching as long as there are not that many anchors for a particular word. We expect to update the way that anchor hits are stored to allow for greater resolution in the position and docIDhash fields. We use font size relative to the rest of the document because when searching, you do not want to rank otherwise identical documents differently just because one of the documents is in a larger font.

 

The length of a hit list is stored before the hits themselves. To save space, the length of the hit list is combined with the wordID in the forward index and the docID in the inverted index. This limits it to 8 and 5 bits respectively (there are some tricks which allow 8 bits to be borrowed from the wordID). If the length is longer than would fit in that many bits, an escape code is used in those bits, and the next two bytes contain the actual length.
< br/>•f)                    Forward Index

 

The forward index is actually already partially sorted. It is stored in a number of barrels (we used 64). Each barrel holds a range of wordID's. If a document contains words that fall into a particular barrel, the docID is recorded into the barrel, followed by a list of wordID's with hitlists which correspond to those words. This scheme requires slightly more storage because of duplicated docIDs but the difference is very small for a reasonable number of buckets and saves considerable time and coding complexity in the final indexing phase done by the sorter. Furthermore, instead of storing actual wordID's, we store each wordID as a relative difference from the minimum wordID that falls into the barrel the wordID is in. This way, we can use just 24 bits for the wordID's in the unsorted barrels, leaving 8 bits for the hit list length.

< strong>•g)  

Share This:
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • Blogosphere News
  • De.lirio.us
  • LinkedIn
  • Live
  • MySpace
  • Reddit
  • description
  • Slashdot
  • StumbleUpon
  • Technorati
  • TwitThis
  • Yahoo! Buzz

Leave a Reply