Wyszukiwarka internetowa

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Wyszukiwarka internetowa (ang. search engine) – program lub strona internetowa odnajdujący w Internecie informacje według podanych przez użytkownika słów kluczowych lub wyrażeń sformułowanych w języku naturalnym.

NEToskop to pierwsza polska wyszukiwarka internetowa, która w 1996 roku została napisana przez Jacka Surażskiego przy wsparciu Michała Rolskiego. W 1997 zadebiutowała w portalu internetowym wydawnictwa komputerowego Chip. W latach 2000-2002 była częścią portalu Poland.com, następnie przez rok prowadzona była przez firmę Netoskop Sp. z o.o., założoną przez autorów. W wielu rankingach i testach Netoskop był uznawany za najlepszą wyszukiwarkę polskojęzycznego Internetu.HITS (z ang. Hypertext Induced Topic Selection lub Hyperlink Induced Topic Search) – algorytm opracowany przez Jona Kleinberga w 1998 z myślą o silniku przeszukującym pod nazwą CLEVER, wykorzystywany do oceny relatywności tekstu względem termu.

Umożliwia użytkownikom wyszukiwanie – co do zasady – wszystkich stron internetowych lub stron internetowych w danym języku za pomocą zapytania na jakikolwiek temat przez podanie słowa kluczowego, wyrażenia lub innej wartości wejściowej. W wyniku przedstawia ona odnośniki, pod którymi można znaleźć informacje związane z zadanym zapytaniem.

Keyword stuffing (dosł. napychanie wyrazami kluczowymi) - nieetyczna technika podwyższania rankingu strony internetowej za pomocą wypełniania sekcji META w dokumencie HTML (ale także i ciała dokumentu) spreparowanymi wyrazami kluczowymi.Archie – mechanizm wyszukiwawczy dla usługi FTP, pozwalający przeszukiwać zasoby plików na serwerach FTP; pierwotną implementację napisali w 1990 r. Alan Emtage i Peter J. Deutsch, ówcześni studenci Uniwersytetu McGill w Montrealu oraz Bill Heelan, jego pracownik.

Określenie „wyszukiwarka” stosowane się w odniesieniu do:

  • Stron internetowych serwisów wyszukujących – czyli implementacji oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów
  • Oprogramowania przeznaczonego do indeksowania i wyszukiwania informacji w Internecie.
  • Gromadzą w sposób automatyczny informacje o dokumentach tekstowych oraz plikach zgromadzonych w sieci (obszarze wyznaczonym dla wyszukiwarki do indeksowania).

    Yandex – firma IT, która jest właścicielem największej rosyjskiej wyszukiwarki internetowej (ok. 64% rynku wyszukiwarek , ósma największa wyszukiwarka świata). Firma została założona w 1997 roku przez Arkadija Wołoża i Ilyę Segalovicha. Działa też na Białorusi, w Turcji, Ukrainie i w Kazachstanie. W 2001 r. twórcy portalu uruchomili polską wersję wyszukiwarki, która jednak nie zdobyła satysfakcjonującego udziału w rynku i wkrótce została zamknięta. Wiosną 2010 roku Yandex rozpoczął indeksowanie zagranicznych zasobów internetowych i uruchomił wyszukiwarkę Yandex.com. W 2009 i 2010 r. firma m.in. wykupiła udziały w izraelskiej spółce Vizi Information Labs rozwijającej technologię rozpoznawania twarzy, a także rosyjskie firmy zajmujące się cyfrowymi mapami (GIS Technology), sprzedażą reklam w sieci (Mediaselling) oraz gromadzeniem informacji o korkach (Smilink).NetSprint - wyszukiwarka internetowa opracowana przez firmę XOR Internet z Warszawy w 2000 roku, rozwijana przez NetSprint.pl Sp. z o.o..

    Historia wyszukiwarek[ | edytuj kod]

    Historia wyszukiwarek[ | edytuj kod]

  • 1990 Archie
  • 1991
  • Veronica
  • JugHead
  • 1992 WWW Wanderer
  • 1994
  • Yahoo!
  • WebCrawler
  • Lycos
  • 1995
  • AltaVista
  • MetaCrawler
  • Excite
  • 1996
  • Google na Uniwersytecie Stanforda (pod adresem: http://google.stanford.edu)
  • HotBot
  • 1997
  • Yandex
  • Northern Light
  • 1998 Google (Google.com)
  • 2000
  • Baidu
  • 2004 hakia
  • 2005 MSN Search
  • 2006 Google custom search engine
  • 2007 Windows Live Search
  • 2008
  • Cuil
  • Duck Duck Go
  • Wikia Search
  • 2009
  • Bing
  • Wolfram Alpha
  • Historia wyszukiwarek w Polsce[ | edytuj kod]

  • 1991 Emulti
  • 1994 Polski Archie
  • 1995 Polski Infoseek ICM
  • 1996
  • Netoskop
  • Sieciowid
  • Infoseek Onet
  • polska AltaVista
  • 1997 Sieciowid kończy działalność
  • 2000 Arena.pl przejmuje zasoby Polskiego Infoseeka
  • 2001
  • NetSprint
  • AltaVista Interia
  • 2002 polska wersja Google
  • 2003
  • Szukacz
  • Polski Yandex
  • 2005
  • koniec NEToskopu
  • koniec polskiej wersji wyszukiwarki Yandex
  • 2008
  • koniec Infoseek Onet, wyszukiwarkę zastąpiło Google
  • koniec AltaVista Interia, wyszukiwarkę zastąpiło Google
  • 2011
  • Swoper
  • 2012
  • Nekst, polska wyszukiwarka semantyczna
  • 2014
  • Xtem Search (archiwum), w języku angielskim
  • Podział wyszukiwarek[ | edytuj kod]

    Wyszukiwarki oparte na analizie treści strony[ | edytuj kod]

    Ponieważ Internet rośnie znacznie szybciej niż jakakolwiek grupa ludzi może go katalogować oraz z powodu wad katalogów (np. pod danym hasłem może znajdować się tysiące stron), powstały wyszukiwarki, które przeszukują Internet analizując zawartość stron. Kiedy użytkownik poda wyszukiwarce zapytanie, ona odpowie mu łączami do stron, które uzna, w zależności od użytego algorytmu, za najbardziej odpowiednie.

    Bing (poprzednio: Windows Live Search i MSN Search) – stworzona przez amerykańską firmę Microsoft wyszukiwarka internetowa, początkowo jako część portalu MSN, później stała się częścią Windows Live, obecnie jest samodzielną wyszukiwarką. Producent nazywa ją nie tylko wyszukiwarką internetową, ale również silnikiem decyzyjnym ze względu na liczbę zaimplementowanych funkcji pomagających podjąć decyzję odnośnie np. restauracji czy biletów lotniczych.Doorway page - strona internetowa utworzona dla podbicia rankingu w wyszukiwarkach internetowych za pomocą pewnych popularnych fraz, jednak przekierowująca do innego miejsca.

    Wyszukiwarki oparte na tej zasadzie mogą objąć znacznie większą część sieci niż katalogi. Niestety są one bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony niemające nic wspólnego z jego zapytaniem. Szczególnie wyspecjalizowały się w tym strony pornograficzne.

    Optymalizacja dla wyszukiwarek internetowych (ang. Search engine optimization – SEO; zwana także pozycjonowaniem) – procesy zmierzające do osiągnięcia przez dany serwis internetowy jak najwyższej pozycji w wynikach organicznych wyszukiwarek internetowych dla wybranych słów i fraz kluczowych. Proces pozycjonowania jest elementem szeroko pojętego marketingu internetowego. Pozycjonowanie bazuje na znanych elementach działania algorytmu wyszukiwarek, ciągłym poznawaniu nowych, które algorytmy biorą pod uwagę przy rangowaniu strony oraz na weryfikowaniu już istniejących.Ukryty tekst (ang. hidden text) – praktyka polegająca na wstawianiu niewidocznego w przeglądarkach WWW tekstu do zawartości dokumentu (X)HTML celem zmylenia robota indeksującego strony. Dla osiągnięcia wysokiej pozycji w wynikach wyszukiwania pod hasłami związanymi z tematyką witryny wstawia się powtarzające słowa kluczowe w różnym kontekście frazowym, przez co analizator treści uzna je za "zwykłą" treść strony. (Zwykłe, wylistowanie słów kluczowych z powtórzeniami może dać efekt odwrotny - tj. uznanie tekstu za bełkot propagandowy). Identyczna metoda dotyczy wstawiania popularnych słów kluczowych zupełnie nie związanych z tematem witryny (np.: "sex", "gry java", "darmowe mp3").

    Wyszukiwarki oparte na analizie topologii sieci[ | edytuj kod]

    Żeby przeciwdziałać temu, stosuje się wyszukiwarki, w których na szczycie list pojawiają się strony, do których odnosi się najwięcej stron dotyczących danego zapytania. Tak więc stronę uważa się za odpowiadającą zapytaniu „britney spears”, jeśli wiele stron na temat „britney spears” do niej linkuje. Strona porno z nagimi zdjęciami Britney, niezależnie od własnej treści i niezależnie od całkowitej liczby linków (głównie z innych stron porno) na nią, nie będzie w ten sposób uznana za związaną z tematem. Natomiast jeśli zada się zapytanie „britney spears nude”, strona ta zostanie uznana za istotną, ponieważ linkuje na nią wiele stron o tematyce „nude”.

    Stanford Encyclopedia of Philosophy (SEP) jest ogólnie dostępną encyklopedią internetową filozofii opracowaną przez Stanford University. Każde hasło jest opracowane przez eksperta z danej dziedziny. Są wśród nich profesorzy z 65 ośrodków akademickich z całego świata. Autorzy zgodzili się na publikację on-line, ale zachowali prawa autorskie do poszczególnych artykułów. SEP ma 1260 haseł (stan na 20 stycznia 2011). Mimo, że jest to encyklopedia internetowa, zachowano standardy typowe dla tradycyjnych akademickich opracowań, aby zapewnić jakość publikacji (autorzy-specjaliści, recenzje wewnętrzne).Bing (poprzednio: Windows Live Search i MSN Search) – stworzona przez amerykańską firmę Microsoft wyszukiwarka internetowa, początkowo jako część portalu MSN, później stała się częścią Windows Live, obecnie jest samodzielną wyszukiwarką. Producent nazywa ją nie tylko wyszukiwarką internetową, ale również silnikiem decyzyjnym ze względu na liczbę zaimplementowanych funkcji pomagających podjąć decyzję odnośnie np. restauracji czy biletów lotniczych.

    Początkowa istotność na podstawie prostej heurystyki, po czym zwykle używa się algorytmu losowego skakania po linkach. Pierwszą wyszukiwarką, która zastosowała zaawansowane algorytmy analizy topologii sieci był Google.

    Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia. W rzeczywistości stosunkowo częstym atakiem są spam-systemy automatycznej wymiany linków. Inną formą ataku jest stworzenie dużej ilości gęsto linkowanych stron, z czego wszystkie na ten sam temat. Jest to jednak zadanie trudne i wymagające dużego nakładu pracy, a modyfikując heurystykę wartości początkowych można znacznie ograniczyć ten proceder, którego skala na razie jest minimalna.

    Britney Jean Spears (ur. 2 grudnia 1981 w McComb) – amerykańska piosenkarka muzyki pop i dance, tancerka i projektantka mody.Wolfram|Alpha, Wolfram Alpha – strona internetowa, stworzona przez amerykańską firmę Wolfram Alpha LLC. Formułuje ona odpowiedź na pytanie zadane w języku naturalnym, wykonuje obliczenia, przedstawia dane statystyczne, rozwiązuje równania itp.

    Wyszukiwarki oparte na zasadzie aukcji miejsc[ | edytuj kod]

    Osobnym pomysłem jest wprowadzony przez Overture system, gdzie strony płacą wyszukiwarce kilka centów za każde kliknięcie, przy czym miejsca są licytowane – strona która daje więcej za kliknięcie znajdzie się wyżej na liście rezultatów. Pozycje płatne są oznaczone jako takie, razem z ceną. System ten jest korzystny dla właścicieli stron – płacą oni tylko za wejścia nie za wyświetlenia. Twórcy twierdzą, że jest on również korzystny dla użytkownika, gdyż tylko strony, które oferują coś użytecznego z danej dziedziny mogą sobie pozwolić na taką reklamę. Z drugiej jednak strony wiele użytecznych stron jest niekomercyjnych, a nawet przy stronach komercyjnych wyniki będą często nieoptymalne – np. na taką reklamę nie mogą sobie pozwolić strony, które mają niskie marże i oferują produkty po niskich cenach, a jedynie te, które mają wysokie marże i oferują produkty drożej.

    Indeksowanie stron - proces analizy dokumentów dostępnych w World Wide Web (np. w formatach HTML, PDF) przez specjalny program komputerowy. Polega na gromadzeniu danych o występujących w dokumentach wyrazach i innych treściach (np. grafikach), które umieszcza się w wydajnych bazach danych umożliwiających późniejsze szybkie wyszukiwanie wyrazów i fraz bez konieczności ponownego analizowania i przeszukiwania źródłowych dokumentów. To dzięki indeksowaniu wyszukiwarka internetowa może podać wynik przeszukiwania miliardów dokumentów w bardzo krótkim czasie.Overture – firma komputerowa z Pasadeny (Kalifornia) założona w 1997 r. , początkowo jako Goto.com, pionier techniki ogłoszeń internetowych opartych na wyrazach kluczowych (keyword advertising).


    Podstrony: 1 [2] [3] [4]




    Warto wiedzieć że... beta

    AltaVista - wyszukiwarka internetowa opracowana w 1995 r. przez dział badawczy Digital Equipment Corporation, bazująca na wprowadzonych w tamtym czasie szybkich serwerach Alpha tej firmy.
    Katalog stron WWW – jeden z rodzajów organizacji adresów i kategoryzacji stron internetowych. Moderowane ręcznie zbiory adresów internetowych, grupowane tematycznie.
    TFIDF (ang. TF – term frequency, IDF – inverse document frequency) - ważenie częstością termów - odwrotna częstość w dokumentach - jedna z metod obliczania wagi słów w oparciu o liczbę ich wystąpień, należąca do grupy algorytmów obliczających statystyczne wagi termów. Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie. TFIDF informuje o częstości wystąpienia termów uwzględniając jednocześnie odpowiednie wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów.
    World Wide Web Wanderer – stworzony przez Matthew Graya prekursor przeszukiwania WWW, nie tylko dlatego, że był pierwszy. Najważniejszą jego cechą było wykorzystanie hipertekstowości. Aplikacja odwiedzała nowe strony WWW, przechodząc do nich po odnośnikach. Była to pierwsza wyszukiwarka internetowa rozpoczynająca erę robotów internetowych.
    Spamdexing – pojęcie utoworzone od angielskich słów Spam i indexing. Obejmuje uznawane za nieuczciwe praktyki, stosowane przez webmasterów, polegające na dołączaniu do stron WWW takich informacji, by znalazły się na wysokiej pozycji w wyszukiwarce internetowej.
    Program komputerowy (ang. computer program) - sekwencja symboli opisująca obliczenia zgodnie z pewnymi regułami zwanymi językiem programowania. Program jest zazwyczaj wykonywany przez komputer (np. wyświetlenie strony internetowej), czasami bezpośrednio – jeśli wyrażony jest w języku zrozumiałym dla danej maszyny lub pośrednio – gdy jest interpretowany przez inny program (interpreter). Program może być ciągiem instrukcji opisujących modyfikacje stanu maszyny ale może również opisywać obliczenia w inny sposób (np. rachunek lambda).
    Library of Congress Control Number (LCCN) – numer nadawany elementom skatalogowanym przez Bibliotekę Kongresu wykorzystywany przez amerykańskie biblioteki do wyszukiwania rekordów bibliograficznych w bazach danych i zamawiania kart katalogowych w Bibliotece Kongresu lub u innych komercyjnych dostawców.

    Reklama