Tutti i motori di ricerca hanno come fine unico il fornire all'utenza
di Internet un modo per reperire, in modo semplice e immediato, le informazioni
desiderate. Ogni azienda che investe su Internet si assicura visibilità:
come per il telefono esistono gli elenchi, le catalogazioni in categorie,
le pagine gialle, e alcuni sistemi di ricerca automatica, quali il 12 o
i terminali nelle sedi Telecom, allo stesso modo sono state ideate su Internet
alcune procedure standard di reperimento delle informazioni. Considerata
la dinamicità dei dati disponibili sulla rete delle reti, si è
pensato anche di automatizzare l'aggiornamento continuo attraverso i cosiddetti
spider o robot, vere e proprie talpe che scandagliano la rete raccogliendo
alcuni fattori di riconoscimento di ciascun documento che incontrano e
fornendo tali informazioni al motore d'indicizzazione e di ricerca che
le organizza in qualche modo e consente una ricerca per parole chiave,
più o meno complessa. Ciascuna delle realizzazioni di questi concetti
generali si differenzia per dimensione del database, per tempestività
di aggiornamento, per potenza elaborativa o per duttilità e complessità
della ricerca, che per la forma con cui viene presentata l'informazione:
tutta assieme oppure divisa per categorie. Anche la tipologia può
variare, unendo spazio Web o anche mondo Usenet News, cioè forum
di discussione, o ricerca software.
Non è possibile al momento stilare una classifica di questi
strumenti, perchè sarebbe viziata dal gusto e dal modo personale
d'intendere Internet. Esistono tuttavia alcuni elementi oggettivi di differenziazione.
In primo luogo non tutti usano un robot associato, o meglio lo attivano
solo su richiesta. Questo significa che non curiosano sulla rete indiscriminatamente,
ma schedano soltanto quelle risorse che vengono suggerite dall'esterno.
Il classico esempio per questo genere di funzionamento è
ALIWEB
che nasce dichiaratamente con lo scopo di non eseguire nessuna operazione
di esplorazione in automatico.
Tutti consentono l'inoltro di url, vale a dire la segnalazione di un
servizio da indicizzare nel caso non fosse stato ancora raggiunto dallo
spider. D'indubbio interesse per un utilizzatore è poi la conoscenza
della dimensione della banca dati a disposizione, ovverosia della speranza
di trovare al suo interno l'informazione cercata. Sotto questo punto di
vista la palma d'oro spetta certamente a Google, seguito a ruota dal
popolare Lycos e dal più conosciuto
Yahoo!. Di minori dimensioni sono i database di
WebCrawler, di Metaler,
di OpenText, di
Deja News e del neonato Metasearch,
pur distinguendosi ciascuno per altre peculiarità.
WebCrawler è fra i sistemi che frappongono minor tempo tra la
segnalazione di un url e la sua relativa indicizzazione e messa a disposizione
tramite il robot, così come Metasearch consente una ricerca su basi
dati differenti, e OpenText mette a disposizione dell'utente un'interfaccia
semplice per una complessa serie di richieste, dando la possibilità
di raffinare la ricerca per gradini successivi. È un elemento differenziante
la fornitura di servizi a valore aggiunto, quali la definizione di una
gerarchia di argomenti, i famosi subject tree di Yahoo! e il servizio A2Z
di Lycos, oppure la segnalazione critica dei siti più belli o più
interessanti, come il Point TOP 5% Index fornito sempre da Lycos. Considerato
che i maggiori sistemi informativi sono catalogati, grazie anche a sistemi
quali Submit It! (http://www.submit-it.com) che permettono la segnalazione
simultanea di un url a tutti o quasi i robot e siti di ricerca, la vera
scommessa è trovare il sistema più rapido, volta per volta,
tramite cui reperire quanto desiderato. La risposta a tale quesito dipende
da due fattori: come è stata immessa l'informazione e come viene
ricercata.
Al primo elemento l'utilizzatore della rete non può porre rimedio
se non cercando di non commettere a sua volta gli stessi errori compiuti
dagli altri quando si dovesse trovare nella necessità di segnalare
un url a un motore di ricerca. Infatti, benchè ognuno di questi
si comporti in maniera diversa nel creare gli indici o le descrizioni di
quanto schedato, si possono seguire alcuni accorgimenti.
La maggior parte dei sistemi consente d'inserire, in fase di segnalazione
di un url, una breve descrizione del contenuto del servizio, delle keyword
(parole chiave) identificanti lo stesso, oppure delle categorie di affari
a cui questo si riferisce. Se la descrizione è compilata in maniera
ottimale, al tempo stesso sintetica, esaustiva e con le parole chiave presenti
in modo chiaro in essa, la successiva indicizzazione e ricerca saranno
notevolmente semplificate. Pochi però sanno che un motore di ricerca
che recupera un sistema informativo sulla rete lo indicizza inserendo come
sunto dello stesso le prime righe presenti nella sua home page, così
come pochi sono a conoscenza del fatto che Alta Vista usa a questo fine,
quando presenti, i marcatori (tag) META previsti dalla versione 3.0 del
linguaggio html. In particolare modo utilizza i tag
<META name="description" content="descrizione del contenuto del
servizio">
<META name="keywords" content="parola-chiave, parola chiave, ...,parola
chiave">
per definire rispettivamente il testo descrittivo inserito dopo il
link all'interno della pagina di risposta a una query dell'utente e una
serie di chiavi di ricerca per quello specifico servizio.
L'utente può svolgere una funzione essenziale nella ricerca
dell'informazione. Una richiesta, a seconda di come venga formulata e a
seconda della quantità, qualità e complessità delle
condizioni di ricerca fornite al motore, compatibilmente col servizio reso
disponibile dallo stesso, può risultare immediatamente rispondente
alla necessità dell'utente oppure del tutto inutile.
I meccanismi di trasmissione della query
Poichè l'interfaccia di tutti questi motori è il World
Wide Web, una query viene inviata a un qualsiasi motore di Information
Retrieval tramite un programma che intercetta i dati inseriti dall'utente,
al motore di ricerca che recupera l'informazione rispondente alle condizioni
indicategli, genera una pagina html di risposta dinamica, non esistente
realmente su disco, ma definita al volo (run time).
La complessità d'implementazione del motore di ricerca si ripercuote
sulla completezza e sulla varietà delle condizioni messe a disposizione
del ricercatore per l'affinamento della propria ricerca. La quasi totalità
dei motori presenti su Web consente l'utilizzo all'interno delle query
dei principali operatori booleani. Alcuni permettono di restringere la
ricerca a campi definiti (quali l'url o il titolo, tag <TITLE>, della
pagina), come ad esempio ALIWEB, mentre pochi, e tra questi vale la pena
ricordare Alta Vista e OpenText, consentono l'utilizzo di condizioni di
ricerca molto sofisticate.
Facciamo un esempio chiarificatore. Ricercare su Lycos la parola Personal
genera una query che cerca tutte le pagine contenenti la parola Personal,
mentre ricercare Computer fornisce tutte quelle con al proprio interno
la voce Computer. Per quelle con all'interno sia la parola Computer che
la parola Personal è sufficiente inserirle entrambe, anche senza
specificare l'operatore booleano AND in quanto è di default.
Gli operatori booleani messi a disposizione da quasi tutti i robot
sono AND, OR e NOT, più alcuni che accettano anche NEAR. L'operatore
AND implica la ricerca di tutti i documenti che contengano entrambe le
espressioni messe in relazione, OR quelle che includono almeno una delle
due, mentre usare NOT espressione comporta l'estrazione delle pagine in
cui manca la parola. NEAR significa in inglese "vicino a" e si usa per
cercare una parola usata in prossimità di un'altra. Tutti gli operatori
possono poi essere combinati ad affinare la ricerca anche grazie all'impiego
delle parentesi e delle virgolette. Queste ultime consentono di specificare
un'intera frase anzichè una parola singola, mentre le prime permettono
la suddivisione delle operazioni logiche, alla stessa stregua delle regole
dell'aritmetica elementare. Ad esempio se cercassimo informazioni sui PC
IBM con sistema operativo OS/2, la query da inserire su Alta Vista sarebbe:
"Personal Computer" AND (IBM NEAR OS/2) e si troverebbero circa 300.000
referenze, impossibili da consultare. Il rimedio consiste nell'impostare
una query avanzata.
Di tutti questi documenti trovati potremmo estrarre solo quelli presenti
su un server ufficiale IBM. La richiesta per Alta Vista diventerebbe la
seguente: "Personal Computer" AND (IBM NEAR OS/2) AND host:ibm.com. Le
risposte scenderebbero a 176.
L'importanza di effettuazione di richieste anche complesse risulta chiara,
così come evidente ne risulta la necessità a mano a mano
che i database crescono di dimensioni. Una delle obiezioni più frequenti
rispetto all'uso dei robot consiste proprio nella dichiarata inutilità
apparente dell'informazione che questi restituiscono: troppa e disordinata,
nonchè, spesso, ridondante. L'uso delle advanced query e della possibilità
di ricerca all'interno di una data categoria di informazioni (come su Yahoo!)
insieme alla possibilità di ordinare i risultati in base a criteri
prescelti dall'utente assegnando un diverso peso alle espressioni ricercate
(come su Alta Vista) costituiscono una naturale risposta a quanto obiettato.
Un'altra critica contro i motori di ricerca è la necessità
di effettuare una richiesta per ciascuno e quindi ottenere risposte separate,
oltre che il carico indotto sulla rete e sui server dai relativi spider
nella loro opera di reperimento dell'informazione.
Per ovviare al primo sono stati creati dei servizi quali Savvy Search
(http://guaraldi.cs.colostate.edu:2000) e All4One (http://easypage.com/all4one)
che permettono d'inviare contemporaneamente a più motori di ricerca
una richiesta (logicamente non di tipo avanzato, in quanto deve per forza
andare bene per tutti) e riunire le singole risposte in una sola. Savvy
Search consente la scelta dei robot a cui inviare la query mentre All4One
la invia ai 4 considerati maggiori: Alta Vista, WebCrawler, Lycos e Yahoo!
Sono state anche ideate regole che tutelano la privacy del contenuto
delle pagine di un servizio informativo. Senza entrare nel dettaglio delle
modalità di protezione contro le intrusioni indesiderate, si è
deciso che i sistemi di catalogazione automatica, i robot per intendersi,
prima di visitare e catalogare un ramo di un server Web, verifichino se
esiste un ben definito file, robots.txt, realizzato dall'amministratore
del servizio e contenente i rami del sistema che devono restare inaccessibili
al robot. Resta inteso che un robot può essere costruito senza riguardo
a queste norme comportamentali, ma ormai quasi tutti quelli in circolazione
dichiarano esplicitamente di attenersi al Robots Exclusion Standard (http://info.webcrawler.com/mak/projects/robots/robots.html).
Considerando che un robot automatico scandaglia Internet recuperando in
maniera continuativa informazioni dai vari siti che visita, si può
immaginare come il carico indotto sulla rete da questo genere di operazioni
sia molto elevato, senza considerare il pericolo di ridondanza dell'informazione
catalogata e di disordine nella visualizzazione del risultato della ricerca,
tralasciando l'eventualità che il servizio corrispondente al link
non sia più disponibile. Come parziale rimedio si è deciso
d'indicizzare per un certo server solo le pagine localmente residenti su
di esso o memorizzare le informazioni dei soli documenti raggiungibili
in un numero limitato e definito di link a partire dalla home page, così
come anche limitare il numero delle referenze recuperate sulla base del
massimo punteggio (maggior correlazione con le condizioni espresse dall'utente),
oppure visualizzare le stesse a gruppi di poche voci. In Italia il primo
a vedere la luce è stato il robot installato al crs4 (Centro di
Ricerca, Sviluppo e Studi Superiori in Sardegna - http://www.crs4.it/Index/)
avente la particolarità d'indicizzare esclusivamente la realtà
Web nazionale partendo dall'elenco dei server www registrati ufficialmente
in Italia (http://www.cilea.it/WWW-map/). A questo ne sono seguiti molti
altri che stanno cercando di offrire un servizio di utilità per
la comunità Internet italiana. Durante il convegno nir-it '95, giunto
ormai alla sua terza edizione (http://www.cilea.it/nir-it/), si è
pensato di riunire insieme in una unica pagina, che fungesse da punto di
partenza per l'esplorazione della rete, tutti i sistemi di catalogazione
e i robot nazionali. La realizzazione, avvenuta nei primi mesi del 1996,
può essere visionata all'url http://www.cilea.it/nir-it/ricerca.
Chiunque metta in opera un nuovo servizio di ricerca o catalogazione del
mondo Internet nazionale lo può segnalare tramite un link presente
in tale pagina e vedere in tal modo la propria realizzazione inserita in
questo elenco. Il cilea (Consorzio Interuniversitario Lombardo per l'Elaborazione
Automatica) ha inoltre approntato una serie di pagine, visualizzabili all'indirizzo
http://www.cilea.it/search/nir-world.html,
creandone di nuove ma soprattutto riunendo in esse servizi già approntati
da altri, che offrono all'utenza nazionale una via agevole per iniziare
la navigazione sulla rete delle reti, presentando insieme i vari servizi
di catalogazione e ricerca, senza la costrizione di dover ricordare innumerevoli
indirizzi. Per coloro i quali intendano approfondire il discorso sui robot,
visualizzare un elenco dei motori di ricerca conosciuti e magari cimentarsi
con la progettazione e creazione di un nuovo robot su Internet, si rimanda
all'url http://info.webcrawler.com/mak/projects/robots/active.html. Se
invece qualcuno volesse discutere in lingua italiana di robot e delle problematiche
tecniche a essi connesse, si segnala la lista di discussione rob-it@jargo.itim.mi.cnr.it.
Il successo di Internet in ambito commerciale passa anche, e soprattutto,
dalla visibilità che i singoli servizi riusciranno ad avere nel
panorama nazionale e internazionale. Così come i servizi di catalogazione
anche i robot svolgono un ruolo fondamentale nel cammino ancora lungo da
compiere per giungere all'accreditamento di Internet quale vetrina di fruibilità
immediata dell'informazione.
Avere a disposizione un'informazione chiara, precisa e ricuperabile
in tempi brevi, unitamente alla vastità e alla complessità
della stessa, è un compito che gli sviluppatori,o commercializzatori
di servizi che utilizzano la struttura portante di Internet, non possono
dimenticare.
ALIWEB
Un servizio di ricerca su Web che mantiene aggiornato un indice globale
dei siti disponibili attivando in modo selettivo un robot che va a cercare
le informazioni di un sito solo dopo segnalazione esterna (di solito proveniente
dai gestori del sito medesimo). Viene gestito dalla società inglese
NEXOR e consiste di segnalazioni spontanee fornite dai gestori dei singoli
siti in un formato idoneo per essere introdotte in un database globale.
Il suo indirizzo è http://web.nexor.co.uk/public/aliweb/doc/search.html.
Nella pagina di ricerca consente di specificare se la parola chiave fornita
per la ricerca è una parola singola oppure può essere contenuta
in altre parole e se bisogna rispettare le maiuscole e minuscole.
EINet Galaxy
Un motore che accomuna in una singola interfaccia anche la ricerca
WAIS (Wide Area Information Servers), Veronica (Gopher), e Archie (ftp).
Viene gestito sotto forma di biblioteca virtuale suddivisa per argomento
dalla Microelectronics and Computer Technology Corporation (mcc). Consente
l'impiego di operatori booleani e fornisce in risposta un elenco di documenti
con un punteggio della relativa aderenza ai parametri di ricerca specificati
dall'utente. Il sito Web di riferimento è
http://galaxy.einet.net.
InfoSeek
Uno dei più veloci motori di ricerca basati su robot oggi disponibili
su Internet. L'indirizzo del suo sito è http://www.infoseek.com.
L'azienda Infoseek Corporation è stata fondata nel gennaio del 1994
da Steven Kirsch.
Rispetto all'approccio classico dei robot che raccolgono informazioni
a tappeto, InfoSeek basa i propri criteri di raccolta su inchieste che
conduce su utenti generici molto attivi e su responsabili dei centri documentazione
di grandi aziende per stabilire quello che l'americano medio cerca maggiormente
in termini d'informazioni. Il risultato è un indice mirato. La notevole
velocità con cui il motore di InfoSeek risponde anche nei momenti
di più alto traffico (paragonabile ad AltaVista) è dovuta
alla presenza di server multipli collegati a una linea T3 (45 Mbps).
InfoSeek Guide, il più recente tra i servizi attivati dall'azienda,
abbina navigazione guidata per soggetti a ricerca con indicizzazione a
testo pieno. Quando l'utente trova un sito interessante può richiedere
al motore di localizzare tutti i siti simili. Questo servizio è
pubblico ed è accessibile all'indirizzo http://guide.infoseek.com.
Esiste anche un servizio a pagamento di consultazione del suo database,
accessibile all'indirizzo http://professional.infoseek.com.
Inktomi
Un robot creato all'inizio del 1996 dall'Università di California
a Berkeley che cataloga 2,8 milioni di documenti Web consentendo poi di
passarli in rassegna con un velocissimo motore di ricerca basato su elaborazione
parallela. Ha una velocità paragonabile a InfoSeek, che va considerato
il più veloce tra i motori abbinati a robot. È raggiungibile
all'indirizzo http://inktomi.berkeley.edu.
Lycos
Uno dei più importanti motori di ricerca basato su robot. Il
suo sito di riferimento è http://www.lycos.com oppure http://lycos.cs.cmu.edu.
Il motore è composto in realtà da diverse macchine che funzionano
in parallelo, tutte gestite dalla Carnegie Mellon University di Pittsburg
in Pennsylvania, contattabile al sito http://www.cmu.edu. Già al
6 aprile 1996 aveva catalogato 39.234.039 diversi url (Uniform Resource
Locator) senza doppioni equivalenti a 7.980.000 pagine che, secondo la
stima della società, rappresentano il 91 per cento del contenunto
del World Wide Web.
Da iniziativa universitaria si è traformato in attività
commerciale finanziata da sponsor pubblicitari (Lycos Incorporated). Il
nome deriva dalle prime cinque lettere della parola latina lycosidae (in
italiano licosidi), un tipo di ragno che va a caccia delle proprie prede
invece che attenderle nella ragnatela. È stato scelto come alterazione
canzonatoria della parola spider (ragno), che è sinonimo di robot.
La stessa società che gestisce Lycos fornisce anche un servizio
di catalogazione per argomenti, chiamato A2Z e una classifica del meglio
tra i vari siti Internet (un 5% scelto) denominata Point.
Al termine della ricerca, vengono sempre visualizzati dieci riferimenti
alla volta e l'utente può scegliere tra il vedere il solo titolo
oppure anche un sommario del contenuto.
Si può arrivare a visualizzare fino a un massimo di 40 voci
alla volta. Non sono previsti operatori booleani, con la sola eccezione
di AND a cui si accede dal menu delle opzioni, e NOT che si simula aggiungendo
il segno meno prima della parola nella finestrella di ricerca (ad esempio-parola).
È invece vietato l'uso del simbolo + e dei numeri all'inizio
di parola. Due caratteri speciali che si possono invece aggiungere alla
fine della parola sono il punto fermo (.) affinchè il programma
prenda il termine da noi specificato come parola intera (banca e non bancario)
oppure il simbolo ($) per forzare l'espansione (il completamento automatico)
di una parola che non sappiamo esattamente come sia scritta. Nella pagina
html, che mostra il risultato della ricerca, a ogni voce viene abbinato
un numero a scendere partendo da 1.000. Si tratta di un punteggio che indica
in che misura il documento soddisfa, secondo Lycos, i parametri della nostra
richiesta.
Magellan Internet Director
Uno degli elenchi di siti Web disponibili su Internet. Viene gestito
dal McKinley Group e fornisce una valutazione e una lunga descrizione per
ciascuno dei numerosi siti elencati nel suo catalogo che può essere
consultato con una ricerca a parola chiave, per soggetto, per dimensione
della recensione, per categoria. Si basa su un robot che raccoglie informazioni
seguendo un algoritmo che seleziona solo quel genere d'informazioni ritenute
d'interesse generale. Il risultato della ricerca viene sottoposto a uno
staff di valutatori che compila il catalogo finale. I fondatori della società
sono Christine e Isabel Maxwell, due delle figlie del defunto magnate dell'editoria
americana Robert Maxwell. È raggiungibile all'indirizzo http://www.mckinley.com.
Questo strumento è una via di mezzo tra i motori di ricerca basati
su robot tradizionali e un catalogo (directory) di riferimento selettivo.
Open Text
Uno dei più noti motori di ricerca basati su un robot che macina
decine di migliaia di pagine al giorno indicizzandone l'intero contenuto.
Si basa su un database di grandi dimensioni, circa 1 milione di pagine
e la ricerca è rapida. Indicizza documenti in 40 formati diversi,
tra cui html (HyperText Markup Language), pdf (Portable Document Format),
sgml (Standard Generalized Markup Language) usando agenti di tipo intelligente.
Il server Web a cui questa si appoggia, però, non è particolarmente
veloce nel rispondere quando il traffico su Internet diventa intenso. In
effetti il focus dell'azienda è sul fornire servizi legati a Internet
per le grandi aziende e non a ricavare fatturato dalla pubblicità
piazzata sulle pagine del motore di ricerca. La società ha sede
vicino a Toronto in Canada.
L'indirizzo Web di riferimento è http://www.opentext.com.
WebCrawler
È stato uno dei primi servizi di ricerca con indicizzazione
a testo pieno nato nella storia del Web.
Raccoglie le proprie informazioni attraverso un robot ed è raggiungibile
all'indirizzo http://www.webcrawler.com oppure http://webcrawler.com. Il
suo database ha dimensioni più contenute rispetto a quello di Lycos,
però è ben aggiornato. Tende a essere un po' difficile da
raggiungere quando la rete è trafficata, e i server non sono sempre
veloci nel rispondere, la ricerca è rapida e può essere attivata
anche direttamente dall'Italia all'indirizzo http://www.global.it/servizi/w3srch.html..
Il progetto è stato iniziato da Bryan Pinkerton presso l'Università
di Washington a Seattle e la prima release è stata rilasciata come
esperimento accademico il 20 aprile 1994 con informazioni su 6.000 siti.
L'interesse per questo servizio si è sviluppato rapidamente
arrivando nell'ottobre di quello stesso anno a una media di 15.000 query
al giorno. Nel marzo del 1995 il traffico aveva già saturato le
capacità del dipartimento d'informatica dell'università e
poteva essere consultato solo di notte. Perciò quello stesso mese
è stato ceduto ad America On Line che lo ha trasferito a San Francisco
facendolo diventare parte del suo servizio gnn.
wwww (World Wide Web Worm - verme del World Wide Web)
È uno dei più famosi e ruspanti motori di ricerca basati
su robot disponibili su Internet.
Viene gestito da Oliver McBryan presso l'Università del Colorado
a Boulder e l'indirizzo del suo sito è http://wwww.cs.colorado.edu.
È piuttosto veloce nel fornire le risposte e riporta la parola
seguita dall'url del documento in cui è contenuta. Consente l'impiego
di operatori booleani come AND e OR.
Impiega quattro database che contengono le citazioni (rimandi ipertestuali
detti anche ancor) ad altri documenti assieme agli indirizzi (url) dei
documenti in cui questi rimandi sono contenuti e i brani di testo su cui
si clicca per attivare il rimando. In aggiunta a questo aggiunge una catalogazione
dei nomi dei domini e dei file che costituiscono i vari url.
Tale catalogazione può essere utile, ad esempio, per recuperare
tutte le immagini gif, oppure per localizzare tutti i siti esistenti in
Italia (e che quindi contengono la sigla it all'interno del dominio). Le
risposte arrivano a un massimo di 5.000.
WWWW conosce solo quegli url che sono referenziati all'interno degli
url primari che il robot tiene come riferimento. Tutti gli url che sono
all'esterno di questa catena rimangono sconosciuti al suo motore di ricerca.
Nonostante questa limitazione, esegue ricerche continue su oltre 3
milioni di url.