Motori di ricerca

DIPARTIMENTO DI INFORMATICA ED AUTOMAZIONE

FUNZIONAMENTO DEI MOTORI DI RICERCA

http://www.altavista.com

Come funzionano

I meccanismi di trasmissione della query

L'importanza di effettuazione di richieste anche complesse risulta chiara, così come evidente ne risulta la necessità a mano a mano che i database crescono di dimensioni. Una delle obiezioni più frequenti rispetto all'uso dei robot consiste proprio nella dichiarata inutilità apparente dell'informazione che questi restituiscono: troppa e disordinata, nonchè, spesso, ridondante. L'uso delle advanced query e della possibilità di ricerca all'interno di una data categoria di informazioni (come su Yahoo!) insieme alla possibilità di ordinare i risultati in base a criteri prescelti dall'utente assegnando un diverso peso alle espressioni ricercate (come su Alta Vista) costituiscono una naturale risposta a quanto obiettato.
Un'altra critica contro i motori di ricerca è la necessità di effettuare una richiesta per ciascuno e quindi ottenere risposte separate, oltre che il carico indotto sulla rete e sui server dai relativi spider nella loro opera di reperimento dell'informazione.
Per ovviare al primo sono stati creati dei servizi quali Savvy Search (http://guaraldi.cs.colostate.edu:2000) e All4One (http://easypage.com/all4one) che permettono d'inviare contemporaneamente a più motori di ricerca una richiesta (logicamente non di tipo avanzato, in quanto deve per forza andare bene per tutti) e riunire le singole risposte in una sola. Savvy Search consente la scelta dei robot a cui inviare la query mentre All4One la invia ai 4 considerati maggiori: Alta Vista, WebCrawler, Lycos e Yahoo!
Sono state anche ideate regole che tutelano la privacy del contenuto delle pagine di un servizio informativo. Senza entrare nel dettaglio delle modalità di protezione contro le intrusioni indesiderate, si è deciso che i sistemi di catalogazione automatica, i robot per intendersi, prima di visitare e catalogare un ramo di un server Web, verifichino se esiste un ben definito file, robots.txt, realizzato dall'amministratore del servizio e contenente i rami del sistema che devono restare inaccessibili al robot. Resta inteso che un robot può essere costruito senza riguardo a queste norme comportamentali, ma ormai quasi tutti quelli in circolazione dichiarano esplicitamente di attenersi al Robots Exclusion Standard (http://info.webcrawler.com/mak/projects/robots/robots.html). Considerando che un robot automatico scandaglia Internet recuperando in maniera continuativa informazioni dai vari siti che visita, si può immaginare come il carico indotto sulla rete da questo genere di operazioni sia molto elevato, senza considerare il pericolo di ridondanza dell'informazione catalogata e di disordine nella visualizzazione del risultato della ricerca, tralasciando l'eventualità che il servizio corrispondente al link non sia più disponibile. Come parziale rimedio si è deciso d'indicizzare per un certo server solo le pagine localmente residenti su di esso o memorizzare le informazioni dei soli documenti raggiungibili in un numero limitato e definito di link a partire dalla home page, così come anche limitare il numero delle referenze recuperate sulla base del massimo punteggio (maggior correlazione con le condizioni espresse dall'utente), oppure visualizzare le stesse a gruppi di poche voci. In Italia il primo a vedere la luce è stato il robot installato al crs4 (Centro di Ricerca, Sviluppo e Studi Superiori in Sardegna - http://www.crs4.it/Index/) avente la particolarità d'indicizzare esclusivamente la realtà Web nazionale partendo dall'elenco dei server www registrati ufficialmente in Italia (http://www.cilea.it/WWW-map/). A questo ne sono seguiti molti altri che stanno cercando di offrire un servizio di utilità per la comunità Internet italiana. Durante il convegno nir-it '95, giunto ormai alla sua terza edizione (http://www.cilea.it/nir-it/), si è pensato di riunire insieme in una unica pagina, che fungesse da punto di partenza per l'esplorazione della rete, tutti i sistemi di catalogazione e i robot nazionali. La realizzazione, avvenuta nei primi mesi del 1996, può essere visionata all'url http://www.cilea.it/nir-it/ricerca. Chiunque metta in opera un nuovo servizio di ricerca o catalogazione del mondo Internet nazionale lo può segnalare tramite un link presente in tale pagina e vedere in tal modo la propria realizzazione inserita in questo elenco. Il cilea (Consorzio Interuniversitario Lombardo per l'Elaborazione Automatica) ha inoltre approntato una serie di pagine, visualizzabili all'indirizzo http://www.cilea.it/search/nir-world.html, creandone di nuove ma soprattutto riunendo in esse servizi già approntati da altri, che offrono all'utenza nazionale una via agevole per iniziare la navigazione sulla rete delle reti, presentando insieme i vari servizi di catalogazione e ricerca, senza la costrizione di dover ricordare innumerevoli indirizzi. Per coloro i quali intendano approfondire il discorso sui robot, visualizzare un elenco dei motori di ricerca conosciuti e magari cimentarsi con la progettazione e creazione di un nuovo robot su Internet, si rimanda all'url http://info.webcrawler.com/mak/projects/robots/active.html. Se invece qualcuno volesse discutere in lingua italiana di robot e delle problematiche tecniche a essi connesse, si segnala la lista di discussione rob-it@jargo.itim.mi.cnr.it.
Il successo di Internet in ambito commerciale passa anche, e soprattutto, dalla visibilità che i singoli servizi riusciranno ad avere nel panorama nazionale e internazionale. Così come i servizi di catalogazione anche i robot svolgono un ruolo fondamentale nel cammino ancora lungo da compiere per giungere all'accreditamento di Internet quale vetrina di fruibilità immediata dell'informazione.
Avere a disposizione un'informazione chiara, precisa e ricuperabile in tempi brevi, unitamente alla vastità e alla complessità della stessa, è un compito che gli sviluppatori,o commercializzatori di servizi che utilizzano la struttura portante di Internet, non possono dimenticare.

ALIWEB

EINet Galaxy

InfoSeek

Inktomi

Lycos

Magellan Internet Director

Open Text

WebCrawler

wwww (World Wide Web Worm - verme del World Wide Web)

Dott Ing. ALDO NECCI

Dipartimento di Informatica ed Automazione

Via della Vasca Navale, 79

e-mail: necci@inf.uniroma3.it