Questo programma, ovvero un motore di ricerca locale per pagine html, interamente scritto in C, è molto simile al motore di ricerca 1. Questo programma indicizza pagine html invece che documenti di testo. Più precisamente alcune funzioni leggono il contenuto di alcuni tag particolari, e altre funzioni eliminano altri tag indesiderati. Ma vediamo di capire meglio. Prima della funzione parser viene aggiunto questo blocco di codice:
Le funzioni aggiunte sono due: search_p e delete_tag. Search_p è una funzione che riceve una stringa, ne legge il contenuto tra i tag <p></p>(tag che delimitano un paragrafo) e i tag <title></title>(tag nei quali viene inserito il titolo) e lo scrive sul file sito.txt. A questo punto nel file sito.txt, avremo il titolo della pagina e tutto ciò viene inserito tra i tag di paragrafo, e quindi anche tutti i tag di formattazione del testo. La funzione delete_tag si occupa di eliminare proprio tutti questi tag e di scrivere il risultato sempre sul file sito.txt. Su questo file ritroveremo quindi un normale testo, privo di qualsiasi tag, pronto per essere filtrato dalla funzione parser.
Tutto quanto riportato in questa pagina è a puro scopo informativo personale. Se non ti trovi in accordo con quanto riportato nella pagina, vuoi fare delle precisazioni, vuoi fare delle aggiunte o hai delle proposte e dei consigli da dare, puoi farlo mandando un email. Ogni indicazione è fondamentale per la continua crescita del sito.