jueves, 18 de octubre de 2012

Práctica2. Generando la colección

Generar una colección de prueba, requiere del uso de programas de tipo webcrawler, especializados en el rastreo y recopilación de sitios web. Para simular este proceso, se propone la instalación de dos programas:


 

Los requisitos de instalación para ambos programas son el servidor Apache HTTP, base de datos MySQL y módulo PHP. Se recomienda el uso de una distribución compacta portable Server2Go, véanse las instrucciones de instalación y configuración en: http://ccdoc-automatizacion.blogspot.com/2008/02/04-fundamentos-tecnolgicos-de-la.html

Instalación de PHPCrawl
  • Descargar la versión modificada de PHPCrawl.
  • Descomprimir los contenidos del programa en la carpeta "phpcrawler". (nombre del directorio en mínusculas, sin subcarpetas que aniden varios niveles el acceso a los contenidos del programa)
  • Copiar la carpeta "phpcrawler" y pegar en el directorio "USB:\server2go\htdocs\phpcrawler".
  • Instalación completada.
Instalación de Sphider
  • Descargar la versión modificada de Sphider.
  • Descomprimir los contenidos del programa en la carpeta "sphider". (nombre del directorio en mínusculas, sin subcarpetas que aniden varios niveles el acceso a los contenidos del programa)
  • Copiar la carpeta "sphider" y pegar en el directorio "USB:\server2go\htdocs\sphider".
  • Iniciar el servidor Server2Go y acceder al programa PhpMyAdmin, mediante URL "http://127.0.0.1:4001/phpmyadmin/"
  • Crear base de datos vacía "sphider".
  • Acceder desde el mismo navegador al programa Sphider "http://127.0.0.1:4001/sphider/". Mostrará una página de inicio con diversas opciones.
  • Seleccionar la opción "Instalar Sphider" y el programa creará todas las tablas necesarias para su funcionamiento en la base de datos creada anteriormente.
  • Copiar los archivos de semilla, elaborados en la práctica anterior y emplazarlos en la siguiente ubicación "USB:\server2go\htdocs\sphider\admin\seedtxt\".
  • Desde la página de inicio de Sphider, seleccionar la opción "Preparar semilla" para convertir los archivos de semilla en formato txt, en sentencias sql, para su importación posterior en Sphider. Se le requerirá que seleccione un archivo para la conversión. Marque el primero y efectúe el proceso de conversión, hasta su finalización. Si existen más archivos de semilla disponibles, repita el proceso con el siguiente archivo. 
  • El resultado de este proceso es la creación de archivos de semilla con extensión ".sql" que serán utilizados para su importación desde el gestor de bases de datos PhpMyAdmin. Se encuentran disponibles en la siguiente ruta "USB:\server2go\htdocs\sphider\admin\seedsql\".
  • Acceder al programa PhpMyAdmin, mediante URL "http://127.0.0.1:4001/phpmyadmin/". Seleccionar la base de datos "sphider". A continuación seleccionar la tabla "sites" en la que se deberan cargar las direcciones URL de las semilla con extensión ".sql" generadas en el paso anterior. 
  • Obsérvese que PhpMyAdmin mostrará una pestaña con la opción "Importar". Al hacer click deberá examinar la localización del archivo a importar, que se encuentra en la ruta "USB:\server2go\htdocs\sphider\admin\seedsql\". No hace falta efectuar ningún tipo de configuración añadida. Seguidamente haga click en el botón "Continuar" y se transferirán todos los datos de la semilla. 
  • Instalación completada.
Instalación múltiple de Sphider
  • Por motivos de evaluación científica, la práctica2 requiere de tántas instalaciones de Sphider, como semillas se generaron en la práctica1. En tal caso se repetirá el proceso enunciado en este apartado, variando el nombre de los directorios de instalación "sphider1, sphider2, sphider3,... sphiderN", así como creando las bases de datos en blanco "sphider1, sphider2,... sphiderN". 
  • Se deberá, modificar el archivo de configuración "USB:\server2go\htdocs\sphider\settings\database.php" para modificar el nombre de la base de datos para cada instalación:
    • $database="sphider1, sphider2, sphider3...";
    • $mysql_user = "root";
    • $mysql_password = "root";
    • $mysql_host = "localhost";

Nota importante
Una vez instalados PHPCrawl y Sphider, se podrá llevar a cabo la práctica 2, que deberá ser supervisada por el profesor, en sus primeras fases. A fin de facilitar la labor del alumno, se recomienda la asistencia para homogeneizar el proceso de recuperación. Se advierte de que la presente práctica no es sólo una experiencia rutinaria, también resulta ser un experimento científico que permitirá indagar en la mejora y desarrollo de programas de crawling.

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.