#!/usr/bin/perl $libwww_dir = "libwww-perl-0.40"; $| = 1; $docroot = substr($ARGV[0],0,rindex($ARGV[0],'/')).'/'; $chop_docroot = substr($ARGV[0],0,rindex($ARGV[0],'/')); open(GETHTML,"$libwww_dir/get -t1000 $ARGV[0]|"); $counter = 0; $i = 0; while() { while($_ =~ /(href|HREF)\=\"(\w\S*)\"/g) { $firstlinks[$i] = $2; if((substr($firstlinks[$i],0,5) ne 'http:')&& (substr($firstlinks[$i],0,6) ne 'https:')&& (substr($firstlinks[$i],0,5) ne 'file:')&& (substr($firstlinks[$i],0,7) ne 'mailto:')&& (substr($firstlinks[$i],0,4) ne 'ftp:')&& (substr($firstlinks[$i],0,5) ne 'news:')&& (substr($firstlinks[$i],0,5) ne 'nntp:')&& (substr($firstlinks[$i],0,5) ne 'wais:')&& (substr($firstlinks[$i],0,7) ne 'gopher:')&& (substr($firstlinks[$i],0,7) ne 'telnet:')) { if(substr($firstlinks[$i],0,1) ne '/') { $firstlinks[$i] = $docroot."$firstlinks[$i]"; } else { $firstlinks[$i] = $chop_docroot."$firstlinks[$i]"; } $pound = rindex($firstlinks[$i],'#'); if($pound>0) { $firstlinks[$i] = substr($firstlinks[$i],0,$pound); } } $i++; } } close(GETHTML); if(substr($ARGV[0],rindex($links[$i],'.')) eq '.html') { $ARGV[0] = substr($ARGV[0],0,(length($ARGV[0])-5)); } $visited[$counter] = substr($ARGV[0],length($main::docroot)); print "$ARGV[0]\n