Μας ζηταει να το κανουμε με reqular expressions.1. Επιλέξτε μια δοκιμαστική ιστοσελίδα με αρκετούς συνδέσμους. Φορτώστε ολόκληρη την
ιστοσελίδα σε ένα string. Αν φορτώνετε την ιστοσελίδα από το web, μπορείτε να το κάνετε ως εξής:
Στη συνέχεια, χρησιμοποιήστε regular expression(s) πάνω στο string που περιέχει το κείμενο της
σελίδας, για να ανακτήσετε τα ζητούμενα μέρη. Στο τέλος, τυπώστε τα URL links και το αντίστοιχο
κείμενο του καθενός.Στην κλήση της μεθόδου compile προσθέστε ως δεύτερο όρισμα το re.DOTALL,
επιτρέποντας το ταίριασμα της τελείας (.) και με το newline (ιδιαίτερα βολικό, εφόσον έχετε όλη την
ιστοσελίδα σε ένα string, το οποίο περιέχει ενδιάμεσα newlines):
rexp = re.compile(restr,re.DOTALL)
Σχετικό είναι και το re.IGNORECASE, το οποίο επιτρέπει το ταίριασμα ανεξάρτητα κεφαλαίων-πεζών.
Αν θέλετε να το συνδυάσετε με το προηγούμενο flag, χρησιμοποιήστε το | (bit-wise OR).
Υπόδειξη 2: Ένας crawler χρειάζεται τα URLs σε απόλυτη μορφή (http://..) ενώ συχνά οι ιστοσελίδες
περιέχουν σχετικά links (με βάση τη διεύθυνση της τρέχουσας ιστοσελίδας). Για να αντιμετωπίσετε την
τελευταία περίπτωση χρησιμοποιήστε την urllib.parse.urljoin(), δείτε π.χ. το παράδειγμα που ακολουθεί:
Δες το λιγο και σε παρακαλω δωσε μου μια λυση σε ευχαριστω παρα πολυ για τον χρονο που διαθετεις