Ενδεικτικά δες αυτό:
>>> import re
>>> text = open('Έγγραφα/Python_Forum/wiki.txt').read()
>>> pat = r'<a\s*href=[\'"]?([^\'" >]+)'
>>> urls = re.findall(pat, text, re.DOTALL|re.IGNORECASE)
>>> for url in urls[:5]:
print(url)
#mw-head
#p-/wiki/Wikipedia
/wiki/Free_content
/wiki/Encyclope
Για λόγους ευκολίας έχω αποθηκεύσει την ιστοσελίδα τοπικά.
Αν δεις ολόκληρη τη λίστα θα καταλάβεις ότι πρέπει να αποκλείσεις, ότι δεν ταιριάζει και να επεξεργαστείς τα υπόλοιπα.
Γενικά οι regex είναι δύσκολη υπόθεση και θέλουν αρκετή μελέτη.