Θέλω να διαβάσω ένα αρχείο .HTML το οποίο περιέχει συγκεκριμένα URL καθώς και επεξηγήσεις των URL στα ελληνικά. Χρησιμοποιώντας regex και συγκεκριμένα το re.findall κάνω extract τα URL. Το πρόβλημα προκύπτει όταν προσπαθώ να κάνω extract την περιγραφή του συνδέσμου που είναι στα ελληνικά. Χρησιμοποιώ πάλι την re.findall με ορίσματα στην αρχη και το τέλος της πρότασης αλλά σε κάθε περίπτωση επιστρέφει κενή λίστα.
Το κομμάτι του HTML κώδικα από τον οποίο θέλω να κάνω extract και τα URL αλλά και τις περιγραφές είναι της μορφής: <a href="
www.aaaaaaaa.com/aaa/aaaaa/aaaaa/tft/abc.doc" target="_blank" title="ααααααα">ΠΕΡΙΓΡΑΦΗ ΥΠΕΡΣΥΝΔΕΣΜΟΥ</a>
Τρέχω τον εξής κώδικα:
import re
filename=open("abcd.html",'r')
readfile = filename.read()
a=re.findall(r'(https?://\S+?\.doc)',readfile)
b=re.findall(r'(title="ααααααα?"> \S+ ?\</a\>)',readfile)
print (a)
print (b)
readfile=filename.close()
Το αποτέλεσμα του print (a) είναι μια λίστα με όλα URL
Το αποτέλεσμα του print (b) είναι μια κενή λίστα.
Μπορεί κάποιος να βοηθήσει?