Γεια χαρά, Επισκέπτης

ΘΕΜΑ: Ανάγνωση Αρχείου

Ανάγνωση Αρχείου 7 Χρόνια 1 Μήνας πριν #5051

Ovidius
Αποσυνδεμένος
p_____
Δημοσιεύσεις: 1

Θέλω να διαβάσω ένα αρχείο .HTML το οποίο περιέχει συγκεκριμένα URL καθώς και επεξηγήσεις των URL στα ελληνικά. Χρησιμοποιώντας regex και συγκεκριμένα το re.findall κάνω extract τα URL. Το πρόβλημα προκύπτει όταν προσπαθώ να κάνω extract την περιγραφή του συνδέσμου που είναι στα ελληνικά. Χρησιμοποιώ πάλι την re.findall με ορίσματα στην αρχη και το τέλος της πρότασης αλλά σε κάθε περίπτωση επιστρέφει κενή λίστα.

Το κομμάτι του HTML κώδικα από τον οποίο θέλω να κάνω extract και τα URL αλλά και τις περιγραφές είναι της μορφής: <a href="www.aaaaaaaa.com/aaa/aaaaa/aaaaa/tft/abc.doc" target="_blank" title="ααααααα">ΠΕΡΙΓΡΑΦΗ ΥΠΕΡΣΥΝΔΕΣΜΟΥ</a>

Τρέχω τον εξής κώδικα:
import re
filename=open("abcd.html",'r')
readfile = filename.read()
a=re.findall(r'(https?://\S+?\.doc)',readfile)
b=re.findall(r'(title="ααααααα?"> \S+ ?\</a\>)',readfile)
print (a)
print (b)
readfile=filename.close()

Το αποτέλεσμα του print (a) είναι μια λίστα με όλα URL
Το αποτέλεσμα του print (b) είναι μια κενή λίστα.

Μπορεί κάποιος να βοηθήσει?

Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Ανάγνωση Αρχείου 7 Χρόνια 1 Μήνας πριν #5053

Theo Αποσυνδεμένος pytho_ Δημοσιεύσεις: 249 Ληφθείσες Ευχαριστίες 70	>>> a='<a href="www.aaaaaaaa.com/aaa/aaaaa/aaaaa/tft/abc.doc" target="_blank" title="ααααααα">ΠΕΡΙΓΡΑΦΗ ΥΠΕΡΣΥΝΔΕΣΜΟΥ</a>' >>> b=re.findall(r'href="(\S+)"', a) >>> b ['www.aaaaaaaa.com/aaa/aaaaa/aaaaa/tft/abc.doc'] >>> c=re.findall(r'\>([\w\s]+)\<',a) >>> c ['ΠΕΡΙΓΡΑΦΗ ΥΠΕΡΣΥΝΔΕΣΜΟΥ'] >>> Κάντο καλύτερα με beautiful soup
	Τελευταία διόρθωση: 7 Χρόνια 1 Μήνας πριν από Theo. Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση. Οι ακόλουθοι χρήστες είπαν "Σε Ευχαριστώ": Ovidius

Συντονιστές: pmav99

Χρόνος δημιουργίας σελίδας: 0.310 δευτερόλεπτα

Μενού Συζήτησης

Λίστα Ταχυδρομείου

© 2009-2025 Ελληνική Κοινότητα Προγραμματιστών Python - Η παρούσα δουλειά από το http://python.org.gr αδειοδοτήται κάτω από την Creative Commons Attribution 3.0 Greece License
Η διαχείριση του περιεχομένου του site γίνεται με το Joomla από τους Κωνσταντίνο Αραβανή και Δημήτρη Λεβεντέα. Σχεδιάστηκε από Shape5.com

ΘΕΜΑ: Ανάγνωση Αρχείου

Ανάγνωση Αρχείου 7 Χρόνια 1 Μήνας πριν #5051

Ανάγνωση Αρχείου 7 Χρόνια 1 Μήνας πριν #5053

Μοιράσου το!

Μενού Συζήτησης

Λίστα Ταχυδρομείου