Συζήτηση
Γεια χαρά, Επισκέπτης
Όνομα χρήστη: Κωδικός: Να με θυμάσαι

ΘΕΜΑ: Ανάγνωση Αρχείου

Ανάγνωση Αρχείου 7 Μήνες 3 Ημέρες πριν #5051

  • Ovidius
  • Το Άβαταρ του/της Ovidius
  • Αποσυνδεμένος
  • p_____
  • Δημοσιεύσεις: 1
Θέλω να διαβάσω ένα αρχείο .HTML το οποίο περιέχει συγκεκριμένα URL καθώς και επεξηγήσεις των URL στα ελληνικά. Χρησιμοποιώντας regex και συγκεκριμένα το re.findall κάνω extract τα URL. Το πρόβλημα προκύπτει όταν προσπαθώ να κάνω extract την περιγραφή του συνδέσμου που είναι στα ελληνικά. Χρησιμοποιώ πάλι την re.findall με ορίσματα στην αρχη και το τέλος της πρότασης αλλά σε κάθε περίπτωση επιστρέφει κενή λίστα.

Το κομμάτι του HTML κώδικα από τον οποίο θέλω να κάνω extract και τα URL αλλά και τις περιγραφές είναι της μορφής: <a href="www.aaaaaaaa.com/aaa/aaaaa/aaaaa/tft/abc.doc" target="_blank" title="ααααααα">ΠΕΡΙΓΡΑΦΗ ΥΠΕΡΣΥΝΔΕΣΜΟΥ</a>

Τρέχω τον εξής κώδικα:
import re
filename=open("abcd.html",'r')
readfile = filename.read()
a=re.findall(r'(https?://\S+?\.doc)',readfile)
b=re.findall(r'(title="ααααααα?"> \S+ ?\</a\>)',readfile)
print (a)
print (b)
readfile=filename.close()

Το αποτέλεσμα του print (a) είναι μια λίστα με όλα URL
Το αποτέλεσμα του print (b) είναι μια κενή λίστα.

Μπορεί κάποιος να βοηθήσει?
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Ανάγνωση Αρχείου 7 Μήνες 3 Ημέρες πριν #5053

  • Theo
  • Το Άβαταρ του/της Theo
  • Αποσυνδεμένος
  • pytho_
  • Δημοσιεύσεις: 236
  • Ληφθείσες Ευχαριστίες 62
>>> a='<a href="www.aaaaaaaa.com/aaa/aaaaa/aaaaa/tft/abc.doc" target="_blank" title="ααααααα">ΠΕΡΙΓΡΑΦΗ ΥΠΕΡΣΥΝΔΕΣΜΟΥ</a>'
>>> b=re.findall(r'href="(\S+)"', a)
>>> b
['www.aaaaaaaa.com/aaa/aaaaa/aaaaa/tft/abc.doc']
>>> c=re.findall(r'\>([\w\s]+)\<',a)
>>> c
['ΠΕΡΙΓΡΑΦΗ ΥΠΕΡΣΥΝΔΕΣΜΟΥ']
>>>
Κάντο καλύτερα με beautiful soup
Τελευταία διόρθωση: 7 Μήνες 3 Ημέρες πριν από Theo.
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.
Οι ακόλουθοι χρήστες είπαν "Σε Ευχαριστώ": Ovidius
Συντονιστές: pmav99
Χρόνος δημιουργίας σελίδας: 0.691 δευτερόλεπτα

Μοιράσου το!

Powered by CoalaWeb

Λίστα Ταχυδρομείου