Γεια χαρά, Επισκέπτης

ΘΕΜΑ: εξαγωγή links από ιστοσελίδα

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3574

nora Αποσυνδεμένος pyt___ Δημοσιεύσεις: 37	καλησπέρα σας. ήθελα να σας ρωτήσω σχετικά με ιστοσελίδες. πώς μπορώ σε python3 να φορτώσω ιστοσελίδα να την διαβάζει να εμφανίζει το εσωτερικό της και να αναγνωρίζει τα λινκ που υπάρχουν στην ιστοσελιδα? Σας ευχαριστώ!
	Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3575

pmav99 Αποσυνδεμένος Author Δημοσιεύσεις: 684 Ληφθείσες Ευχαριστίες 111	Υπάρχουν διάφοροι τρόποι. Πχ urllib, requests + BeautfilSoup, scrapy. Googl-αρε «python + web-scraping» και θα βρεις διάφορα.
	LaTeX στα Ελληνικά Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση. Οι ακόλουθοι χρήστες είπαν "Σε Ευχαριστώ": nora

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3576

Αποστόλης
Αποσυνδεμένος
pytho_
Δημοσιεύσεις: 148
Ληφθείσες Ευχαριστίες 24

nora έγραψε:

καλησπέρα σας. ήθελα να σας ρωτήσω σχετικά με ιστοσελίδες. πώς μπορώ σε python3 να φορτώσω ιστοσελίδα να την διαβάζει να εμφανίζει το εσωτερικό της και να αναγνωρίζει τα λινκ που υπάρχουν στην ιστοσελιδα? Σας ευχαριστώ!

Διάβασε πρώτα αυτό: getpython3.com/diveintopython3/http-web-services.html για να καταλάβεις περί τίνος πρόκειται.
Χονδρικά.

Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3578

nora
Αποσυνδεμένος
pyt___
Δημοσιεύσεις: 37

μπορεί κάποιος ννα με βοηθήσει κάνοντάς το να τρέχει?

import re
import urllib.request
page = urllib.request.urlopen('https://en.wikipedia.org/wiki/Main_Page')
text = page.read().decode('utf-8')
page.close()
restr=r'(([http://])\S+(\.([a-zA-Z]|[\?-&%=]+))'
rexp = re.compile(restr,re.DOTALL|re.IGNORECASE)
import urllib.parse
a = 'https://en.wikipedia.org/wiki'
b = '/Science_fiction_film'
urllib.parse.urljoin(a,b)
c = '/Deadline_(magazine)'
urllib.parse.urljoin(a,c) 
d = '/Supersoldier'
urllib.parse.urljoin(a,d)

Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3579

nora Αποσυνδεμένος pyt___ Δημοσιεύσεις: 37	πρέπει να διαβάζει μια ιστοσελίδα να αναγνωρίζει τα λινκ τησ να τα εμφανίζει και στη συνέχεια να μεταβαίνει στα λινκ αυτά και να εμφανίζει το περιεχόμενο τους
	Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3580

nora Αποσυνδεμένος pyt___ Δημοσιεύσεις: 37	ΕΠΙΓΕΙ ΠΑΙΔΙΑ ΟΠΟΤΕ ΟΠΟΙΟΣ ΜΠΟΡΕΙ ΑΣ ΒΟΗΘΗΣΕΙ
	Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3581

pmav99
Αποσυνδεμένος
Author
Δημοσιεύσεις: 684
Ληφθείσες Ευχαριστίες 111

4 το πρωί, είναι λίγο δύσκολο να βρεις κάποιον να σε βοηθήσει...

Εν πάση περιπτώσει, έχεις λάθος στην έκφραση που γράφεις. Πρέπει να κάνεις escape το "-" και να κλείσεις μια παρένθεση

restr=r'(([http://])\S+(\.([a-zA-Z]|[\?-&%=]+))'
restr=r'(([http://])\S+(\.([a-zA-Z]|[\?\-&%=]+)))'

Αυτό δεν σημαίνει ότι η έκφραση θα είναι σωστή, αλλά τουλάχιστον θα κάνει compile

Γενικά για regex, βοηθάει πολύ να χρησιμοποιείς κάποιο online tool όπως τα ακόλουθα:
regex101.com/
www.debuggex.com/

Google is also your friend...
encrypted.google.com/search?hl=en&q=regex%20to%20parse%20URI

LaTeX στα Ελληνικά

Τελευταία διόρθωση: 8 Χρόνια 2 Εβδομάδες πριν από pmav99.

Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Οι ακόλουθοι χρήστες είπαν "Σε Ευχαριστώ": nora

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3582

nora Αποσυνδεμένος pyt___ Δημοσιεύσεις: 37	σωστή η διόρθωση και ευχαριστώ όμως δεν μπορώ να κάνω αυτό που θέλω και έχω δει πολλές πληροφορίες στο ίντερνετ και άκρη δεν έχω βγάλει..
	Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3583

pmav99 Αποσυνδεμένος Author Δημοσιεύσεις: 684 Ληφθείσες Ευχαριστίες 111	Είσαι υποχρεωμένη να το κάνεις με regex; www.lmgtfy.com/?q=python%20extract%20links%20from%20html
	LaTeX στα Ελληνικά Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση. Οι ακόλουθοι χρήστες είπαν "Σε Ευχαριστώ": nora

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3584

nora
Αποσυνδεμένος
pyt___
Δημοσιεύσεις: 37

είμαι υποχρεωμένη να το κάνω με την μορφή που σας έστειλα. αυτά που μου στέλνετε τα λινκ δεν έχουν σχέση με αυτά που θέλω να κάνω.. και η html τι σχέση εχει? εγώ σε python3 θέλω να κάνω κάτι απλό θεωρώ για όσους γνωρίζουν και ασχολούνται με python

Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3585

nora Αποσυνδεμένος pyt___ Δημοσιεύσεις: 37	σε ευχαριστώ πολύ για το χρόνο σου και τις υποδείξεις σου..
	Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3586

nora Αποσυνδεμένος pyt___ Δημοσιεύσεις: 37	κάποιος που να μπορεί να μου πει ακριβώς πως να το κανω? επίγει! σασ ευχαριστω πολυ
	Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

εξαγωγή links από ιστοσελίδα 8 Χρόνια 1 Εβδομάδα πριν #3591

kamar
Αποσυνδεμένος
python
Δημοσιεύσεις: 409
Ληφθείσες Ευχαριστίες 88

Ενδεικτικά δες αυτό:

>>> import re
>>> text = open('Έγγραφα/Python_Forum/wiki.txt').read()
>>> pat = r'<a\s*href=[\'"]?([^\'" >]+)'
>>> urls = re.findall(pat, text, re.DOTALL|re.IGNORECASE)
>>> for url in urls[:5]:
	print(url)
 
 
#mw-head
#p-/wiki/Wikipedia
/wiki/Free_content
/wiki/Encyclope

Για λόγους ευκολίας έχω αποθηκεύσει την ιστοσελίδα τοπικά.

Αν δεις ολόκληρη τη λίστα θα καταλάβεις ότι πρέπει να αποκλείσεις, ότι δεν ταιριάζει και να επεξεργαστείς τα υπόλοιπα.

Γενικά οι regex είναι δύσκολη υπόθεση και θέλουν αρκετή μελέτη.

Γράφω σε Python 3

Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Οι ακόλουθοι χρήστες είπαν "Σε Ευχαριστώ": nora

εξαγωγή links από ιστοσελίδα 8 Χρόνια 1 Εβδομάδα πριν #3593

nora Αποσυνδεμένος pyt___ Δημοσιεύσεις: 37	οταν το τρεχω βγαζει invalid error.. γιατί το κάνει αυτό?
	Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

εξαγωγή links από ιστοσελίδα 8 Χρόνια 1 Εβδομάδα πριν #3594

kamar Αποσυνδεμένος python Δημοσιεύσεις: 409 Ληφθείσες Ευχαριστίες 88	nora έγραψε: οταν το τρεχω βγαζει invalid error.. γιατί το κάνει αυτό? Πρέπει να κάνεις copy - paste το μήνυμα του σφάλματος, όπως και μια περιγραφή πως έτρεξες τον κώδικα.
	Γράφω σε Python 3 Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Συντονιστές: pmav99

Συζήτηση

Προγραμματισμός

Αναζήτηση Βοήθειας

εξαγωγή links από ιστοσελίδα

Χρόνος δημιουργίας σελίδας: 0.301 δευτερόλεπτα

Μενού Συζήτησης

Λίστα Ταχυδρομείου

© 2009-2024 Ελληνική Κοινότητα Προγραμματιστών Python - Η παρούσα δουλειά από το http://python.org.gr αδειοδοτήται κάτω από την Creative Commons Attribution 3.0 Greece License
Η διαχείριση του περιεχομένου του site γίνεται με το Joomla από τους Κωνσταντίνο Αραβανή και Δημήτρη Λεβεντέα. Σχεδιάστηκε από Shape5.com

ΘΕΜΑ: εξαγωγή links από ιστοσελίδα

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3574

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3575

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3576

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3578

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3579

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3580

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3581

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3582

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3583

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3584

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3585

εξαγωγή links από ιστοσελίδα 8 Χρόνια 2 Εβδομάδες πριν #3586

εξαγωγή links από ιστοσελίδα 8 Χρόνια 1 Εβδομάδα πριν #3591

εξαγωγή links από ιστοσελίδα 8 Χρόνια 1 Εβδομάδα πριν #3593

εξαγωγή links από ιστοσελίδα 8 Χρόνια 1 Εβδομάδα πριν #3594

Μοιράσου το!

Μενού Συζήτησης

Λίστα Ταχυδρομείου