Συζήτηση
Γεια χαρά, Επισκέπτης
Όνομα χρήστη: Κωδικός: Να με θυμάσαι
  • Σελίδα:
  • 1
  • 2
  • 3

ΘΕΜΑ: Πρόβλημα decoding με urllib

Απ: Πρόβλημα decoding με urllib 12 Χρόνια 10 Μήνες πριν #1478

  • pmav99
  • Το Άβαταρ του/της pmav99
  • Αποσυνδεμένος
  • Author
  • Δημοσιεύσεις: 684
  • Ληφθείσες Ευχαριστίες 111
Αν θες περιέγραψε λίγο πιο αναλυτικά το πρόβλημα. Τι ακριβώς θέλεις να κάνεις. Αν αυτό που θες να κάνεις είναι να συγκρίνεις 2 strings μεταξύ τους, μετέτρεψε τα και τα 2 σε unicode και η σύγκριση θα γίνει χωρίς πρόβλημα.

Ακόμη μήπως σε βοηθάει το εξής για να συνεχίσεις.

Αν χρησιμοποιήσεις Unicode, κάθε αλληλουχία χαρακτήρων θα αντιστοιχεί σε ένα και μόνο σύμβολο. Πχ το \u03b1 αντιστοιχεί στο α μικρό χωρίς τόνο, το \u03b2 αντιστοιχεί στο β. Μπορείς να δεις τις αντιστοιχίες εδώ. Για να τα κάνεις unicode

>>> from __future__ import unicode_literals
>>> a = "ασδφ"
>>> a
u'\u03b1\u03c3\u03b4\u03c6'
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Απ: Πρόβλημα decoding με urllib 12 Χρόνια 10 Μήνες πριν #1479

  • kostis
  • Το Άβαταρ του/της kostis
  • Αποσυνδεμένος
  • py____
  • Δημοσιεύσεις: 25
Ρωτάω γιατί θέλω να μετατρέψω τη παρακάτω λίστα

list_with_program =

σε

list_with_program =

Είχα αναφέρει και σε κάποιο προηγούμενο post το ίδιο, αλλά δεν έχω βρεί ακόμα άκρη..
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Απ: Πρόβλημα decoding με urllib 12 Χρόνια 10 Μήνες πριν #1480

  • pmav99
  • Το Άβαταρ του/της pmav99
  • Αποσυνδεμένος
  • Author
  • Δημοσιεύσεις: 684
  • Ληφθείσες Ευχαριστίες 111
αυτό που εννοώ είναι, τη λίστα αυτή τη θα την κάνεις? Πως θα την χρησιμοποιήσεις? Η πληροφορία που περιέχει δεν χάνεται απλά είναι κωδικοποιημένη.
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Απ: Πρόβλημα decoding με urllib 12 Χρόνια 10 Μήνες πριν #1481

  • kostis
  • Το Άβαταρ του/της kostis
  • Αποσυνδεμένος
  • py____
  • Δημοσιεύσεις: 25
Θέλω απλά να έχω την ευελιξία να προσθέσω κάποιο str αν χρειαστεί, και γενικώς να μπορώ να τροποποιώ τα περιεχόμενα χωρίς να χρειάζεται να κωδικοποιήσω τα υπόλοιπα δεδομένα.
Ακόμα, επειδή όπως έχω αναφέρει και σε κάποιο προηγούμενο post, ασχολούμαι με επεξεργασία φυσικής γλώσσας, μου είναι πολύ πιο εύκολο να χειρίζομαι λέξεις παρά αυτή το μορφή κωδικοποίησης.
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Απ: Πρόβλημα decoding με urllib 12 Χρόνια 10 Μήνες πριν #1482

  • pmav99
  • Το Άβαταρ του/της pmav99
  • Αποσυνδεμένος
  • Author
  • Δημοσιεύσεις: 684
  • Ληφθείσες Ευχαριστίες 111
Φοβάμαι ότι δε θα μπορέσεις να βρεις εύκολη λύση σε Python 2. Εφόσον μιλάς για μη ASCI χαρακτήρες, κάποιας μορφής κωδικοποίηση δεν τη γλυτώνεις. Ίσως αν γράψεις κάποιες συναρτήσεις να μην έιναι τόσο δύσκολο να μετατρέπεις από και προς unicode.

Μιας και ασχολείσαι, πιθανότατα θα το έχεις ήδη τσεκάρει, αλλά στο κεφάλαιο 3.3 έχει πληροφορίες για unicode + python.
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Απ: Πρόβλημα decoding με urllib 12 Χρόνια 10 Μήνες πριν #1483

  • pmav99
  • Το Άβαταρ του/της pmav99
  • Αποσυνδεμένος
  • Author
  • Δημοσιεύσεις: 684
  • Ληφθείσες Ευχαριστίες 111
δες και εδώ μήπως βρεις κάτι groups.google.com/group/nltk-users/searc..._g=Search+this+group
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Απ: Πρόβλημα decoding με urllib 12 Χρόνια 10 Μήνες πριν #1484

  • kamar
  • Το Άβαταρ του/της kamar
  • Αποσυνδεμένος
  • python
  • Δημοσιεύσεις: 409
  • Ληφθείσες Ευχαριστίες 88
pmav99 έγραψε:
Φοβάμαι ότι δε θα μπορέσεις να βρεις εύκολη λύση σε Python 2. Εφόσον μιλάς για μη ASCI χαρακτήρες, κάποιας μορφής κωδικοποίηση δεν τη γλυτώνεις. Ίσως αν γράψεις κάποιες συναρτήσεις να μην έιναι τόσο δύσκολο να μετατρέπεις από και προς unicode.

Μιας και ασχολείσαι, πιθανότατα θα το έχεις ήδη τσεκάρει, αλλά στο κεφάλαιο 3.3 έχει πληροφορίες για unicode + python.

Απ' ότι βλέπω όλα τα links δίνουν κάποιες λύσεις, οι οποίες όμως δεν είναι αυτό που θέλει ο kostis. Το πρόβλημα έχει να κάνει με τον τρόπο που αποθηκεύει και κωδικοποιεί εσωτερικά τους χαρακτήρες η Python 2.
Γράφω σε Python 3
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Απ: Πρόβλημα decoding με urllib 12 Χρόνια 10 Μήνες πριν #1485

  • kostis
  • Το Άβαταρ του/της kostis
  • Αποσυνδεμένος
  • py____
  • Δημοσιεύσεις: 25
Νομίζω ότι τελικά θα χρειαστεί να δουλέψω με unicode.
Έχεις δίκιο kamar, η python 2 κωδικοποιεί τους χαρακτήρες με τρόπο που δε καταλαβαίνω.

pmav99 το nltk το είχα ήδη τσεκάρει, αλλά thanks για το groups.google

Κάτι το οποίο θα βοηθούσε είναι να απεικονίζω τα αποτελέσματα σε μια html σελίδα, και όχι στο IDLE.

Συνημμένο αρχείο:

Όνομα Αρχείου: test.rar
Μέγεθος αρχείου:0 KB
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Απ: Πρόβλημα decoding με urllib 12 Χρόνια 10 Μήνες πριν #1488

  • tzot
  • Το Άβαταρ του/της tzot
  • Αποσυνδεμένος
  • p_____
  • Δημοσιεύσεις: 2
Δεν μπορείς να το πεις αυτό. Εξ ορισμού στο interactive shell όταν δίνεις μια έκφραση, ως αποτέλεσμα εμφανίζεται το repr(έκφραση), και συμβατικά το repr(έκφραση) είναι όσο το δυνατόν πιο συμβατό με το πώς θα γραφόταν unambiguously σε κώδικα. Το '\xe1\xf3\xe4\xf6' είναι repr, ενώ το print(έκφραση) παίρνει το str(έκφραση) ή το unicode(έκφραση).
Ρίξε μια ματιά και εκεί: stackoverflow.com/questions/368805/pytho...encode/370199#370199 , μήπως σε βοηθήσει. Είναι κάτι που είχα γράψει πριν αρκετό καιρό νυσταγμένος, αλλά μου έχουν πει πως έχει βοηθήσει πολύ κόσμο.
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Απ: Πρόβλημα decoding με urllib 12 Χρόνια 9 Μήνες πριν #1522

  • pmav99
  • Το Άβαταρ του/της pmav99
  • Αποσυνδεμένος
  • Author
  • Δημοσιεύσεις: 684
  • Ληφθείσες Ευχαριστίες 111
Πάει αρκετός καιρός, αλλά παίζει να υπαρχει λύση αρκεί η python να είναι >=2.6
from __future__ import unicode_literals
 
list_with_program = ['12:00', 'ΕΙΔΗΣΕΙΣ - ΑΘΛΗΤΙΚΑ - ΚΑΙΡΟΣ','15:00', 'ΕΙΔΗΣΕΙΣ']
for item in list_with_program:
    print type(item), item
Τελευταία διόρθωση: 12 Χρόνια 9 Μήνες πριν από pmav99.
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Απ: Πρόβλημα decoding με urllib 12 Χρόνια 9 Μήνες πριν #1523

  • kamar
  • Το Άβαταρ του/της kamar
  • Αποσυνδεμένος
  • python
  • Δημοσιεύσεις: 409
  • Ληφθείσες Ευχαριστίες 88
Τα αποτελέσματα:
Python 2.7.1+ (r271:86832, Apr 11 2011, 18:13:53) 
[GCC 4.5.2] on linux2
Type "copyright", "credits" or "license()" for more information.
==== No Subprocess ====
>>> from __future__ import unicode_literals
>>> list_with_program = ['12:00', 'ΕΙΔΗΣΕΙΣ - ΑΘΛΗΤΙΚΑ - ΚΑΙΡΟΣ','15:00', 'ΕΙΔΗΣΕΙΣ']
>>> for item in list_with_program:
	print type(item), item
 
 
<type 'unicode'> 12:00
<type 'unicode'> ΕΙΔΗΣΕΙΣ - ΑΘΛΗΤΙΚΑ - ΚΑΙΡΟΣ
<type 'unicode'> 15:00
<type 'unicode'> ΕΙΔΗΣΕΙΣ

και
Python 3.1.3 (r313:86834, Mar 25 2011, 20:54:26) 
[GCC 4.5.2] on linux2
Type "copyright", "credits" or "license()" for more information.
>>> list_with_program = ['12:00', 'ΕΙΔΗΣΕΙΣ - ΑΘΛΗΤΙΚΑ - ΚΑΙΡΟΣ','15:00', 'ΕΙΔΗΣΕΙΣ']
>>> for item in list_with_program:
	print type(item), item
 
SyntaxError: invalid syntax
>>> for item in list_with_program:
	print (type(item), item)
 
 
<class 'str'> 12:00
<class 'str'> ΕΙΔΗΣΕΙΣ - ΑΘΛΗΤΙΚΑ - ΚΑΙΡΟΣ
<class 'str'> 15:00
<class 'str'> ΕΙΔΗΣΕΙΣ

και...
Python 2.7.1+ (r271:86832, Apr 11 2011, 18:13:53) 
[GCC 4.5.2] on linux2
Type "copyright", "credits" or "license()" for more information.
==== No Subprocess ====
>>> list_with_program = ['12:00', 'ΕΙΔΗΣΕΙΣ - ΑΘΛΗΤΙΚΑ - ΚΑΙΡΟΣ','15:00', 'ΕΙΔΗΣΕΙΣ']
>>> for item in list_with_program:
    print type(item), item
 
 
<type 'str'> 12:00
<type 'str'> ΕΙΔΗΣΕΙΣ - ΑΘΛΗΤΙΚΑ - ΚΑΙΡΟΣ
<type 'str'> 15:00
<type 'str'> ΕΙΔΗΣΕΙΣ

EDIT
Προσωπικά δεν καταλαβαίνω τη λογική (λειτουργία του unicode) στην python 2.x.
Γράφω σε Python 3
Τελευταία διόρθωση: 12 Χρόνια 9 Μήνες πριν από kamar.
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Απ: Πρόβλημα decoding με urllib 12 Χρόνια 9 Μήνες πριν #1524

  • pmav99
  • Το Άβαταρ του/της pmav99
  • Αποσυνδεμένος
  • Author
  • Δημοσιεύσεις: 684
  • Ληφθείσες Ευχαριστίες 111
Περίεργο που δε σου εμφανίζονται τα ελληνικά... Μήπως είναι θέμα γραμματοσειράς ή κονσόλας?

Python 2
Python 2.7.2 (default, Jun 29 2011, 11:17:09) 
[GCC 4.6.1] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> from __future__ import unicode_literals
>>> list_with_program = ['12:00', 'ΕΙΔΗΣΕΙΣ - ΑΘΛΗΤΙΚΑ - ΚΑΙΡΟΣ','15:00', 'ΕΙΔΗΣΕΙΣ']
>>> for item in list_with_program:
...     print type(item), item
... 
<type 'unicode'> 12:00
<type 'unicode'> ΕΙΔΗΣΕΙΣ - ΑΘΛΗΤΙΚΑ - ΚΑΙΡΟΣ
<type 'unicode'> 15:00
<type 'unicode'> ΕΙΔΗΣΕΙΣ
>>>
>>> if list_with_program[1] == "ΕΙΔΗΣΕΙΣ - ΑΘΛΗΤΙΚΑ - ΚΑΙΡΟΣ":
...     print "yeah!"
... else:
...     print "no..."
... 
yeah!
>>>
>>> item
u'\u0395\u0399\u0394\u0397\u03a3\u0395\u0399\u03a3'

Python 3
Python 3.2 (r32:88445, Apr 15 2011, 11:20:08) 
[GCC 4.5.2 20110127 (prerelease)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> list_with_program = ['12:00', 'ΕΙΔΗΣΕΙΣ - ΑΘΛΗΤΙΚΑ - ΚΑΙΡΟΣ','15:00', 'ΕΙΔΗΣΕΙΣ']
>>> for item in list_with_program:
...     print (type(item), item)
... 
<class 'str'> 12:00
<class 'str'> ΕΙΔΗΣΕΙΣ - ΑΘΛΗΤΙΚΑ - ΚΑΙΡΟΣ
<class 'str'> 15:00
<class 'str'> ΕΙΔΗΣΕΙΣ
>>>
>>> if list_with_program[1] == "ΕΙΔΗΣΕΙΣ - ΑΘΛΗΤΙΚΑ - ΚΑΙΡΟΣ":
...     print ("yeah!")
... else:
...     print("no....")
... 
yeah!
>>> item
'ΕΙΔΗΣΕΙΣ'

Από όσο μπορώ να καταλάβω, με το unicode literals δε χρειάζεται να κάνεις explicitly αλλαγές στα strings. Δουλευεις εξαρχής παντού με unicode.
Τελευταία διόρθωση: 12 Χρόνια 9 Μήνες πριν από pmav99.
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.

Απ: Πρόβλημα decoding με urllib 12 Χρόνια 9 Μήνες πριν #1527

  • kamar
  • Το Άβαταρ του/της kamar
  • Αποσυνδεμένος
  • python
  • Δημοσιεύσεις: 409
  • Ληφθείσες Ευχαριστίες 88
Έχεις δίκιο. Σε idle που είναι τα παραδείγματά μου, έχω το πρώτο αποτέλεσμα.
Σε καθαρή κονσόλα οι χαρακτήρες εμφανίζονται κανονικά! :whistle:
Γράφω σε Python 3
Πρέπει να είστε εγγεγραμμένο μέλος του Φόρουμ για να κάνετε μια δημοσίευση.
  • Σελίδα:
  • 1
  • 2
  • 3
Συντονιστές: pmav99
Χρόνος δημιουργίας σελίδας: 0.541 δευτερόλεπτα

Μοιράσου το!

Powered by CoalaWeb

Λίστα Ταχυδρομείου