"Όμως νομίζω ότι κατάλαβα πως δεν κοιτάζω τι θελω να αφαιρεσω, αλλά τι θέλω να ΠΑΡΩ από τον κώδικα."
Αυτό είναι σχετικό. Ότι σε εξυπηρετεί, εγώ θα έκανα το πιό εύκολο
Παντώς σε τέτοιες περιπτώσεις με τυποποιημένα κείμενα υπάρχουν έτοιμες βιβλιοθήκες να κάνεις τη δουλεία σου νομίζω beautifoul soup ή html2text
Στο συγκεκριμένο πρόβλημα τώρα
ίσως μπορείς να κάνεις
>>> import html
>>> a='<description><strong>Θέμα:</strong> KEIMENO1 <br /><strong> ΚΕΙΜΕΝΟ2 </strong> ΚΕΙΜΕΝΟ3 /></description>'
>>> b=html.unescape(a)
>>> b
'<description><strong>Θέμα:</strong> KEIMENO1 <br /><strong> ΚΕΙΜΕΝΟ2 </strong> ΚΕΙΜΕΝΟ3 /></description>'
Τώρα που είναι λίγο πιο ξεκάθαρο και όλα είναι tags εκτός από κάτι ξεχασμένο
μετά το κείμενο3 μπορείς να κάνεις ένα pattern για tag
>>> pat=r"<[^>]*>"
>>> re.sub(pat,'',b)
'Θέμα: KEIMENO1 ΚΕΙΜΕΝΟ2 ΚΕΙΜΕΝΟ3 />'
Βλέπει όμως ότι σου άφησε υπόλοιμα το λάθος στην html αυτό δεν μπορείς να το πιάσεις εύκολα γιατί μπορεί να είναι οτιδήποτε