Python: преобразование из ISO-8859-1/latin1 к UTF-8

Question

Python: преобразование из ISO-8859-1/latin1 к UTF-8

У меня есть эта строка, которая была декодирована из Quoted-printable в ISO-8859-1 с модулем электронной почты. Это дает мне строки типа "xC4pple", которые будут соответствовать" Äpple " (Apple на шведском языке). Однако, я не могу преобразовать эти строки в UTF-8.

>>> apple = "xC4pple"
>>> apple
'xc4pple'
>>> apple.encode("UTF-8")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc4 in position 0: ordinal not in     range(128)

Что делать?

5 69

python character-encoding

5 ответов:

это распространенная проблема, поэтому вот относительно тщательная иллюстрация.

для строк без Юникода (т. е. без u префикс как u'\xc4pple'), необходимо декодировать из собственной кодировки (iso8859-1/latin1, если изменено с загадочным sys.setdefaultencoding и своя логика кодирования, установлено sys.stdout.encoding и по умолчанию UTF-8

нужно расшифровать a str в unicode перед преобразованием в другую кодировку.

конечно, все это меняется в Python 3.x.

надеюсь, что это освещает.

далее чтение

символы и Байт, Тим Брэй.

и очень показательные разглагольствования Армина Ронахера:

обновленное руководство по Unicode на Python (2 июля 2013 г.)

подробнее о Unicode в Python 2 и 3 (5 января 2014 г.)

UCS vs UTF-8 в качестве внутренней Строковой кодировки (9 января 2014 г.)

все, что вы не хотел знать о Unicode в Python 3 (12 мая 2014)

130

декодировать в Юникод, кодировать результаты в UTF8.

яблоко.декодирования('латинских типа 1').encode ('utf8')

9

Для Python 3:
bytes(apple,'iso-8859-1').decode('utf-8')
я использовал это для текста, неправильно закодированного как iso-8859-1 (показаны такие слова, как VeÅ\x99ejnÃ©) вместо utf-8. Этот код создает правильную версию Veřejné.

8

понятие = понятие.encode ('ascii',' ignore') concept = MySQLdb.escape_string(концепция.декодирования('латинских типа 1').кодирование ('utf8').rstrip())

Я делаю это, я не уверен, если это хороший подход, но он работает каждый раз !!

0

Mat · Accepted Answer · 2011-06-30 22:16:11

попробуйте сначала декодировать его, а затем кодировать:
apple.decode('iso-8859-1').encode('utf8')