Почему функция PHP JSON encode преобразует строки UTF-8 в шестнадцатеричные сущности?


у меня есть php скрипт, который имеет дело с широким спектром языков. К сожалению, всякий раз, когда я пытаюсь использовать json_encode, любой вывод Юникода преобразуется в шестнадцатеричные сущности. Это ожидаемое поведение? Есть ли способ преобразовать выходные данные в символы UTF-8?

вот пример того, что я вижу:

вход

echo $text;

выход

База данни грешка.

вход

json_encode($text);

выход

"u0411u0430u0437u0430 u0434u0430u043du043du0438 u0433u0440u0435u0448u043au0430."
6 96

6 ответов:

начиная с PHP / 5.4.0, есть опция под названием "JSON_UNESCAPED_UNICODE". Проверьте это:

http://se2.php.net/json_encode

поэтому вы должны попробовать:

json_encode( $text, JSON_UNESCAPED_UNICODE );

JSON_UNESCAPED_UNICODE доступен на PHP версии 5.4 или более поздней.
Следующий код предназначен для версии 5.3.

обновлено

  • html_entity_decode немного эффективнее, чем pack + mb_convert_encoding.
  • (*SKIP)(*FAIL) пропускает обратную косую черту и указанные символы с помощью JSON_HEX_* флаги.

function raw_json_encode($input, $flags = 0) {
    $fails = implode('|', array_filter(array(
        '\\',
        $flags & JSON_HEX_TAG ? 'u003[CE]' : '',
        $flags & JSON_HEX_AMP ? 'u0026' : '',
        $flags & JSON_HEX_APOS ? 'u0027' : '',
        $flags & JSON_HEX_QUOT ? 'u0022' : '',
    )));
    $pattern = "/\\(?:(?:$fails)(*SKIP)(*FAIL)|u([0-9a-fA-F]{4}))/";
    $callback = function ($m) {
        return html_entity_decode("&#x$m[1];", ENT_QUOTES, 'UTF-8');
    };
    return preg_replace_callback($pattern, $callback, json_encode($input, $flags));
}

одно из решений состоит в том, чтобы сначала закодировать данные, а затем декодировать их в том же файле:

$string =json_encode($input, JSON_UNESCAPED_UNICODE) ; 
echo $decoded = html_entity_decode( $string );

вам нравится, чтобы установить кодировку Юникод и неэкранированные

 header('Content-Type: application/json;charset=utf-8');  
 json_encode($data,JSON_UNESCAPED_UNICODE|JSON_PRETTY_PRINT);

раз уж ты спросил:

есть ли способ преобразовать выходные данные в символы UTF-8?

другое решение-использовать utf8_encode.

это будет кодировать строку UTF-8.

например

foreach ($rows as $key => $row) {
  $rows[$key]["keyword"] = utf8_encode($row["keyword"]);
}

echo json_encode($rows);

это ожидаемое поведение?

the json_encode() работает только с кодированными данными UTF-8.

может быть, вы можете получить ответ, чтобы преобразовать его здесь: кирилица-персонажей-в-системе-в JSON-кодирования