language-detection

Во-первых, у меня есть много текста. Скажем, у меня есть 10000 символов для каждой попытки. Скрипт основан на php, но я могу использовать все, что захочу. C++, java, никаких проблем. Google language api не может быть использован: их лимиты использования низки. Я уже 6 часов пытаюсь придумать что-нибудь заме...

Мне нужен пример кода, который поможет мне обнаружить веб-страницы на языке фарси с помощью Apache TIKA toolkit. LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier.getLanguage(); У меня есть скачать apache.tika jar файлы и добавить их в путь к классу. но ...

Существует ли способ (программа, библиотека) приблизительно знать, на каком языке написан документ? У меня есть куча текстовых документов (~500K) на смешанных языках для импорта в CMS с поддержкой i18n (Drupal).. Мне не нужны идеальные совпадения, только некоторые догадки....

Учитывая блок текста, который, как известно, является китайским и закодирован в UTF-8, есть ли способ определить, является ли он упрощенным или традиционным?...

можно написать функцию, которая при компиляции с компилятором C вернет 0, а при компиляции с компилятором C++ вернет 1 (тривиальное решение с помощью #ifdef __cplusplus - это не интересно). например: int isCPP() { return sizeof(char) == sizeof 'c'; } конечно, выше будет работать только если sizeof (...