Пару месяцев назад начал ковырять скрипт для определения языка текста. Вот тут описание его и небольшая логика работы. И вот сегодня довел до ума (ну или создал очередной полуфабрикат).
Записал видео с демонстрацией работы и небольшими пояснениями от меня.
Скрипт работает на основе эвристического анализа, это значит, что чем длиннее у вас текст, тем лучше скрипт определит, на каком языке он написан. Поэтому не стоит ждать от него корректного определения языка одного-двух слов.
Сам скрипт и файл эвристики приложу в комментариях первым сообщением.
Пробуйте, пользуйтесь:)