资 源 简 介
Parse html text into sentences and words
Грамматический разбор html текста на предложения и слова
Purpose
Анализ слов в тесте для реализации каких-либо алгоритмов (например, похожести текстов)
Использование индексатором для полнотекстового поиска, отображение фрагментов текста и подсветка найденных слов в результатах поиска
Features
Получение всех слов в тексте в порядке их следования
Получение всех предложений и слов в тексте в порядке их следования
Получение уникальных слов в тексте с весами их появления в тексте
Нормализация текста (описание см. ниже)
Распределение абсолютных позиций слов к абсолютным байтовым позициям в нормализованном тексте
Поддержка нескольких языков одновременно
Работает с любыми языками мира, используемая кодировка — UTF-8.
Terminology
Нормализованный