text-segmentation
Я хочу извлечь первое слово переменной из строки. Например, возьмем такой ввод: <?php $myvalue = 'Test me more'; ?> Результирующий вывод должен быть Test, который является первым словом входного сигнала. Как я могу это сделать?...
Я использую NGramTokenizer (), чтобы сделать сегментацию 1~3 грамм, но, кажется, не учитывает пунктуацию и удаляет пунктуацию. Таким образом, слова сегментации не идеальны для меня. (как результат: оксидант амино, оксидант аминокислота, оксидант гранулы и так далее.) Существует ли какой-либо способ сег...
Я пытаюсь написать функцию для очистки пользовательского ввода. Я не пытаюсь сделать его совершенным. Я предпочел бы иметь несколько имен и аббревиатур в нижнем регистре, чем полный абзац в верхнем. Я думаю, что функция должна использовать регулярные выражения, но я довольно плохо с ними справляюсь, и мне н...
Я хочу, чтобы моя функция Python разделила предложение (ввод) и сохранила каждое слово в списке. Мой текущий код разбивает предложение, но не сохраняет слова в список. Как мне это сделать? def split_line(text): # split the text words = text.split() # for each word in the line: for word in w...