Книга: Аналитическая культура
Проблемы относительной частотности
Проблемы относительной частотности
Второй тип — это проблемы относительной частотности. Именно на них сосредоточились Халеви и др. Норвиг приводит несколько примеров. При сегментировании задача заключается в разделении исходного текста, например такого как «cheapdealsandstuff.com», на наиболее вероятные последовательности слов. Эти исходные варианты достаточно короткие, чтобы с ними можно было работать непосредственно с позиции возможного их разделения, но для каждого получившегося отдельного слова нужно оценить вероятность его существования. Самое простое предположение — о независимости среди слов. Таким образом, если Pr (w) — это вероятность слова w, то, имея некоторый набор данных, можно вычислить, например:
Pr(che,apdeals,andstuff) = Pr(che). Pr(apdeals). Pr(andstuff).
…
Pr(cheap,deals,and,stuff) = Pr(cheap). Pr(deals). Pr(and).
Pr(stuff).
Конечно, также можно использовать n-граммы (например, биграммы): Pr("cheap deals") ? Pr("and stuff").
Второй пример, который привел Норвиг, касался проверки орфографии. В этом случае можно взять слово, содержащее ошибку, и вычислить вероятность возможных вариантов, чтобы предложить наиболее вероятную форму.
В обоих случаях требуется набор данных, содержащий как характерные, так и нехарактерные слова и фразы. Кроме того, необходим показатель встречаемости этих фраз для вычисления относительной частотности. Чем больше и понятнее будет набор данных, тем лучше. Думаю, здесь наблюдаются два статистических явления.
• Чем больше корпус данных, тем выше качество оценки относительной частотности. Это закон больших чисел[280].
• Чем больше корпус данных, тем выше вероятность попадания в него нехарактерных фраз («длинного хвоста»). Это неограниченный эффект. Чем больше индексируется интернет, тем больше новых фраз будет появляться. Проблема осложняется тем, что распределение слов в английском языке — это степенной закон. (См. Zipf, G. The Psycho-Biology of Language. Houghton Mifflin, Boston, MA, 1935.) Это означает наличие особенно длинного хвоста. Следовательно, особенно крупные выборки должны содержать эти редкие фразы.
- Проблемы потребителя
- 3.5 Проблемы доступа при использовании нескольких протоколов
- 5.2 Проблемы при резервном копировании
- 10.6.1. Обнажение проблемы
- Введение Вторая грамотность и проблемы ее освоения
- Глава 8 Проблемы с «железом» и разгон процессора
- У меня проблемы со здоровьем. Может ли мне помочь Интернет?
- «Если бы у вас была волшебная палочка, что бы вы сделали для решения проблемы?»
- 7.5.3. Проблемы авторизации
- Проблемы
- Проблемы в команде и применение к ним принципов осознанной практики
- Осознание проблемы