Trigram

Trigram là một trường hợp đặc biệt của N-gram, với n là 3. Trigram thường được sử dụng trong xử lý ngôn ngữ tự nhiên để thực hiện phân tích thống kê văn bản và trong mật mã học để kiểm soát và sử dụng cho các cipher và mã hiệu. Trigram thường được dùng để dò lọc nội dung spam, dò lỗi chính tả trong văn bản.[1][2] Người ta thường phân tích Trigram ở cấp độ từ, cấp độ ký tự, và cấp độ token.

Ví dụ

Với câu "the quick red fox jumps over the lazy brown dog" thì có các trigram ở cấp độ từ như sau:

the quick red
quick red fox
red fox jumps
fox jumps over
jumps over the
over the lazy
the lazy brown
lazy brown dog

Với một trigram ở cấp độ từ "the quick red" có các trigram ở cấp độ ký tự như sau (dấu "_" thay thế cho khoảng trắng):

the
he_
e_q
_qu
qui
uic
ick
ck_
k_r
_re
red

Tham khảo

  1. ^ Ma, X., Shen, Y., Chen, J., & Xue, G. (2011). Combining naive bayes and tri-gram language model for spam filtering. In Knowledge engineering and management (pp. 509-520). Springer, Berlin, Heidelberg.
  2. ^ Zamora, E. M., Pollock, J. J., & Zamora, A. (1981). The use of trigram analysis for spelling error detection. Information Processing & Management, 17(6), 305-316.

Liên kết ngoài

  • Sử dụng trigram bằng thư viện NLTK[liên kết hỏng]
  • x
  • t
  • s
Thuật ngữ chung
Khai thác văn bản
Tóm tắt tự động
Dịch tự động
Nhận dạng tự động
và thu thập dữ liệu
Mô hình chủ đề
Xem xét với
sự trợ giúp máy tính
Giao diện người dùng
ngôn ngữ tự nhiên
Hình tượng sơ khai Bài viết liên quan đến mật mã học này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.
  • x
  • t
  • s