Phân tích văn bản tần suất: các tính năng và ví dụ

2026 Tác giả: Angel Austin | austin@vogueindustry.com. Sửa đổi lần cuối: 2025-01-23 12:37:25

Bạn đã gặp khái niệm này hơn một lần trong đời nếu bạn phải làm việc với các văn bản. Đặc biệt, bạn có thể sử dụng máy tính trực tuyến thực hiện phân tích tần suất chính xác của văn bản. Các công cụ tiện dụng này cho biết số lần một ký tự hoặc chữ cái cụ thể xuất hiện trong bất kỳ đoạn văn bản nào. Thường thì một tỷ lệ phần trăm cũng được hiển thị. Tại sao điều này là cần thiết? Làm thế nào để phân tích tần số của văn bản góp phần vào việc "bẻ khóa" các mật mã đơn giản? Bản chất của nó là gì, ai đã phát minh ra nó? Chúng tôi sẽ trả lời những câu hỏi này và những câu hỏi quan trọng khác về chủ đề này trong quá trình của bài viết.

Định nghĩa

Phân tích tần số là một trong những kiểu phân tích mật mã. Nó dựa trên giả định của các nhà khoa học về sự tồn tại của một phân bố thống kê không tầm thường của các ký tự riêng lẻ và trình tự đều đặn của chúng trong cả văn bản đơn giản và mật mã.

Người ta tin rằng việc phân phối như vậy, cho đến việc thay thế các ký tự riêng lẻ, cũng sẽ được giữ nguyên trong quá trình mã hóa / giải mã.

Đặc tính quy trình

Bây giờ chúng ta hãy xem xét phân tích tần suất theo các thuật ngữ đơn giản. Điều này ngụ ý rằng số lần xuất hiện của cùng một ký tự chữ cái trong các văn bản có độ dài đủ là như nhau trong các văn bản khác nhau được viết bằng cùng một ngôn ngữ.

Và bây giờ những gì về mã hóa đơn pha? Giả sử rằng nếu có một ký tự có xác suất xuất hiện tương tự như vậy trong phần có bản mã, thì việc giả định rằng đó là ký tự được mật đó là thực tế.

Những người theo dõi phân tích văn bản tần suất áp dụng lý luận tương tự cho digram (chuỗi hai chữ cái). Trigrams - đây là trường hợp của các mật mã đa pha.

Lịch sử của phương pháp

Phân tích tần suất của các từ không phải là một phát hiện của hiện đại. Nó đã được giới khoa học biết đến từ thế kỷ thứ 9. Sự sáng tạo của nó gắn liền với tên Al-Kindi.

Nhưng các trường hợp áp dụng phương pháp phân tích tần số đã biết thuộc về thời kỳ muộn hơn nhiều. Ví dụ nổi bật nhất ở đây là việc giải mã chữ tượng hình Ai Cập, được sản xuất vào năm 1822 bởi J.-F. Champollion.

Nếu chuyển sang tiểu thuyết, chúng ta có thể tìm thấy nhiều tài liệu tham khảo thú vị về phương pháp giải mã này:

Conan Doyle - "Những người đàn ông khiêu vũ".
Jules Verne - "Con của Thuyền trưởng Grant".
Edgar Poe - "Bọ vàng".

Tuy nhiên, kể từ giữa thế kỷ trước, hầu hết các thuật toán được sử dụng trong mã hóa đã được phát triển có tính đến khả năng chống lại sự phân tích mật mã theo tần số như vậy. Do đó nóngày nay chúng thường chỉ được sử dụng để đào tạo các nhà mật mã trong tương lai.

Phương pháp cơ bản

Bây giờ chúng ta hãy trình bày chi tiết phân tích đáp ứng tần số. Loại phân tích này trực tiếp dựa trên thực tế là bài kiểm tra bao gồm các từ và lần lượt là các chữ cái. Số lượng chữ cái điền vào bảng chữ cái quốc gia là có hạn. Các chữ cái có thể đơn giản được liệt kê ở đây.

Các đặc điểm quan trọng nhất của một văn bản như vậy sẽ là sự lặp lại của các chữ cái, các bigrams, bát quái và n-gam khác nhau, cũng như sự tương thích của các chữ cái khác nhau với nhau, sự thay thế của các phụ âm / nguyên âm và các thứ khác các loại biểu tượng này.

Ý tưởng chính của phương pháp này là đếm số lần xuất hiện của n-gam có thể xảy ra (ký hiệu là nm) trong các bản rõ đủ dài để phân tích (ký hiệu là T=t1t2… tl) bao gồm các chữ cái trong bảng chữ cái quốc gia (ký hiệu là {a1, a2,…, an}). Tất cả những điều trên gây ra một số m gam văn bản liên tiếp:

t1t2… tm, t2t3… tm + 1,…, ti-m + 1tl-m + 2… tl.

Nếu đây là số lần xuất hiện của m-gam ai1ai2… nhắm vào một văn bản nhất định T và L là tổng số m-gam được phân tích bởi nhà nghiên cứu, thì có thể thiết lập theo kinh nghiệm rằng L đủ lớn, các tần số của một m-gam như vậy sẽ khác nhau một chút.

Các chữ cái thường xuất hiện trong bảng chữ cái tiếng Nga

Nhưng phân tích tần suất thời gian, mặc dù có tên tương tự, không liên quan gì đến chủ đề cuộc trò chuyện của chúng ta. Loại phân tích này được thực hiện chotín hiệu từ các trạm radar có khả năng quan sát thấp bằng cách sử dụng biến đổi wavelet đặc biệt.

Bây giờ chúng ta quay lại chủ đề chính nhé. Khi tiến hành phân tích tần số, bạn có thể tìm ra chữ cái nào trong bảng chữ cái tiếng Nga thường được tìm thấy nhiều nhất trong các văn bản khá đồ sộ (tỷ lệ phần trăm từ 0,062 đến 0,018):

Thậm chí một quy tắc ghi nhớ đặc biệt đã được giới thiệu, giúp học các chữ cái phổ biến nhất trong bảng chữ cái tiếng Nga. Để làm được điều này, chỉ cần nhớ một từ là đủ - "hayloft".

Trong các trường hợp chung, tần suất sử dụng các chữ cái theo tỷ lệ phần trăm được đặt đơn giản: chuyên gia đếm số lần chữ cái đó xuất hiện trong văn bản, sau đó chia giá trị kết quả cho tổng số ký tự trong văn bản. Và để biểu thị giá trị này dưới dạng phần trăm, chỉ cần nhân nó với 100 là đủ.

Điều quan trọng cần lưu ý là tần suất sẽ không chỉ phụ thuộc vào khối lượng của văn bản mà còn phụ thuộc vào bản chất của nó. Ví dụ, trong các nguồn kỹ thuật, chữ "F" xuất hiện thường xuyên hơn nhiều so với trong tiểu thuyết. Do đó, để có kết quả khách quan, một chuyên gia phải đánh máy các văn bản có tính chất và phong cách khác nhau để nghiên cứu.

Bi-, tri-, bốn gam

Trong các văn bản có ý nghĩa, bạn cũng có thể tìm thấy điều phổ biến nhất (tương ứng,lặp lại) kết hợp của hai hoặc nhiều chữ cái. Các chuyên gia cũng đã biên soạn một số bảng biểu thị tần số của các digram tương tự của các bảng chữ cái khác nhau.

Đối với tiếng Nga, việc phân tích tần số của hệ thống các văn bản có ý nghĩa khổng lồ đã giúp chúng ta có thể thiết lập các hệ bát quái và bát quái phổ biến nhất:

EN.
ST.
NHƯNG.
KHÔNG.
BẬT.
RA.
OV.
KO.
VO.
NGỪNG.
MỚI
ENO.
TOV.
OVA.
OVO.

Mối quan hệ ưu tiên của các bức thư với nhau

Và đây không phải là tất cả các khả năng mà phân tích tần số có thể cung cấp cho các nhà nghiên cứu văn bản. Bằng cách hệ thống hóa thông tin từ các bảng tương tự của bát quái và bát quái, có thể trích xuất dữ liệu về các tổ hợp chữ cái phổ biến nhất. Hay nói cách khác, các mối quan hệ ưu tiên của họ với nhau.

Một nghiên cứu sâu rộng như vậy đã được thực hiện bởi các chuyên gia. Kết quả của nó là một bảng trong đó, cùng với mỗi chữ cái trong bảng chữ cái, các hàng xóm của nó được chỉ ra. Hơn nữa, những ký tự thường được tìm thấy ngay trước nó và sau nó. Các chữ cái trong bảng không được đánh vần một cách tình cờ. Gần biểu tượng hơn, những người hàng xóm thường xuyên nhất được chỉ ra, xa hơn - những người hiếm hoi hơn.

Hãy xem xét các ví dụ:

Chữ "A". Các kết nối ưu tiên sau được phân biệt ở đây: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Từ đây chúng ta thấy rằng hầu hết trước "A" trong các văn bản có "H" ("NA"). Và sau "A" thường xuyên nhất trong các văn bản bằng tiếng Nga, chúng ta có thể gặp "L"("AL").
Chữ "M". Các chuyên gia đã xác định các kết nối ưu tiên như vậy: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
Chữ "b". Các kết nối ưu tiên như sau: "n-s-t-l-b-n-k-v-p-s-e-o-i".
Chữ "Sh". Kết nối ưu tiên: "e-b-a-i-u-Sch-e-i-a".
Chữ "P". Các kết nối được ưu tiên với ký hiệu này trong bảng chữ cái tiếng Nga: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".

Điều gì xác định phân tích?

Các chương trình phân tích văn bản hiện đại giúp nghiên cứu khối lượng lớn nhiều bài báo, bài luận, đoạn văn, v.v. Thông tin sau được cung cấp cho nhà nghiên cứu theo tiêu chuẩn:

Tổng số ký tự trong văn bản.
Số khoảng trắng mà tác giả sử dụng.
Số chữ số.
Thông tin về các dấu câu đã sử dụng - dấu chấm, dấu phẩy, v.v.
Số lượng chữ cái trong mỗi bảng chữ cái có sẵn - Kirin, Latinh, v.v.
Thông tin về tần suất sử dụng của từng chữ cái và ký hiệu trong văn bản - số lượt đề cập và tỷ lệ phần trăm so với toàn bộ văn bản.

Đấu tranh chống lại sự phát triển quá mức và quá bão hòa

Tại sao phân tích tần suất văn bản được thực hiện? Có phải nó chỉ nhằm mục đích tò mò - để xác định những ký tự nào trong văn bản được viết hóa ra là thường xuyên gặp phải? Không, ứng dụng chính của phân tích là thực tế và nó nằm ở chỗ khác.

N-gram không chỉ bao gồm bigram và bát quái ổn định. Cùngdanh mục bao gồm từ khóa (thẻ), cụm từ. Đó là, các kết hợp ổn định bao gồm hai hoặc nhiều từ. Chúng được phân biệt bởi thực tế là các thành phần như vậy xảy ra cùng nhau trong văn bản và đồng thời mang một tải ngữ nghĩa nhất định.

Điều này rơi vào tay các chuyên gia SEO vô đạo đức. Trong công việc của mình, đôi khi họ lạm dụng việc lặp lại các thẻ và từ khóa trong văn bản để tăng mức độ liên quan của một trang web cụ thể một cách giả tạo. Họ đang cố gắng đánh lừa hệ thống bằng một "thủ thuật" như vậy: biến một sự kết hợp tự nhiên với sự kết hợp thông thường của các từ, truyền thống của tiếng Nga ("mua một chiếc áo khoác lông chồn") thành một sự kết hợp không nhất quán. Đó là, có được bằng cách sắp xếp lại các từ theo N-gram tự nhiên như vậy ("mua một chiếc áo khoác lông chồn").

Nhưng ngày nay, các thuật toán tìm kiếm đã học được cách phát hiện quá mức hiệu quả như quá tải - quá bão hòa văn bản với các từ khóa, thẻ ảnh hưởng đến thứ hạng của kết quả trên trang tìm kiếm. Ngược lại, các trang được tối ưu hóa quá mức hiện được xếp hạng thấp hơn theo truy vấn của người dùng. Và bản thân mọi người không có xu hướng đọc văn bản vô nghĩa, quá bão hòa với các thẻ, họ thích thông tin hữu ích trên một tài nguyên khác.

Giúp phân tích riêng cho chuyên viên SEO

Vì vậy, các bộ lọc văn bản của công cụ tìm kiếm hiện đại ngày nay ưu tiên cho các trang Internet đó, thông tin trên đó không chỉ dễ đọc mà còn hữu ích cho khách truy cập. Để tối ưu hóa công việc của họ theo các tiêu chuẩn mới, các chuyên gia SEOvà chuyển sang phân tích tần số của văn bản. Nhiều dịch vụ phổ biến cung cấp nó ngày nay.

Phân tích tần suất giúp đánh giá văn bản chuẩn bị xuất bản để đảm bảo tính thông tin. Loại bỏ sự dư thừa không cần thiết của các thẻ và cụm từ khóa. Nó cũng cho phép bạn thu hút sự chú ý của tác giả đến những sự kết hợp không tự nhiên của các từ làm dấy lên nghi ngờ trong bộ lọc văn bản của công cụ tìm kiếm.

Phân tích tần suất của văn bản do đó giúp xác định tần suất đề cập đến một nhân vật cụ thể trong nguồn. Phương pháp này được sử dụng ngày nay để đánh giá tình trạng quá tải của văn bản với các thẻ, sự hoán vị không tự nhiên của các từ.