Ngữ liệu ngữ liệu là gì?

2026 Tác giả: Angel Austin | austin@vogueindustry.com. Sửa đổi lần cuối: 2025-01-23 12:37:34

Vài thập kỷ trước, các nhà khoa học chỉ có thể mơ ước tự động hóa nghiên cứu ngôn ngữ. Công việc được thực hiện bằng tay, một số lượng lớn học sinh tham gia vào nó, có khả năng xảy ra lỗi "không chú ý" đáng kể, và quan trọng nhất, tất cả đều mất rất nhiều thời gian.

Với sự phát triển của công nghệ máy tính, có thể tiến hành nghiên cứu nhanh hơn nhiều, và ngày nay một trong những lĩnh vực đầy hứa hẹn trong nghiên cứu ngôn ngữ là ngữ liệu ngữ liệu. Tính năng chính của nó là sử dụng một lượng lớn thông tin dạng văn bản, được tổng hợp thành một cơ sở dữ liệu duy nhất, được đánh dấu theo một cách đặc biệt và được gọi là kho ngữ liệu.

Ngày nay, có nhiều kho ngữ liệu được tạo ra cho các mục đích khác nhau, dựa trên tài liệu ngôn ngữ khác nhau, bao gồm từ hàng triệu đến hàng chục tỷ đơn vị từ vựng. Hướng đi này được công nhận là có triển vọng và thể hiện sự tiến bộ đáng kể trong việc đạt được các mục tiêu ứng dụng và nghiên cứu. Các chuyên gia, bằng cách này hay cách khác đối phó vớingôn ngữ tự nhiên, bạn nên tự làm quen với kho ngữ liệu văn bản ít nhất ở mức cơ bản.

Lịch sử của ngữ liệu ngữ liệu

Sự hình thành của hướng này gắn liền với việc thành lập Quân đoàn Brown ở Hoa Kỳ vào đầu những năm 60 của thế kỷ trước. Bộ sưu tập các văn bản chỉ bao gồm 1 triệu dạng từ, và ngày nay một kho văn bản có khối lượng như vậy sẽ hoàn toàn không có tính cạnh tranh. Điều này phần lớn là do tốc độ phát triển của công nghệ máy tính, cũng như nhu cầu ngày càng tăng về các nguồn nghiên cứu mới.

Vào những năm 90, ngữ liệu ngữ liệu đã được hình thành thành một ngành chính thức và độc lập, các bộ sưu tập văn bản được biên soạn và đánh dấu cho hàng chục ngôn ngữ. Ví dụ, trong thời kỳ này, British National Corpus đã được tạo ra cho 100 triệu cách sử dụng từ.

Khi hướng ngôn ngữ học này phát triển, khối lượng văn bản ngày càng lớn (và lên tới hàng tỷ đơn vị từ vựng), và cách đánh dấu ngày càng đa dạng hơn. Ngày nay, trên không gian Internet, bạn có thể tìm thấy kho ngữ liệu bằng văn bản và lời nói, đa ngôn ngữ và mang tính giáo dục, tập trung vào tiểu thuyết hoặc văn học hàn lâm, cũng như nhiều thể loại khác.

Có những trường hợp nào

Các loại cấu tử trong ngữ liệu ngữ liệu có thể được biểu diễn theo một số cách. Trực quan rõ ràng rằng cơ sở để phân loại có thể là ngôn ngữ của văn bản (tiếng Nga, tiếng Đức), chế độ truy cập (nguồn mở, nguồn đóng, thương mại), thể loại của tài liệu nguồn (tiểu thuyếtvăn học, tài liệu, hàn lâm, báo chí).

Theo một cách thú vị, việc tạo ra các tài liệu đại diện cho bài phát biểu bằng miệng được thực hiện. Vì việc cố ý ghi lại bài phát biểu như vậy sẽ tạo ra những điều kiện giả tạo cho người trả lời, và tài liệu tạo ra không thể được gọi là "tự phát", nên ngữ liệu ngữ liệu hiện đại đã đi theo hướng khác. Tình nguyện viên được trang bị một micrô và tất cả các cuộc trò chuyện mà anh ta tham gia trong ngày đều được ghi lại. Tất nhiên, những người xung quanh không thể biết rằng trong cuộc trò chuyện hàng ngày, họ đang đóng góp vào sự phát triển của khoa học.

Sau đó, các bản ghi âm nhận được sẽ được lưu trữ trong ngân hàng dữ liệu và kèm theo văn bản in giống như bản ghi. Bằng cách này, việc đánh dấu cần thiết để tạo kho ngữ liệu của bài nói hàng ngày trở nên khả thi.

Đơn

Nếu có thể sử dụng ngôn ngữ, thì cũng có thể sử dụng ngữ liệu văn bản. Mục đích của việc sử dụng các phương pháp ngữ liệu trong ngôn ngữ học có thể là:

Tạo ra các chương trình tình cảm được sử dụng rộng rãi trong chính trị và kinh doanh để theo dõi phản hồi tích cực và tiêu cực từ các cử tri và khách hàng, tương ứng.
Kết nối hệ thống thông tin với từ điển và trình dịch để cải thiện hiệu suất của chúng.
Các nhiệm vụ nghiên cứu khác nhau đóng góp vào sự hiểu biết về cấu trúc của ngôn ngữ, lịch sử phát triển của ngôn ngữ và những dự đoán về sự thay đổi của ngôn ngữ trong tương lai gần.
Phát triển hệ thống trích xuất thông tin dựa trên hình thái học,cú pháp, ngữ nghĩa và các tính năng khác.
Tối ưu hóa công việc của các hệ thống ngôn ngữ khác nhau, v.v.

Sử dụng vỏ

Giao diện tài nguyên tương tự như một công cụ tìm kiếm thông thường và nhắc người dùng nhập một số từ hoặc kết hợp các từ để tìm kiếm trong infobase. Ngoài biểu mẫu yêu cầu chính xác, bạn có thể sử dụng phiên bản mở rộng, cho phép bạn tìm thông tin dạng văn bản theo hầu hết mọi tiêu chí ngôn ngữ.

Cơ sở cho việc tìm kiếm có thể là:

thuộc một nhóm nhất định của bài phát biểu;
đặc điểm ngữ pháp;
ngữ nghĩa;
màu theo phong cách và cảm xúc.

Ngoài ra, bạn có thể kết hợp các tiêu chí tìm kiếm cho một chuỗi từ: ví dụ: tìm tất cả các lần xuất hiện của một động từ ở thì hiện tại, ngôi thứ nhất, số ít theo sau bởi giới từ "in" và một danh từ trong trường hợp buộc tội. Người dùng giải quyết một công việc đơn giản như vậy chỉ mất vài giây và chỉ cần một vài cú nhấp chuột vào các trường nhất định.

Quá trình sáng tạo

Bản thân việc tìm kiếm có thể được thực hiện cả trong tất cả các nhánh con và trong một nhóm, được lựa chọn cụ thể, tùy thuộc vào nhu cầu khi đạt được một mục tiêu cụ thể:

Trước hết, cần xác định văn bản nào sẽ tạo thành cơ sở của kho ngữ liệu. Đối với các mục đích thực tế, các tài liệu báo chí, báo chí, bình luận trên Internet thường được sử dụng. Trong các dự án nghiên cứu, hầu hếtnhiều loại ngữ liệu khác nhau, nhưng các văn bản phải được chọn trên một số cơ sở chung.
Tập hợp văn bản kết quả được xử lý trước, các lỗi sẽ được sửa, nếu có, mô tả thư mục và ngoại ngữ của văn bản đã được chuẩn bị.
Tất cả thông tin phi văn bản đều được lọc ra: đồ họa, hình ảnh, bảng biểu bị xóa.
Token, thường là các từ, được cấp phát để xử lý thêm.
Cuối cùng, đánh dấu hình thái, cú pháp và các đánh dấu khác của tập hợp các phần tử kết quả được thực hiện.

Kết quả của tất cả các thao tác đã thực hiện là một cấu trúc cú pháp với một tập hợp các phần tử được phân bổ trên đó, đối với mỗi phần tử, một phần của lời nói, ngữ pháp và trong một số trường hợp, các đặc điểm ngữ nghĩa được xác định.

Khó khăn khi tạo trường hợp

Điều quan trọng cần hiểu là để có được một ngữ liệu, việc ghép nhiều từ hoặc câu lại với nhau là chưa đủ. Một mặt, tập hợp các văn bản phải cân đối, tức là trình bày các loại văn bản khác nhau theo những tỷ lệ nhất định. Mặt khác, nội dung của hộp phải được đánh dấu theo cách đặc biệt.

Vấn đề đầu tiên được giải quyết theo thỏa thuận: ví dụ: bộ sưu tập bao gồm 60% văn bản hư cấu, 20% phim tài liệu, một tỷ lệ nhất định được trao cho phần trình bày bằng văn bản của bài phát biểu, hành vi lập pháp, bài báo khoa học, v.v.. Công thức lý tưởng cho một kho ngữ liệu cân bằng ngày nay không tồn tại.

Câu hỏi thứ hai liên quan đến đánh dấu nội dung khó giải hơn. Có những chương trình và thuật toán đặc biệt được sử dụng để tự động đánh dấu văn bản, nhưng chúng không cho kết quả 100%, có thể gây ra lỗi và yêu cầu sàng lọc thủ công. Các cơ hội và vấn đề trong việc giải quyết vấn đề này được mô tả chi tiết trong công trình của V. P. Zakharov về ngữ liệu ngữ liệu.

Đánh dấu văn bản được thực hiện ở một số cấp độ mà chúng tôi sẽ liệt kê bên dưới.

Đánh dấu hình thái

Ngay từ khi còn ngồi trên ghế nhà trường, chúng ta nhớ rằng trong tiếng Nga có các phần khác nhau của lời nói, và mỗi phần đều có những đặc điểm riêng. Ví dụ, một động từ có các loại tâm trạng và thì mà một danh từ không có. Một người bản ngữ từ chối danh từ và cách chia động từ mà không do dự, nhưng lao động chân tay không phù hợp để đánh dấu một kho ngữ liệu gồm 100 triệu cách sử dụng từ. Tất cả các thao tác cần thiết đều có thể được thực hiện bởi máy tính, tuy nhiên, để làm được điều này thì nó cần phải được dạy.

Đánh dấu hình thái là cần thiết để máy tính "hiểu" từng từ như một số phần của bài phát biểu có các đặc điểm ngữ pháp nhất định. Vì một số quy tắc thông thường hoạt động bằng ngôn ngữ Nga (như bất kỳ ngôn ngữ nào khác), nên có thể xây dựng một quy trình tự động để phân tích hình thái bằng cách đưa một số thuật toán vào máy. Tuy nhiên, có những ngoại lệ đối với quy tắc, cũng như các yếu tố phức tạp khác nhau. Do đó, phân tích máy tính thuần túy ngày nay còn xa lý tưởng và thậm chí lỗi 4% cũng cho giá trị 4 triệu từ trong kho ngữ liệu 100 triệu đơn vị, yêu cầu sàng lọc thủ công.

Vấn đề này được mô tả chi tiết trong cuốn sách "Corpus Linguistics" của V. P. Zakharov.

Đánh dấu cú pháp

Phân tích cú pháp hoặc phân tích cú pháp là một thủ tục xác định mối quan hệ của các từ trong một câu. Với sự trợ giúp của một tập hợp các thuật toán, có thể xác định chủ đề, vị ngữ, phần bổ sung và các cách nói khác nhau trong văn bản. Bằng cách tìm ra từ nào trong chuỗi là chính và từ nào phụ thuộc, chúng tôi có thể trích xuất thông tin từ văn bản một cách hiệu quả và huấn luyện máy chỉ trả lại thông tin mà chúng tôi quan tâm để đáp ứng yêu cầu tìm kiếm.

phòng thí nghiệm ngữ liệu học ở các trường đại học Nga

Nhân tiện, các công cụ tìm kiếm hiện đại sử dụng điều này để đưa ra các con số cụ thể thay vì các văn bản dài dòng để trả lời các truy vấn có liên quan như: “bao nhiêu calo trong một quả táo” hoặc “khoảng cách từ Moscow đến St. Petersburg”. Tuy nhiên, để hiểu ngay cả những điều cơ bản của quy trình được mô tả, bạn sẽ cần phải tự làm quen với "Giới thiệu về Ngôn ngữ học Corpus" hoặc một cuốn sách giáo khoa cơ bản khác.

Đánh dấu ngữ nghĩa

Ngữ nghĩa của một từ, nói một cách đơn giản, là nghĩa của nó. Một cách tiếp cận có thể áp dụng rộng rãi trong phân tích ngữ nghĩa là việc gán các thẻ cho một từ, phản ánh nó thuộc về một tập hợp các danh mục và danh mục phụ ngữ nghĩa. Thông tin như vậy có giá trị để tối ưu hóa các thuật toán phân tích cảm xúc văn bản, tự động tham chiếu và thực hiện các tác vụ khác bằng cách sử dụng các phương pháp ngữ liệu ngữ liệu.

Có một số "rễ" của cây, là những từ trừu tượng cóngữ nghĩa rất rộng. Khi cái cây này phân nhánh, các nút được hình thành chứa ngày càng nhiều các yếu tố từ vựng cụ thể. Ví dụ, từ "sinh vật" có thể được kết hợp với các khái niệm như "người" và "động vật". Từ đầu tiên sẽ tiếp tục phân nhánh thành các ngành nghề khác nhau, các thuật ngữ về quan hệ họ hàng, quốc tịch, và từ thứ hai - thành các lớp và các loại động vật.

Sử dụng hệ thống truy xuất thông tin

Các lĩnh vực sử dụng ngữ liệu ngữ liệu bao gồm nhiều lĩnh vực hoạt động khác nhau. Corpora được sử dụng để biên dịch và sửa từ điển, tạo hệ thống dịch tự động, tóm tắt, trích xuất dữ kiện, xác định tình cảm và xử lý văn bản khác.

Ngoài ra, các nguồn tài nguyên này được sử dụng tích cực trong việc nghiên cứu các ngôn ngữ trên thế giới và các cơ chế hoạt động của ngôn ngữ nói chung. Việc tiếp cận với khối lượng lớn thông tin được chuẩn bị trước góp phần vào việc nghiên cứu nhanh chóng và toàn diện các xu hướng phát triển ngôn ngữ, sự hình thành các từ vựng và chuyển giọng ổn định, sự thay đổi nghĩa của các đơn vị từ vựng, v.v.

Bởi vì làm việc với khối lượng lớn dữ liệu đòi hỏi phải tự động hóa, ngày nay có sự tương tác chặt chẽ giữa máy tính và ngôn ngữ học ngữ liệu.

Quốc gia Ngôn ngữ Nga

Kho tài liệu này (viết tắt là NKRC) bao gồm một số tiểu tổ hợp cho phép sử dụng tài nguyên để giải quyết nhiều nhiệm vụ khác nhau.

Vật liệu trong cơ sở dữ liệu NCRA được chia thành:

trên các ấn phẩm trên các phương tiện truyền thông của những năm 90 và 2000năm, cả trong nước và nước ngoài;
bản ghi âm lời nói;
văn bản được đánh dấu trọng âm (tức là có dấu trọng âm);
giọng nói phương ngữ;
tác phẩm thơ;
tài liệu có đánh dấu cú pháp, v.v.

Hệ thống thông tin cũng bao gồm các tổ chức con với các bản dịch song song các tác phẩm từ tiếng Nga sang tiếng Anh, tiếng Đức, tiếng Pháp và nhiều ngôn ngữ khác (và ngược lại).

Ngoài ra, cơ sở dữ liệu có một phần các văn bản lịch sử đại diện cho lời nói viết bằng tiếng Nga trong các thời kỳ phát triển khác nhau của nó. Ngoài ra còn có một kho tài liệu đào tạo có thể hữu ích cho công dân nước ngoài trong việc thông thạo tiếng Nga.

Kho ngữ liệu quốc gia của tiếng Nga bao gồm 400 triệu đơn vị từ vựng và theo nhiều cách, đi trước một phần quan trọng của kho ngữ liệu các ngôn ngữ châu Âu.

Triển vọng

Một thực tế ủng hộ việc công nhận lĩnh vực này là đầy hứa hẹn là sự hiện diện của các phòng thí nghiệm ngữ liệu học trong các trường đại học Nga, cũng như ở nước ngoài. Với việc sử dụng và nghiên cứu trong khuôn khổ các tài nguyên truy xuất thông tin được xem xét, sự phát triển của một số lĩnh vực trong lĩnh vực công nghệ cao, hệ thống câu hỏi-trả lời được liên kết, nhưng điều này đã được thảo luận ở trên.

Sự phát triển hơn nữa của ngôn ngữ ngữ liệu được dự đoán ở mọi cấp độ, từ kỹ thuật đến giới thiệu các thuật toán mới nhằm tối ưu hóa quá trình tìm kiếm và xử lý thông tin, mở rộng khả năng của máy tính, tăng cường hoạt độngbộ nhớ và kết thúc bằng những tài nguyên gia đình, khi người dùng ngày càng tìm thấy nhiều cách để sử dụng loại tài nguyên này trong cuộc sống hàng ngày và trong công việc.

Trong kết luận

Vào giữa thế kỷ trước, năm 2017 dường như là một tương lai xa, trong đó tàu vũ trụ lướt trên vùng rộng lớn của Vũ trụ và người máy làm tất cả công việc cho con người. Tuy nhiên, trên thực tế, khoa học có rất nhiều "chỗ trống" và đang cố gắng tuyệt vọng để trả lời những câu hỏi đã gây khó khăn cho nhân loại trong nhiều thế kỷ. Các câu hỏi về hoạt động của ngôn ngữ tự hào có vị trí ở đây và ngữ liệu và ngôn ngữ tính toán có thể giúp chúng tôi trả lời chúng.

Xử lý lượng lớn dữ liệu cho phép bạn phát hiện các mẫu mà trước đây không thể truy cập được, dự đoán sự phát triển của các tính năng ngôn ngữ nhất định, theo dõi sự hình thành của các từ gần như trong thời gian thực.

Ở cấp độ thực tế toàn cầu, tập văn bản có thể được coi là một công cụ tiềm năng để đánh giá tình cảm của công chúng - Internet là một cơ sở dữ liệu cập nhật liên tục các văn bản khác nhau do người dùng thực tạo ra: đó là các nhận xét, đánh giá, bài báo và nhiều hình thức nói khác.

Ngoài ra, làm việc với kho văn bản góp phần phát triển các phương tiện kỹ thuật tương tự liên quan đến truy xuất thông tin, quen thuộc với chúng ta từ các dịch vụ của Google hoặc Yandex, dịch máy, từ điển điện tử.

Có thể nói rằng ngôn ngữ học ngữ liệu mới chỉ đang ở những bước đầu tiên và sẽ phát triển nhanh chóng trong tương lai gần.