So sánh sản phẩm
chọn tối đa 4 sản phẩm

Tổng quan về kho ngữ liệu ngôn ngữ trung gian tiếng Hán

Ngày đăng:08:29:03 18-05-2016

Tuy việc xây dựng kho ngữ liệu ngôn ngữ trung gian tiếng Hán có lịch sử muộn hơn so với tiếng Anh, nhưng giới nghiên cứu và giảng dạy tiếng Hán đều nhận thức rõ được tầm quan trọng của nó, đặc biệt là kho ngữ liệu ngôn ngữ trung gian. Cho dù là kho ngữ liệu khẩu ngữ hay kho ngữ liệu viết, nó đều giữ một vai trò rất quan trọng đối với việc nghiên cứu quá trình thụ đắc ngôn ngữ, giảng dạy ngôn ngữ và biên soạn giáo trình v.v…

Cũng giống như kho ngữ liệu tiếng Anh, sự phát triển của kho ngữ liệu trung gian tiếng Hán cũng xây dựng kho ngữ liệu bút ngữ trước, sau đó mới tiến hành xây dựng kho ngữ liệu khẩu ngữ.

1 Kho ngữ liệu ngôn ngữ trung gian tiếng Hán dạng bút ngữ

Kho ngữ liệu ngôn ngữ trung gian tiếng Hán đầu tiên được xây dựng vào năm 1995 do giáo sư Trữ Thành Trí (储诚志) chủ trì thu thập 1.731 tài liệu bài viết và bài tập viết của 740 người học nước ngoài, tổng cộng bao gồm 1.041.274 ngữ liệu và đưa lên mạng để người dùng có thể tìm kiếm và phân tích. Nhưng đến năm 2003, “Kho ngữ liệu bài thi viết HSK” do giáo sư Thôi Hi Lượng (崔希亮), Hiệu trưởng trường Đại học Ngôn ngữ Bắc Kinh chủ trì đã thu thập 10.740 bài viết ở trình độ cao cấp trong các kì thi HSK từ năm 1999 đến năm 2005, những bài viết này bao gồm hơn 4.000.000 chữ các ngữ liệu viết của người học ở trình độ cao cấp. Về sau, kho ngữ liệu này liên tục được bổ sung, cập nhập, và hiện tại nó đã thu thập được 4.300.000 chữ, đồng thời cũng cung cấp chức năng tìm kiếm online[1].

Năm 1997, “Kho ngữ liệu câu sai tiếng Hoa” do giáo sư Đặng Thủ Tín (邓守信) (Đại học Sư phạm Đài Loan) chủ trì là kho ngữ liệu viết chữ phồn thể. Quy mô kho ngữ liệu này tương đối nhỏ, tập trung thu thập từ bài tập luyện viết trên lớp của học sinh. Kho ngữ liệu này hiện nay chỉ cung cấp cho học sinh, giáo viên trong trường sử dụng. Trường Đại học Thành Công Đài Loan cũng xây dựng “Kho ngữ liệu người học đa quốc tịch tại Đài Loan” do giáo sư Trịnh Cẩm Toàn (郑锦全) chủ trì. Họ đã thu thập ngữ liệu viết của học sinh sử dụng 4 thứ tiếng Trung Quốc, Đức, Nhật và Tây Ban Nha. Mục tiêu của việc xây dựng kho ngữ liệu khẩu ngữ này là hoàn toàn miễn phí cho người dùng và còn mở rộng ra xây dựng kho ngữ liệu khẩu ngữ.

Năm 2006, trường Đại học Sư phạm Đài Loan bắt tay vào xây dựng kho ngữ liệu ngôn ngữ trung gian mô hình lớn với tên gọi là “Kho ngữ liệu của người học tiếng Hán tại Đại học Sư phạm Đài Loan”. Bên cạnh việc thu thập ngữ liệu bài viết trên lớp của học sinh đang theo học tại Trung tâm Quốc ngữ ra, còn thu thập thêm bài viết của thí sinh dự thi kì thi Trắc nghiệm năng lực tiếng Hoa (Test of Chinese as a Foreign Language, TOCFL). Hiện tại đã thu thập được khoảng 3.000.000 chữ và vẫn tiếp tục mở rộng thêm nữa.

2. Kho ngữ liệu ngôn ngữ trung gian tiếng Hán dạng khẩu ngữ

Như trên đã nói, kho ngữ liệu phần lớn chủ yếu tập trung thu thập ngữ liệu viết/bài viết của người học. Tuy nhiên, giới nghiên cứu và học thuật đều cho rằng, cần thu thập ngữ liệu viết trước, sau đó mới tiến hành thu thập ngữ liệu khẩu ngữ. Chính vì thế, năm 2006, trường Đại học Ngôn ngữ Bắc Kinh là đơn vị đầu tiên tiến hành chuyển toàn bộ file ghi âm bài nói của thí sinh dự thi HSK sang văn bản, chuẩn bị cho công việc xây dựng “Kho ngữ liệu khẩu ngữ của người học tiếng Hán (CLSC)”, đồng thời tiến hành phân loại và ghi chú lỗi từ loại và ngữ pháp. Chức năng tìm kiếm của nó chủ yếu dựa trên 2 phương thức sau: Một là, phát liên tục toàn bộ ngữ liệu khẩu ngữ với một khoảng cách thời gian nhất định; Hai là, phát âm ngữ liệu khẩu ngữ đồng thời xuất hiện chú thích chữ viết[2]. Ưu điểm vượt trội của kho ngữ liệu này là thu thập được ngữ liệu bài thi khẩu ngữ của toàn bộ các điểm thi HSK tại các trường đại học ở Trung Quốc và điểm thi của 26 nước trên thế giới. Như vậy, chúng ta có thể hình dung được khối lượng ngữ liệu của kho ngữ liệu khẩu ngữ này là vô cùng đồ sộ.

Năm 2011, Trung tâm giảng dạy Quốc ngữ (Trường Đại học sư phạm Đài Loan) cũng chủ trì một đề tài lớn bắt tay vào xây dựng kho ngữ liệu khẩu ngữ ngôn ngữ trung gian của người học. Nguồn ngữ liệu chủ yếu đến từ bài thi nói của thí sinh dự thi TOCFL ở trình độ trung cao cấp. Hiện tại đã thu thập được bài thi nói của học sinh 25 quốc gia trên thế giới. Như chúng ta đều biết, đứng từ góc độ nghiên cứu quá trình thụ đắc ngôn ngữ của người học, người học đến từ các quốc gia khác nhau, tiếng mẹ đẻ khác nhau thì lỗi và những điểm khó khi học tiếng Hán có biểu hiện hoàn toàn khác nhau. Hiện tại, do khối lượng công việc rất lớn, lại cộng thêm lượng người học đến từ nhiều quốc tịch khác nhau nên kho ngữ liệu khẩu ngữ này đang ưu tiên xử lí ngữ liệu của học sinh nói tiếng Anh, Nhật, Hàn, trong đó nói tiếng Anh bao gồm các quốc tịch Mĩ, Anh, Canada, Úc và New Zealand. Trước mắt đã xử lí xong ngữ liệu của 338 học sinh nói tiếng Nhật, 120 học sinh Anh và Mĩ, 33 học sinh quốc tịch Hàn với 2.700 dữ liệu âm thanh, tiến hành chuyển sang chữ viết được khoảng hơn 330.000 chữ. Công việc hiện tại vẫn đang được tiến hành để hoàn thiện và mở rộng hơn về quy mô và số lượng.

Có thể nói, xây dựng kho ngữ liệu ngôn ngữ trung gian tiếng Hán đang là một trào lưu hiện nay. Mặc dù có lịch sử giảng dạy tiếng Hán từ rất lâu đời, tuy nhiên Việt Nam vẫn chưa có một kho ngữ liệu ngôn ngữ trung gian tiếng Hán cho đến thời điểm này. Việc xây dựng kho ngữ liệu là một điều tất yếu trong công tác nghiên cứu và giảng dạy tiếng Trung Quốc ở giai đoạn hiện nay. Tuy nhiên, việc xây dựng kho ngữ liệu ngôn ngữ trung gian tiếng Hán còn gặp phải một số vấn đề đáng phải suy nghĩ như sau:

Thứ nhất là, trọng tâm của việc xây dựng kho ngữ liệu ngôn ngữ trung gian tiếng Hán là xây dựng kho ngữ liệu càng ngày càng hoàn thiện hơn để có thể phản ánh một cách chân thực nhất tiến trình học tiếng Hán của người học. Do vậy, làm thế nào để thu thập ngữ liệu ngôn ngữ trung gian một cách toàn diện nhất, có hiệu quả nhất và khoa học nhất chính là điều mà chúng ta cần phải quan tâm nhất.

Thứ hai là, làm thế nào để đánh dấu, phân loại ngữ liệu một cách hợp lí và khoa học hơn, cần phải phân loại dựa trên các tiêu chí nào, đánh dấu như thế nào để nổi bật nhất, lí tưởng nhất cũng như đảm bảo tính nhất quát của nó v.v… Làm thế nào để sử dụng máy vi tính thao tác việc phân loại và đánh dấu?

Thứ ba là, ngoài việc xây dựng kho ngữ liệu tổng hợp ra, làm thế nào để phân nhánh thành kho ngữ nhỏ dựa theo các tiêu chí khác nhau như kho ngữ liệu ngữ âm, văn tự, ngữ pháp, diễn ngôn, v.v… Những kho ngữ liệu nhánh này còn được thể hiện dựa trên tiêu chí quốc tịch, tiếng mẹ đẻ và giới tính, v.v…

Thứ tư là, làm thế nào có thể xây dựng nút tìm kiếm một cách chuyên nghiệp cũng như đơn giản hóa các thao tác xử lí thông tin.

Ngoài ra, còn rất nhiều vấn đề khác cũng cần phải giải quyết, đó là sự quy hoạch tổng thể, thống nhất các kho ngữ liệu để nó có thể vượt ra ngoài phạm vi, đối tượng hiện tại, trở thành kho ngữ liệu mang tính toàn cầu; hoặc vấn đề về bản thân hệ thống ngôn ngữ trung gian như làm thế nào để miêu tả nó một cách chính xác, vấn đề hệ thống hóa ngôn ngữ trung gian, miêu tả vấn đề bản chất nhất của ngôn ngữ trung gian là hiện tượng hóa thạch trong ngôn ngữ.

 

 


[1] 张宝林,2004

[2] 杨翼,2006:61

Tags:
Tin cùng danh mục