So sánh sản phẩm
chọn tối đa 4 sản phẩm

Nội dung Kho ngữ liệu

Ngày đăng:08:57:00 18-05-2016

Kho ngữ liệu ngôn ngữ trung gian tiếng Hán của người học Việt Nam bao gồm những nội dung sau:

1 Kho bài viết nguyên bản của người học

Đề tài tiến hành thu thập bài viết nguyên bản của người học Việt Nam trong quá trình sử dụng tiếng Hán. Các bài viết chủ yếu là bài thi môn Viết, bài thi môn Dịch, môn Văn hóa văn minh của sinh viên khoa Ngôn ngữ và văn hóa Trung Quốc, trường Đại học Ngoại ngữ, Đại học Quốc gia Hà Nội. Ngoài ra, đề tài cũng thu thập bài viết của sinh viên một số trường đại học khác như Đại học Hải Phòng, Đại học Ngoại thương.

Số lượng bài viết được thu thập là trên 3000 bài, chủ yếu là bài gồm bài viết của sinh viên các khóa từ QH.2007 đến QH.2012, trong đó các khóa QH.2009 đến QH.2012 chiếm đa số. Các bài viết được thu thập trải dọc theo thời gian học tập của sinh viên, từ năm thứ nhất đến năm thứ tư, tức là từ trình độ sơ cấp đến trung cấp và cao cấp. Nguồn ngữ liệu theo suốt quá trình học tập của người học sẽ phục vụ hiệu quả cho việc nghiên cứu quá trình thụ đắc tiếng Hán của người học Việt Nam.

Trên 3000 bài viết nguyên bản đã được scan và đưa lên website dưới dạng file ảnh, người sử dụng có thể xem trực tiếp hoặc tải về. Mỗi file ảnh đều có mã hóa số hiệu bài viết, giúp kết nối thông tin với kho thông tin người học. Có tổng số khoảng 4400 file ảnh do có những bài viết được thể hiện trên 2 hoặc thậm chí 3 trang. Với những bài viết này, chúng tôi đều mã hóa số hiệu có chú thích số trang để người dùng tiện theo dõi.

2 Kho bài viết đã được chẩn đoán và chú thích

Trong số trên 3000 bài viết đã được thu thập, nhóm nghiên cứu đã tiến hành xử lý trên 200 bài viết. Các bài viết này được nhập dưới dạng word, chẩn đoán và mã hóa lỗi sai theo hướng dẫn chẩn đoán và mã hóa lỗi sai của Kho ngữ liệu bài viết trình độ tiếng Hán HSK của Đại học Ngôn ngữ Bắc Kinh. Việc chẩn đoán và mã hóa lỗi sai của nhóm ngữ liệu này sẽ giúp người dùng dễ dàng nhận ra những lỗi sai trong ngữ liệu, thuận tiện trong việc nghiên cứu. Bên cạnh đó, sau khi đưa vào phần mềm của Kho ngữ liệu ngôn ngữ trung gian tiếng Hán toàn cầu, nhóm ngữ liệu đã được chẩn đoán và mã hóa lỗi sai sẽ giúp cho việc thống kê được thuận tiện, dễ dàng hơn.

3 Danh mục thông tin ngữ liệu và thông tin người viết

Bên cạnh kho bài viết nguyên bản và kho bài viết đã qua xử lý, đề tài còn cung cấp danh mục thông tin về ngữ liệu và thông tin người viết.

Danh mục thông tin về ngữ liệu bao gồm: tên bài viết; thể loại bài viết, ví dụ như bài viết văn, bài dịch, viết thư, bài về văn hóa v..v.; điểm số của bài viết; thời gian của bài viết (ví dụ bài viết của sinh viên năm thứ mấy, học kỳ thứ mấy).

Danh mục thông tin về người học bao gồm họ tên, giới tính, mã số sinh viên, thời gian học tiếng Hán, khóa học, thời gian của bài viết. Những thông tin này có thể hỗ trợ người dùng tìm kiếm bài viết của một hoặc một nhóm sinh viên từ học kỳ đầu tiên cho tới học kỳ cuối cùng, phục vụ cho nghiên cứu quá trình thụ đắc tiếng Hán của người học Việt Nam.

Sau khi đi vào sử dụng, Nhà trường có thể đầu tư để mở rộng kho ngữ liệu, tiến tới cung cấp ngữ liệu có thu phí. Đồng thời, có thể đầu tư nghiên cứu chuyên sâu để kho ngữ liệu có thêm một số tính năng thống kê như:

  • Thông tin về chữ Hán: chủ yếu bao gồm số lượng chữ, thống kê tần suất sử dụng, thống kê số lượng chữ sai, tần suất chữ sai, các loại hình viết nhầm chữ và viết sai chữ.

  • Thông tin về từ: chủ yếu bao gồm số lượng từ, tần suất sử dụng, từ loại, các loại hình lỗi sai về từ ngữ (thừa từ, thiếu từ, nhầm từ, sai vị trí v..v).

Trong quá trình xây dựng Kho ngữ liệu ngôn ngữ trung gian tiếng Hán của người học Việt Nam, chủ nhiệm đề tài đã hướng dẫn 03 học viên cao học bảo vệ thành công luận văn thạc sĩ. Đề tài luận văn của 03 học viên đều về lĩnh vực phân tích lỗi sai của người học Việt Nam trong quá trình học tập tiếng Hán. Các nghiên cứu này đều được thực hiện trên nền tảng thống kê, phân tích, tổng hợp các ngữ liệu tự nhiên từ Kho ngữ liệu ngôn ngữ trung gian tiếng Hán của người học Việt Nam. Tuy lúc thực hiện luận văn, Kho ngữ liệu còn chưa hoàn thiện, nhưng nguồn ngữ liệu mà Kho cung cấp đã có giá trị thực tiễn cao, giúp các học viên tiếp cận được với nguồn ngữ liệu tự nhiên, tạo cơ sở cho những nghiên cứu thực tiễn mà họ triển khai. Điều này khẳng định ý nghĩa thực tiễn và giá trị ứng dụng của Kho ngữ liệu ngôn ngữ trung gian tiếng Hán của người học Việt Nam.

 

Tags:
Tin cùng danh mục
Tin liên quan