Phân tích & Dự báo

Số hóa tư liệu Việt: “Khuôn mặt khác” của một nền khoa học

Ngày nay, sự phát triển mạnh mẽ của công nghiệp, công nghệ thông tin đã tạo ra hàng loạt các sản phẩm công nghệ phần cứng, công nghệ phần mềm và công nghệ nội dung. Các loại hình sản phẩm này đã tác động và làm biến đổi về chất các loại hình thư viện truyền thống. Dần hình thành loại hình “Thư viện số”/“Thư viện điện tử (electronic library)/ “Thư viện ảo” (virtual library),... Một trong các yếu tố để xây dựng, duy trì và phát triển loại hình thư viện này là nguồn tài liệu số/tài nguyên tri thức dạng số. Có thể nói, nguồn tài nguyên thông tin số là huyết mạch/linh hồn của thư viện số. Mục tiêu của bất kỳ Thư viện số nào là tạo ra một cổng thông tin truy cập trực tuyến đến tài nguyên số không chỉ của thư viện đó mà đến bất kỳ Thư viện số nào khác ở bất cứ đâu. Do đó, việc triển khai xây dựng Bộ sưu tập tài nguyên thông tin số là bước đi đầu tiên, quan trọng nhất để phát triển thư viện số. Khi các thư viện đã có Bộ sưu tập số sẽ tiến hành liên thông chia sẻ phục vụ cộng đồng người dùng tin trực tuyến.

Một khi nguồn tài nguyên thông tin số là mạch huyết, là linh hồn của thư viện số thì công tác số hóa tài liệu có vai trò vô cùng quan trọng. Trước hết việc số hóa tài liệu sẽ giúp giảm thiểu đáng kể diện tích, không gian lưu giữ; Thứ hai là giúp việc bảo quản, duy trì tuổi thọ của tài liệu truyền thống được lâu hơn; Thứ ba là dễ dàng mở rộng phạm vi cộng đồng người sử dụng nguồn tài nguyên thông tin của cơ quan thông tin, thư viện; Thứ tư là tiện ích trong việc truy xuất tìm kiếm thông tin ở bất kỳ đâu vào bất cứ thời điểm nào một cách nhanh chóng, dễ dàng; Thứ năm là thuận lợi trong việc chia sẻ nguồn tài nguyên thông tin của thư viện với các thư viện khác. Thứ sáu là giảm thiểu tối đa sức người, sức của cho việc quản lý nguồn tài nguyên thông tin truyền thống; Thứ bảy là góp phần nhanh chóng tái tạo thông tin mới có giá trị gia tăng cao hơn.

Theo TS Trần Trọng Dương (Viện Nghiên cứu Hán Nôm), không chỉ về mặt học thuật mà cả về phương diện số hóa tư liệu, Việt Nam như một ốc đảo trong lòng thế giới.

Với nhiều nước trên thế giới, việc xây dựng cơ sở dư liệu toàn văn (full-text database) và minh bạch hóa các nguồn tư liệu lịch sử, nhất là các kho lưu trữ mật quốc gia, không có gì mới. Đạo luật Tự do thông tin của Mỹ, Ireland, Israel, Úc, Anh đã yêu cầu chính phủ các nước này phải công khai các tài liệu nội các sau 20-30 năm. Ngay cả Nga, một nước từ chối tham gia vào tổ chức OGP (Open Government Partnership – Hiệp hội chính phủ mở, nhằm thúc đẩy minh bạch hóa thông tin và xã hội dân sự của các quốc gia), thì đến năm 2013, nước này cũng công bố một trang web công khai nhiều tư liệu thời Xô - viết. Đó là kho tư liệu quý giá với những tài liệu về chiến tranh vệ quốc, về thời kỳ xã hội chủ nghĩa của Liên Xô dưới sự lãnh đạo của Stalin, cuộc chiến tranh chống tả khuynh, chống nhóm Bạch Vệ, những cải cách hợp tác xã...

Nhật Bản là một trong những quốc gia đầu tiên ở Đông Á tiến hành công nghệ số hóa sử liệu. Công việc này đã khởi động từ năm 1984 tại Trung tâm Biên soạn Sử liệu của Đại học Tokyo (Shiryohensanjo) với các cơ sở dữ liệu toàn văn của Văn thư thời Nara, Văn thư thời Heian, Văn thư thời Kamakura, Cổ ký lục, Cổ văn thư1. Từ năm 1990 đến 1998, Trung tâm Nghiên cứu Di sản Văn hóa Nara (Nabunken) được sự tài trợ của Chính phủ Nhật Bản đã xây dựng cơ sở dữ liệu mộc giản2 và liên tục cập nhật từ đó đến nay về nghiên cứu văn bản học và khảo cổ học. Đại học Meiji (Tokyo) đã và đang xây dựng cơ sở dữ liệu về “mặc thư thổ khí” (chữ viết bằng mực trên đồ gốm). Như vậy, Nhật Bản không chỉ số hóa và minh bạch hóa các nguồn sử liệu chữ viết bằng giấy, mộc bản, mà còn hướng đến các kho dữ liệu về các hiện vật khảo cổ học lịch sử (có chữ viết hay minh văn). Phong khí số hóa không chỉ trở thành phong trào trong các cơ quan nghiên cứu chuyên nghiệp mà còn lan rộng đến cả các tầng lớp bình dân, các cá nhân3.

Số hóa không chỉ dừng lại ở việc scan các tài liệu và đưa lên mạng. Trang Persee do Bộ Giáo dục, Cao học và Nghiên cứu của Pháp hiện nay có 500.000 nhóm tài liệu về khoa học xã hội và nhân văn (bao gồm 180.000 bài báo khoa học) và cho phép truy cập miễn phí. Mỗi năm, họ số hóa khoảng một triệu trang tài liệu. Những nhà nghiên cứu có thể tìm kiếm văn bản gốc được scan bằng các từ khóa tìm kiếm một cách dễ dàng nhờ phần mềm nhận diện văn tự. Với nguyên tắc khai thác về mặt sử liệu phải sử dụng những thông tin gốc bằng tiếng nguyên bản, những thư viện số như trên giúp cho những học giả tiếp cận với những thông tin chuẩn nhất, nguyên khối nhất trong thời gian ngắn nhất.

Một ví dụ khác là dự án “Tứ khố toàn thư điện tử bản” (“Tứ khố toàn thư” là một bộ Tùng thư được biên soạn thời vua Càn Long với hơn 36.000 quyển với khoảng 800 triệu lượt chữ Hán về lịch sử, chính trị, văn hóa, nghệ thuật, tư tưởng, triết học, y học của Trung Quốc). Dự án này được đầu tư 6,5 triệu USD và triển khai bởi một công ty trách nhiệm hữu hạn của Trung Quốc – Digital Heritage Publishing. Đầu tiên, với sự hợp tác của các trường đại học, thư viện, viện nghiên cứu và trung tâm công nghệ, họ tiến hành chấm câu, hiệu điểm, chú thích… và phát triển phần mềm nhận diện văn tự, chuẩn hóa mã chữ Unicode, để đánh lại tác phẩm vào máy tính một cách nhanh nhất (trên thực tế, con người chỉ phải đánh lại 1-2% nội dung của bộ tác phẩm này). Giao diện của “Tứ khố toàn thư điện tử bản” hiển thị song song văn bản được hiệu điểm với văn bản gốc (giống y hệt nhau về cách dàn trang và vị trí các từ) để các học giả có thể đối chiếu, so sánh và góp ý sửa chữa, đồng thời vẫn đảm bảo đúng nguyên tắc trích dẫn từ tài liệu nguyên gốc. Dự án này được thực hiện với sự hợp tác của gần 400 giáo sư và 4.000 kỹ sư sao chép văn bản trong thời gian 18 năm. Việc số hóa toàn bộ kho thư tịch này với gần năm triệu trang sách tiết kiệm cho mỗi nhà nghiên cứu về lịch sử Trung Quốc hàng nghìn năm đọc sách. Với mỗi từ khóa tìm kiếm, kết quả được trả về sẽ cho biết: từ này xuất hiện ở quyển nào, trang bao nhiêu, dòng thứ mấy, bản nào, do ai dịch, hiệu điểm và chú thích. Dựa theo đó, người nghiên cứu sẽ lần giở đọc lại được toàn bộ quyển sách hoặc chỉ một đoạn văn có chứa chi tiết này.

Việt Nam đang trở thành ốc đảo

Ở Việt Nam, công đoạn số hóa chủ yếu ở mức độ scan các thư tịch cổ và công khai trên mạng. Đây mới chỉ là mức độ thứ nhất trong công tác số hóa để lưu giữ ở các thư viện, kho lưu trữ có ý nghĩa chủ yếu là bảo tồn hiện vật, bảo tồn, nhân bản văn bản. Tuy nhiên, văn bản scan này chưa phải là bản phổ dụng vì bản khắc có thể khắc sai chữ, sai địa danh, nhân danh và những lỗi khác của người viết sử. Chúng ta vẫn chưa làm được công tác số hóa ở mức thứ hai. Đó là tổ chức các chuyên gia chấm câu (các văn bản Hán Nôm thường không có chấm câu), chú giải, hiệu điểm và dịch thuật và sau khi in thành sách thì chuyển sang giai đoạn số hóa, tích hợp với các công cụ tìm kiếm và nhận diện văn tự giống như “Tứ khố toàn thư điện tử bản” đã nói ở trên, hoặc sử dụng công nghệ nhận diện ký tự (OCR).

Cơ sở dữ liệu số hóa kho cổ tịch Hán Nôm của Thư viện Quốc gia là kho số hóa công khai đầu tiên ở nước ta. Tuy nhiên, kho này mới chỉ công bố các ảnh nguyên bản, chưa cho phép tra cứu toàn văn, chưa số hóa thành văn bản số. Trong khi, một số ít nhà nghiên cứu quan tâm chỉ có thể đọc lật từng trang trên mạng (do hạn chế về bản quyền), thì các hacker Trung Quốc và Việt Nam đã bẻ khóa và phát tán trên toàn cầu. Đây là một thực trạng khác của việc quản lý, sử dụng các cơ sở dữ liệu ở Việt Nam.

Ngoài ra, Viện nghiên cứu Hán Nôm với kho sách Hán Nôm chứa khoảng hai - ba triệu trang sách cũng đang thực hiện công tác số hóa hằng năm nhưng chưa có cơ chế nào để đưa vào sử dụng. Không chỉ các học giả nghiên cứu Hán Nôm, mà ngay các cán bộ viện cũng chưa được tiếp cận và sử dụng kho tư liệu đã được scan.Công tác số hóa thư tịch cổ của Việt Nam là một quá trình gian nan vì hai lí do: Thứ nhất, nước ta chưa có chủ trương minh bạch hóa các tài liệu cổ về địa lý, lịch sử. Thứ hai, công tác làm tư liệu vẫn bị coi nhẹ. Đa số vẫn làm tư liệu theo cách tập hợp các kỷ yếu hội thảo của các nhà khoa học về một vấn đề nào đó dựa trên một vài tài liệu gốc sưu tập được. Tập kỷ yếu có thể dài hàng trăm trang nhưng thực chất chỉ là “xào xáo” từ số tài liệu ít ỏi kia. Như vậy, chúng ta không coi việc làm cơ sở dữ liệu là làm khoa học mà chỉ đề cao việc viết bình tán, cảm thán văn chương và cảm hứng lịch sử. Trong khi đó, xây dựng cơ sở dữ liệu với hàng ngàn tư liệu (cả văn bản gốc và văn bản được dịch, hiệu điểm, chú thích) được số hóa kết hợp các công cụ tìm kiếm để phục vụ nghiên cứu có giá trị hơn rất nhiều so với việc tổ chức những hội thảo kiểu như trên.

TH

Thông tin website

Chuyên trang Bản tin khoa học công nghệ.
Thực hiện : Phòng Khoa học - Công nghệ, Trung Tâm CNTT, BộVăn hoá,Thể thao & Du lịch.
Người chịu trách nhiệm chính: Nguyễn Thanh Liêm - Giám đốc.

Địa chỉ: Ngõ 2 số 20, Vân Hồ, Hoa Lư, Hà Nội;
Tel: 0243 9745845
Email: khoahoccongnghe@cinet.gov.vn
Ghi rõ nguồn khi phát lại thông tin từ website này.

Liên hệ Tòa soạn