VI | EN
32 . Mấy nhận xét về công nghẹ xử lý đa văn tự trên máy tính (TBHNH 1998)
TBHNH 1998

MẤY NHẬN XÉT VỀ CÔNG NGHỆ

XỬ LÝ ĐA VĂN TỰ TRÊN MÁY TÍNH

NGÔ THẾ LONG

Viện Nghiên cứu Hán Nôm

1. Mở đầu

Xu thế nội nhập toàn cầu về kinh tế và văn hóa trong thế kỷ tới là không thể đảo ngược. Trong hợp tác và phân công lao động quốc tế, một nước có số dân 80 triệu không thể chỉ ăn nhờ, hoặc chỉ đóng góp bằng ngày công lao động giản đơn để được trả công với giá bèo bọt... Nếu mãi mãi không trả được nợ, sẽ dẫn đến lệ thuộc nước ngoài, để cho người ngoài can thiệp và quyết định đường hướng kinh tế của quốc gia, nhưng một vài nước láng giềng trong cuộc khủng hoảng vừa qua đã phải gánh chịu. Để cho cạnh tranh nội bộ khốc liệt xảy ra khắp nơi sẽ dẫn tới phá huỷ nội lực của dân tộc mình. Hội nhập trong một tình thế như vậy sẽ không giữ được chủ quyền và bản sắc, mất ổn định, khác nào cho chân vào tròng. Điều đó không ai mong muốn. Chúng ta thiếu vốn và thiếu công nghệ, thiếu tri thức, kinh nghiệm... thì phải vay mượn và ra sức học tập, thì mới giữ được độc lập. Học xưa là vì nay. Học ngoài là vì trong. (“khi bình thì khoan nới sức dân để làm kế sâu rễ bền gốc” chẳng phải là điều ta có thể học được ở người xưa sao?; Không để đồng vốn chết, luôn xoay vòng để tái sản xuất ra giá trị mới - đó chẳng phải là điều ta học được ở bên ngoài sao ?). Để cho sản phẩm của Việt Nam có hàm lượng chất xám cao, có sức cạnh tranh và để xây dựng xã hội mới ta càng phải học. Đó là con đường hội nhập đúng đắn mà Đảng mở ra. Nhà nước ta đang tiến hành cuộc vận động chuyển dịch cơ cấu kinh tế để phát huy nội lực, hiện đại hoá, mục đích làm cho “Dân giàu, nước mạnh, xã hội công băng, văn minh…”. Công nghệ thông tin xử lý đa văn tự là một công cụ có thể hỗ trợ đắc lực cho công cuộc học tập, hội nhập để phát triển của dân tộc ta.

2 - Công nghệ xử lí chữ tượng hình (cũng gọi là văn tự biểu ý) hiện có 113 dân số thế giới sử dụng đang được phát triển. Chúng ta sống trong cùng khu vực văn hoá và đang cần giao dịch với các thị trường quen thuộc và quan trọng đối với ta như Trung Quốc, Hồng Kông. Singapo, Đài Loan, Nhật Bản, Hàn Quốc, là những xứ sở có dùng chữ Hán. Hiện nay trên thế giới đã có tới 5 triệu máy tính nối mạng mà dùng chữ Hán. Ta không sử dụng công nghệ này để giao tiếp là bỏ phí khả năng công nghệ và tự cô lập mình, chứ chẳng ai bao vây cấm vận ta cả. Công nghệ xử lí chữ Hán trong truyền thông ta cần phải nắm được để phục vụ cho công cuộc nâng cao dân trí, tiếp thu văn hoá khoa học từ bên ngoài và tìm lại bản sắc dân tộc của mình. Thời gian vừa qua chúng ta tham gia học tập, sử dụng dần dần từ ít đến nhiều. Hiệu quả đang tăng lên theo nhu cầu thực tế. Tuy nhiên sự phổ cập còn chưa được sâu rộng, chưa tương xứng với sự phát triển của côngnghệ (nói phổ cập tức là làm cho dễ dùng, đồng thời tạo điều kiện cho nhiều người dùng).

Chúng ta đang sử dụng chữ Quốc ngữ thuộc hệ Latinh làm văn tự chính thống. Chữ Quốc ngữ, một mình nó cũng đã là khó dùng trong các lĩnh vực công nghệ truyền thông. Nay nếu muốn hội nhập đầy đủ trong một hệ thống xử lí đa văn tự, kể cả chữ Hán và chữ Nôm thì càng khó khăn hơn.

3. Theo ý chúng tôi, đã đến lúc đặt vấn đề nghiên cứu một hệ trình dịch máy giữa Trung văn và Việt văn. Công việc có khó khăn và đòi hỏi đầu tư nhiều. Nhưng chắc chắn nó sẽ đem lại hiệu quả lớn vì số người sử dụng sẽ rất nhiều.Chúng ta đã biết châu Âu có hệ dịch máy liên hoàn 9 ngôn ngữ; từ năm 1992 đã có sự phối hợp nghiên cứu dịch máy văn bản giữa Trung Quốc và Thái Lan. Nước ta đã có 2 nhóm nghiên cứu dịch máy Anh - Việt. Vậy trong lúc này Nhà nước nên đặt vấn đề hợp tác nghiên cứu dịch máy Trung - Việt để đáp ứng yêu cầu giao lưu của nhân dân các nước hữu quan.

Trước khi đi tới làm công trình lớn như vậy, cần những tiền đề như: bộ mã kí tự ổn định, trình độ khoa học công nghệ của 2 bên, nhu cầu trao đổi thông tin... Những cái đó hiện nay, theo chúng tôi là đã có.

Vấn đề dịch máy tự động Hán - Việt là vấn đề lớn, và thích hợp với chức năng của ngành Tin học, nhưng hiện nay chưa nơi nào đặt vấn đề làm. Việc này chính là cần phối hợp giữa ngành Công nghệ Thông tin và ngành Ngôn ngữ thuộc Khoa học xã hội. Những cố gắng sau đây, theo tôi cũng đúng hướng và nên khuyến khích. Chẳng hạn: làm các công cụ tra cứu trên máy để giúp người dịch thuật và thâm nhập văn bản nhanh hơn làm thủ công. Hoặc là giảm thao tác khi tra cứu: từ chỗ tra cứu phải gõ cả xâu chữ (gõ một xâu chữ Hán càng khó hơn gõ một xâu Quốc ngữ hay Latinh), nay chỉ cần “bôi đen” hay “đưa con trỏ vào chữ ấy” cũng có thể tra cứu được, vân vân... Mỗi phút cải tiến để tăng năng suất, tiết kiệm thời gian lao động, vận dụng công nghệ đem lại hiệu quả cụ thể, nâng cao thêm chất lượng học tập và công tác của chúng ta là một bước rút ngắn khoảng cách tụt hậu về trí thức của ta với thế giới... Những bước tiệm tiến, khắc khổ ta vẫn phải làm. Nhưng có những thời khắc bắt buộc phải đầu tư công sức thích đáng để sớm đạt những bước nhảy vọt cho khoa học... Đề nghị các cấp có thẩm quyền, các nhà quản lý khoa học cần lưu tâm xem xét. “Trông giỏ bỏ thóc” sao cho trúng thời cơ: đầu tư vừa phải, mà hiệu quả có sức lan toả lớn. Không nên dàn trải mênh mông để chỉ đưa lại một số sản phẩm “xếp xó”, ít tác dụng, thậm chí “không dám đem ra trình làng”...

4. Các ứng dụng chuyên biệt trên nền bộ mã chung: Cơ sở dữ liệu của viện không phải chỉ để phục vụ riêng cho viện, mà còn dùng cho Khoa học xã hội Việt Nam, vì vậy nó không phải là thứ dùng riêng nữa, và đương nhiên trong đó phải có chữ Hán, chữ Nôm và chữ Quốc ngữ.

Hiện nay một hệ thống hội nhập đầy đủ các thứ chữ đó ta chưa có, và cũng đã đến lúc cần phải xây dựng rồi.

Từ trước tới nay chúng ta hoặc là sử dụng mã chữ Hán chỉ trong phạm vi hẹp và tạm thời, in xong là xoá đi, như soạn thảo văn bản (trong hệ WINWORD chứ chưa trong một hệ quản trị lưu trữ dữ liệu), hoặc là dùng ảnh thay chữ để khỏi bị tranh chấp mẫu, hoặc cải tạo sửa chữa một vài hệ của bên ngoài để dùng tạm thời. Mỗi khi bên ngoài người ta nâng cấp, điều chỉnh thì mình lại phải chờ đợi hoặc chạy theo, rất lúng túng. Vì những hệ ấy họ không chế tạo để đáp ứng yêu cầu của ta. Hiện nay lực lượng kỹ thuật trong nước đã có thể xây dựng một hệ đa ngữ dùng cho ta. Nếu do ta xây dựng thì ta có thể chủ động sửa chữa, nâng cấp khi cần. chứ không bị phụ thuộc bên ngoài. Hệ thống này cần phục vụ các yêu cầu lưu trữ thông tin và các xử lý cao cấp khác của ta. “Nền móng chưa xong thì chưa thể cất những công trình trên đó được”!

Bảng mã UNICODE đã công bố từ năm 1993. Các hãng lớn có các sản phẩm hỗ trợ bảng mã ấy. Nhưng họ cũng quy chiếu về bộ mã cụ thể của các nước sử dụng. Chẳng hạn mới đây nhất, tháng 10/1998, hãng Microsoft đưa ra hệ điều hành NT - 5.0 hỗ trợ mã UNICODE, nhưng cũng ánh xạ về mã thực của bộ font Mingli của Đài Loan, và font Simhei của Đại lục. (Tìm chữ “nhất” trong font vẫn thấy ở địa chỉ A440 (theo mã BIG - 5) chứ không phải ở địa chỉ 4E00 (theo mã UNICODE). (Trung Quốc có cách giải quyết bằng cách dùng mã UNICODE nhưng “quốc tiêu hoá” đi). Những địa chỉ còn dư vẫn chưa được khai thác.

Như vậy ta thấy rằng xây dựng ra Bộ mã chung là một việc, còn đưa vào sử dụng nó lại là một việc khác. Tổ chức chuẩn hoá quốc tế ISO khuyến khích các quốc gia dùng các chuẩn chung, nhưng họ không phải là một hãng kinh doanh nên không có nhiệm vụ đáp ứng yêu cầu của khách hàng. Chính các hãng và các quốc gia phải làm ra các sản phẩm đáp ứng yêu cầu của mình. Nếu ta ngồi chờ quốc tế làm cho là cách nghĩ không đúng với thực tế.

5. Về kinh nghiệm lựa chọn phần mềm và giải pháp:

+ Chúng tôi nghĩ nên tuỳ theo phạm vi và lĩnh vực ứng dụng: có cái dùng trong phạm vi lĩnh vực này thì tốt, nhưng sang lĩnh vực khác lại xảy ra những điều bất cập. Chẳng hạn: Nếu chỉ dùng để hiển thị, in ấn thì một font chữ Hán có thể để một chữ ở 2 địa chỉ khác nhau. Nhưng nếu dùng để quản trị dữ liệu thì, làm như vậy sẽ không thể tìm kiếm và thống kê chính xác được. Hay như hệ cơ sở dữ liệu quen dùng ở Việt Nam là Foxpro, nếu để quản trị dữ liệu trong mạng cục bộ có khoảng cách gần thì tốt, nhưng dùng để bán vé máy bay qua mạng NOVELL ở 2 sân bay xa nhau thì đã gặp vấn đề: phải 20 phút sau mới hiện kết quả. Do đó dễ bị bán vé trùng chỗ...Hoặc như hệ ACCESS được cải tiến rất nhanh, nhiều lần được bình chọn là sản phẩm tốt. Nhưng gần đây lại có tin chính hãng sản xuất muốn ngưng lại, ("bỏ cho tuyệt diệt như loài khủng long”) có lẽ vì nó kềnh càng, do có lắm “đồ nghề” đi kèm, và khi quản tới 10 nghìn trang hồ sơ dễ phát sinh lỗi khó tìm, vân vân... Trước nay đa số các phần mềm ứng dụng chạy dưới hệ điều hành DOS hoặc WINWDOWS 16 bit, và chưa vào mạng INTERNET cũng như INTRANET (mạng nội hạt), chúng chưa phát sinh các lỗi. Nay đưa vào môi trường mới, các nhược điểm đã lộ ra, vì vậy người ta phải cải tiến là lẽ đương nhiên. Ta chọn sử dụng những gì thích hợp với ta, và ta có thể cải biên, làm chủ, hoặc tự ta viết lấy được là tốt nhất. Muốn vậy, cần đâu tư một chút để tìm hiểu và đào tạo chuyên viên của mình để đảm bảo duy trì hoạt động và phát triển các công cụ cần thiết trong phạm vi hẹp.

Thông báo Hán Nôm học 1998 (tr.264-269)

Ngô Thế Long
Thống kê truy cập
  • Đang online: 1
  • Hôm nay: 1
  • Trong tuần: 1
  • Tất cả: 1
VIỆN HÀN LÂM KHOA HỌC XÃ HỘI VIỆT NAM - VIỆN NGHIÊN CỨU HÁN NÔM

Địa chỉ: 183 Đặng Tiến Đông - Đống Đa - Hà Nội
Email: hannom.vass@gmail.com
Tel: 84 24. 38573194
Chịu trách nhiệm nội dung: Viện Nghiên cứu Hán Nôm