Chào mừng bạn đến với Tranonet ! Dữ liệu mới được update là 10.000 đơn vị ngôn ngữ về các lĩnh vực : người, động vật, thực vật, vật, khái niệm (10.000 đơn vị ngôn ngữ >30.000 từ )

Tranonet - Giải pháp tốt nhất

Phần mềm dịch tự động đã được nhiều công ty phát triển. Chất lượng của các sản phẩm đó chưa đáp ứng được nhu cầu của người dùng. Tranonet có thể chứng minh được chất lượng vượt trội của mình. Hai bằng sáng chế của Tranonet khắc phục được các hạn chế kỹ thuật hiện tại. Các sáng chế đó là:
- Phương pháp lưu trữ dữ liệu ngôn ngữ đa năng
- Phương pháp dịch máy không đồng bộ - dịch máy không liên tục.
Số đơn đăng ký sáng chế tại Việt nam theo thứ tự là 1-2014-02899 và 1-2014-02900 (phát triển từ 2 đơn 1-2012-02583 và 1-2013-00545) . Đăng ký PCT với các số đơn lần lượt là PCT/VN2015/000011 và PCT/VN2015/000010

Phương pháp lưu trữ văn bản hiện nay :
   Lưu trữ giá trị tương ứng với chữ cái đó trong bảng mã ký tự. Điều đó có nghĩa là phải phụ thuộc vào kiểu bảng mã ký tự. Hiện tại dù chuẩn bảng mã Unicode đang phổ biến nhưng ngay chính Unicode cũng có nhiều dạng. Như trong tiếng Việt tuy đều sử dụng bảng mã Unicode nhưng cũng có 2 cách sử dụng bảng mã đó là Unicode tổ hợp và Unicode dựng sẵn. Việc dùng bảng mã thay cho chữ viết nên cũng không thể lưu trữ được đồng thời từ loại (cần phải phân tích mới xác định được). Để lưu trữ một từ thì ta phải sử dụng một tập hợp các giá trị tương ứng với các giá trị trong bảng mã. Tập hợp các giá trị này có độ dài không xác định và thường tốn hơn 4 byte để lưu trữ. Trong quá trình tìm kiếm văn bản (thông tin), tốc độ và chất lượng tìm kiếm phụ thuộc độ dài của đoạn văn bản cần tìm kiếm, độ lớn của cơ sở dữ liệu và kiểu bảng mã của dữ liệu.

   Với các ngôn ngữ khác nhau thì cùng 1 đối tượng thì có các tập hợp giá trị khác nhau và không có mối liên kết nào. Ví dụ cùng là chỉ đối tượng tiếng Việt thì là "ô tô" nhưng tiếng Anh thì là "car". Trong 1 ngôn ngữ cụ thể thì vấn đề những từ đồng âm nhưng khác nghĩa tạo lên sự nhập nhằng nghĩa gây khó khăn cho quá trình dịch. Những từ đồng nghĩa khi lưu trữ bằng phương pháp cũ cũng không có sự liên kết nào với nhau.

Phương pháp lưu trữ dữ liệu ngôn ngữ đa năng : Kiểm tra
   Sáng chế đề xuất sử dụng các biến 32bit để lưu trữ. Biến này được chia thành 2 phần: phần điều khiển và phần dữ liệu(phần dữ liệu = phần cố định và phần thay đổi. Có kết cấu gần giống 1 địa chỉ IP)
   Phần điều khiển : Dùng để thay đổi độ rộng và đặc điểm dữ liệu của phần cố định và phần thay đổi.Còn dùng để xác định ngôn ngữ nào đang được lưu trữ, từ loại thuộc loại gì và mối liên hệ với các giá trị kế tiếp.(Các tác động này ảnh hưởng giống nhau với tất cả các ngôn ngữ)
   Phần cố định : Dùng để xác định các đối tượng khác nhau(từ "ô tô" trong tiếng Việt...từ "car" trong tiếng Anh có cùng 1 giá trị duy nhất-đối tượng duy nhất. Phần điều khiển sẽ xác định thêm danh từ số ít hay nhiều, thì động từ...). Khi bị phần điều khiển tác động có thể trở thành bảng mã Unicode(Phần này giống nhau với mọi ngôn ngữ. Các từ đồng âm khác nghĩa có các giá trị khác nhau. Không phải là lưu trữ các ký tự nên có thể chấp nhận các tín hiệu thông tin khác, hay chấp nhận việc định nghĩa lại chính các giá trị của kiểu dữ liệu này và độc lập hoàn toàn với bảng mã )
   Phần thay đổi : Dùng để ghi lại các đặc trưng của đối tượng được ghi trong phần cố định và các đặc trưng của từng ngôn ngữ.(Mỗi ngôn ngữ thì có cách sử dụng phần này khác nhau. Các từ đồng nghĩa có cùng phần cố định và khác nhau ở phần thay đổi). Dữ liệu phần này có thể mở rộng theo nhu cầu riêng của từng ngôn ngữ, của từng mục đích sử dụng dữ liệu.
Khi module ngôn ngữ A gặp dữ liệu cần sử lý sẽ có 2 trường hợp xảy ra nếu dữ liệu đó được tạo ra từ ngôn ngữ A trước đó thì quá trình khôi phục dữ liệu sẽ được diễn ra theo kiểu ánh xạ 1:1 các thông tin trả về đúng với dữ liệu ban đầu (phần thay đổi sẽ được sử dụng). Còn nếu dữ liệu đó xuất phát từ ngôn ngữ B (khác A) thì các thông tin sẽ được khôi phục 1 phần (phần thay đổi không được sử lý - các dữ liệu cần thiết khác sẽ được tự động cập nhật ). Có thể so sánh như sau cách lưu trữ cũ là lưu trữ theo ký tự còn sáng chế lưu trữ theo đơn vị ngôn ngữ( từ,cụm từ...) dưới dạng qui ước (không phải bằng bảng mã). Bảng mã Unicode chứa đựng "tất cả" các ký tự của các ngôn ngữ, còn trong sáng chế thì nó chứa đựng "tất cả" các đơn vị ngôn ngữ của các ngôn ngữ (tập hợp thông tin). Kiểm tra

Các phương pháp dịch máy hiện nay :
    Dịch máy dựa trên thống kế(phương pháp chủ yếu hiện nay), dịch máy dựa trên ví dụ, dịch máy dựa trên luật hay còn gọi là phương pháp tiếp cận dịch thuật trực tiếp, phương pháp dịch máy dựa trên cơ sở khối liệu ngôn ngữ. Việc dịch trong các phương pháp đó là một quá trình liên tục. Nên các phương pháp dịch đó có các hạn chế sau:
  -  Không thể dịch trực tiếp đa ngôn ngữ. Các chương trình hiện nay giới thiệu khả năng dịch đa ngôn ngữ thực chất là việc thực hiện nhiều lần quá trình dịch song ngữ.
  -  Không thể diễn ra trên các hệ thống thiết bị khác nhau. (Ví dụ không thể triển khai việc dịch trên một máy chủ và một máy client). Và cũng không thể diễn ra trên hai ứng dụng khác nhau.
  -  Không thể độc lập phát triển khả năng dịch một ngôn ngữ mới. (Luôn phải tồn tại một cặp song ngữ.)
  -  Nếu độ khó ngôn ngữ A là M và độ khó ngôn ngữ B là N. Thì quá trình dịch ngôn ngữ A sang ngôn ngữ B sẽ có độ khó là M.N (M nhân N).

Dịch máy không đồng bộ - dịch máy không liên tục : Kiểm tra
    Dựa vào các đặc điểm của phương pháp lưu trữ dữ liệu ngôn ngữ đa năng(DLNNDN) sáng chế đề xuất phương pháp dịch máy 2 giai đoạn: Giai đoạn 1 chuyển dữ liệu ngôn ngữ A thành DLNNDN(gọi hàm Txt2WLSToNow), giai đoạn 2 chuyển DLNNDN thành dữ liệu ngôn ngữ X (gọi hàm NowToWLS2Text), 2 giai đoạn này độc lập với nhau. DLNNDN là những giá trị xác định việc phân phối dữ liệu đến các module sử lý là như nhau, có dạng 1 -> M nên nó khả năng dịch đa ngôn ngữ.
    Vì DLNNDN là dữ liệu số lên ta có thể truyền từ các ứng dụng trong 1 hệ thống cho nhau, hoặc giữa các hệ thống khác. Ví dụ 1 trang web có chứa DLNNDN. Sau khi web browser load dữ liệu đó về và gọi hàm NowToWLS2Text (có thể là 1 thành phần của hệ điều hành)để lấy về văn bản text theo ngôn ngữ yêu cầu và hiện trở lại trên web page.
    Để phát triển 1 module mới chúng ta có thể lựa chọn việc phát triển 2 hàm Txt2WLSToNow, NowToWLS2Text tùy theo nhu cầu. Ví dụ ta chỉ muốn hiện tiếng Việt thì ta chỉ cần phát triển hàm NowToWLS2Text,không cần quan tâm đến hàm xử lý ngôn ngữ tự nhiên của các ngôn ngữ-Txt2WLSToNow. Các hàm đã phát triển được sử dụng lại mà không cần phát triển mới.
    Như đã nói về đặc điểm của DLNNDN thì các từ đồng nghĩa có cùng 1 giá trị nhận dạng ở phần cố định và các từ đa nghĩa được tách ra để mỗi nghĩa có 1 giá trị. Như vậy sau giai đoạn 1 thì sẽ không còn các từ đồng nghĩa và đa nghĩa, kiểu M->1.Giai đoạn 2 đơn giản là việc chuyển đổi theo kiểu 1-> N để trả về kết quá. Như vậy 2 qua trình dịch đó có độ khó kiểu M+N . Còn nếu với các phương pháp hiện nay thì độ khó sẽ là M.N (M nhân N). Một cách nhìn dễ quan sát là với việc phát triển 1 phần mềm dịch Việt-Anh truyền thống thì cần phải có 1 người giỏi đồng thời cả tiếng Việt và tiếng Anh. Còn trong cách dịch mới thì chỉ cần 1 người giỏi tiếng Việt, 1 người giỏi tiếng Anh việc tìm người chắc chắn sẽ dễ hơn. Kiểm tra



Tranonet - Mong muốn được cộng tác và giúp đỡ của các bạn