i18n-rosetta v3.0.0: Kiến trúc dịch thuật theo từng cặp
i18n-rosetta v3.0.0 giới thiệu kiến trúc dịch thuật theo từng cặp — tính năng cốt lõi của toàn bộ hệ thống.
Những thay đổi
Các phiên bản trước sử dụng một phương pháp dịch duy nhất cho tất cả các cặp ngôn ngữ. v3.0.0 loại bỏ sự ràng buộc đó: mỗi cặp nguồn→đích có thể sử dụng một phương pháp, mô hình và cấu hình chất lượng khác nhau.
{
"version": 3,
"pairs": {
"en:fr": { "method": "google-translate" },
"en:ja": { "method": "llm", "model": "google/gemini-2.5-pro" },
"en:crk": { "methodPlugin": "crk-coached-v1" }
}
}
Tại sao lại theo từng cặp?
Kiến trúc này ra đời vì một dự án cần dùng Google Translate cho tiếng Pháp và một pipeline FST được huấn luyện cho một ngôn ngữ bản địa, chạy song song trong cùng một lệnh sync.
Google Translate hỗ trợ ~130 ngôn ngữ. Trên thế giới có hơn 7.000 ngôn ngữ. Hệ thống theo từng cặp đồng nghĩa với việc rosetta có thể mở rộng để hỗ trợ bất kỳ ngôn ngữ nào — bạn chỉ cần một phương pháp hoạt động hiệu quả cho cặp ngôn ngữ đó.
Các điểm nổi bật khác
- Hệ thống plugin — Cài đặt các phương pháp dịch được đóng gói sẵn từ eval harness
- Config version 3 — Schema mới với khả năng ghi đè ở cấp độ cặp
- Các cấp độ chất lượng — Standard, High, Research, Verified — được hiển thị theo từng cặp trong
status
Xem Tài liệu kiến trúc để biết thiết kế của toàn bộ hệ sinh thái.