跳转到主要内容

支持的语言

rosetta 内置了 Language Cards —— 涵盖 42 种以上语言的结构化参考文件。每张卡片包含语域预设、正式度系统元数据、方法支持标志和书写系统信息。你的 LLM 掌握的任何语言都可以通过一行配置来添加 —— 这些是经过精心整理、可直接用于生产环境的语域。


翻译方法

每种语言可以使用以下一种或多种翻译方法:

图标方法工作原理成本
🟢Google Translate神经机器翻译基线。支持 130 多种语言。仅支持键值对字符串 —— 无法安全地翻译 Markdown 内容。约 $20/100万字符
🔵LLM (OpenRouter)模型掌握的任何语言。由语域引导的提示词。支持处理键值对和 Markdown 内容。因模型而异
🟣LLM-CoachedLLM + 语法词典 + 注入提示词的辅导数据。最适合形态复杂的语言。因模型而异
🟠API (Plugin)社区托管的翻译流水线,通过 HTTP 提供服务。兼容 OCAP因提供商而异

GOOGLE_TRANSLATE_API_KEY 设置为 Google Translate,或将 OPENROUTER_API_KEY 设置为 LLM 方法。有关完整详细信息,请参阅翻译方法


优先语言

这些是 Web 和移动应用中最常用的区域设置,按 rosetta 推荐的无障碍优先顺序排列。

国旗语言代码GoogleLLMCoached书写系统备注
🇸🇦阿拉伯语ar从右到左 (RTL)。现代标准阿拉伯语 (فصحى)。
🇵🇭菲律宾语 (Taglish)tl语码转换:以他加禄语为主,专业术语使用英语。
🇫🇷法语frVous 形式。性别包容 (Connecté·e)。
🇪🇸西班牙语es中性拉丁美洲西班牙语。
🇩🇪德语deSie 形式。性别包容 (Benutzer:innen)。
🇯🇵日语ja正文使用 です/ます,UI 标签使用 する。
🇨🇳中文(简体)zh简体中文。
🇮🇹意大利语itLei 形式。
🇧🇷葡萄牙语 (巴西)pt巴西葡萄牙语。
🇰🇷韩语ko해요체 敬语语域。

主要世界语言

国旗语言代码GoogleLLMCoached书写系统备注
🇧🇩孟加拉语bn偏好 শুদ্ধ ভাষা。
🇧🇬保加利亚语bg
🇨🇿捷克语csVykání (vy 形式)。
🇩🇰丹麦语da
🇬🇷希腊语el现代 Δημοτική。
🇮🇷波斯语fa从右到左 (RTL)。
🇫🇮芬兰语fi无语法性别。
🇮🇱希伯来语he从右到左 (RTL)。
🇮🇳印地语hiशुद्ध हिन्दी。极少英语外来词。
🇭🇺匈牙利语huÖn 形式。
🇮🇩印尼语id
🇲🇾马来语ms
🇳🇱荷兰语nlU 形式。
🇳🇴挪威语nb书面挪威语 (Bokmål)。
🇵🇱波兰语plPan/Pani 形式。
🇵🇹葡萄牙语 (欧洲)pt-PT欧洲葡萄牙语。
🇷🇴罗马尼亚语ro
🇷🇺俄语ruВы 形式。
🇸🇰斯洛伐克语skVykanie (vy 形式)。
🇷🇸塞尔维亚语sr🔤 拉丁字母→西里尔字母确定性书写系统转换器。
🇸🇪瑞典语sv
🇰🇪斯瓦希里语sw
🇹🇭泰语thครับ/ค่ะ 敬语助词。
🇹🇷土耳其语trSiz 形式。
🇺🇦乌克兰语ukВи 形式。
🇵🇰乌尔都语ur从右到左 (RTL)。آپ 形式。
🇻🇳越南语vi
🇹🇼中文(繁体)zh-TW繁體中文。

地区变体

国旗语言代码GoogleLLMCoached书写系统备注
🇲🇽墨西哥西班牙语es-MXTú 形式。温暖的语域。
🇨🇦加拿大法语fr-CA魁北克习语。

原住民与低资源语言

这些语言不受商业机器翻译 (MT) 服务的支持。rosetta 为语言社区提供了在 OCAP 原则下构建自有方法的工具。

语言代码GoogleLLMCoached书写系统状态
🪶平原克里语crk🔤 SRO→音节文字🚧 开发中

:::info 平原克里语正在积极开发中 平原克里语的语域、辅导基础设施、书写系统转换器和评估工具均已可用,但翻译流水线尚未发布。我们正在 OCAP 原则下与语言社区合作,以确保发布前的质量。有关完整背景以及如何参与贡献,请参阅支持低资源语言。 :::

:::tip 添加更多低资源语言 rosetta 的方法插件系统正是为此设计的。语言社区可以构建自定义翻译方法,在自己的控制下托管,并通过 API 方法提供服务。方法排行榜跟踪任何语言对的分数 —— 构建一个方法,运行评估工具,并争取最高分。 :::


人造语言

人造语言 (Conlangs) 通过 LLM 语域和可选的书写系统转换器提供支持。它们使用与真实语言相同的基础设施 —— 质量门禁、辅导系统和书写系统转换流水线的工作方式完全相同。

语言代码GoogleLLM书写系统备注
🖖克林贡语tlh🔤 罗马化→pIqaD需要 PUA 字体。Marc Okrand 词汇。
🧝辛达林语 (托尔金精灵语)x-elvish-s🔤 拉丁字母→腾格瓦字母需要 CSUR PUA 字体。
🏴‍☠️海盗英语x-pirate仅语域。航海隐喻。
🦸氪星语x-kryptonian🔤 拉丁字母→氪星字母需要 PUA 字体。
🎭莎士比亚英语x-shakespeare仅语域。Thee/thou,-eth/-est 形式。
🐸尤达语x-yoda仅语域。OSV(宾主谓)语序。

有关 PUA 字体要求、Unicode 限制以及如何添加你的人造语言,请参阅人造语言、书写系统与正字法


语言预设

init 向导支持使用预设名称进行快速设置。你可以将预设与单独的代码混合使用。

预设扩展为
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
i18n-rosetta init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

添加任何语言

rosetta 可以翻译成你的 LLM 掌握的任何语言 —— 上表仅列出了具有内置语域预设的语言。要添加未列出的语言,请在配置中包含其 BCP-47 代码:

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

LLM 将使用其对该语言的训练知识进行翻译。设置 register 可以让你控制语气、正式程度和正字法惯例。有关详细信息,请参阅配置


语言卡片

每种内置语言都有一个 Language Card —— 位于 lib/data/language-cards/ 中的 JSON 文件,包含:

字段包含内容
正式度系统T-V 区分、敬语级别、敬语 (keigo)、助词等。
语域预设针对该语言特性的命名预设
方法支持哪些翻译 API 支持该语言
性别指南语法性别规则和包容性写作提示
书写系统/方向ISO 15924 书写系统代码和 RTL/LTR
评估数据集哪些基准测试涵盖该语言

使用预设键

你可以使用预设键名,而无需编写完整的语域文本:

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

Rosetta 会将该键解析为完整的语域提示词。运行 npx i18n-rosetta init 以查看每种语言的可用预设。

预设示例

语言预设默认值
法语formal-vous, casual-tuformal-vous
韩语polite-haeyo, formal-hapsyo, casual-haepolite-haeyo
日语polite, formal-keigo, casualpolite
德语formal-Sie, casual-duformal-Sie
泰语neutral-professional, polite-male, polite-femaleneutral-professional
西班牙语neutral-professional, formal-usted, casual-tuteoneutral-professional

有关如何添加或改进预设,请参阅贡献语言卡片


另请参阅