対応言語
rosettaには、42以上の言語に対応した構造化リファレンスファイルであるLanguage Cards(言語カード)が同梱されています。各カードには、レジスター(使用域)のプリセット、フォーマル度システムのメタデータ、メソッドのサポートフラグ、および文字スクリプト情報が含まれています。LLMが学習している言語であれば、設定を1行追加するだけで任意の言語を追加できます。ここに挙げているのは、本番環境ですぐに使えるように調整されたレジスターを持つ言語です。
翻訳メソッド
各言語では、以下の1つ以上の翻訳メソッドを使用できます。
| アイコン | メソッド | 仕組み | コスト |
|---|---|---|---|
| 🟢 | Google Translate | ニューラル機械翻訳のベースライン。130以上の言語に対応。キーと値の文字列のみ対応(Markdownコンテンツを安全に翻訳することはできません)。 | 約$20/100万文字 |
| 🔵 | LLM (OpenRouter) | モデルが学習している任意の言語に対応。レジスターで制御されたプロンプト。キーと値のペアおよびMarkdownコンテンツを処理します。 | モデルにより異なる |
| 🟣 | LLM-Coached | LLM + 文法辞書 + プロンプトに注入されるコーチングデータ。形態論的に複雑な言語に最適です。 | モデルにより異なる |
| 🟠 | API (Plugin) | HTTP経由で提供される、コミュニティホスト型の翻訳パイプライン。OCAP互換。 | プロバイダーにより異なる |
Google Translateの場合はGOOGLE_TRANSLATE_API_KEYを、LLMメソッドの場合はOPENROUTER_API_KEYを設定します。詳細については、翻訳メソッドを参照してください。
優先言語
これらは、Webおよびモバイルアプリケーションで最も一般的にリクエストされるロケールであり、rosettaが推奨するアクセシビリティ優先の順序でリストされています。
| 国旗 | 言語 | コード | LLM | Coached | スクリプト | 備考 | |
|---|---|---|---|---|---|---|---|
| 🇸🇦 | アラビア語 | ar | ✅ | ✅ | ✅ | — | RTL。現代標準アラビア語(فصحى)。 |
| 🇵🇭 | フィリピン語 (Taglish) | tl | ✅ | ✅ | ✅ | — | コードスイッチング: タガログ語主体、専門用語は英語。 |
| 🇫🇷 | フランス語 | fr | ✅ | ✅ | ✅ | — | Vousフォーム。ジェンダーインクルーシブ(Connecté·e)。 |
| 🇪🇸 | スペイン語 | es | ✅ | ✅ | ✅ | — | ニュートラルなラテンアメリカ・スペイン語。 |
| 🇩🇪 | ドイツ語 | de | ✅ | ✅ | ✅ | — | Sieフォーム。ジェンダーインクルーシブ(Benutzer:innen)。 |
| 🇯🇵 | 日本語 | ja | ✅ | ✅ | ✅ | — | 本文は「です/ます」調、UIラベルは「する」調。 |
| 🇨🇳 | 中国語 (簡体字) | zh | ✅ | ✅ | ✅ | — | 简体中文。 |
| 🇮🇹 | イタリア語 | it | ✅ | ✅ | ✅ | — | Leiフォーム。 |
| 🇧🇷 | ポルトガル語 (ブラジル) | pt | ✅ | ✅ | ✅ | — | ブラジル・ポルトガル語。 |
| 🇰🇷 | 韓国語 | ko | ✅ | ✅ | ✅ | — | 해요체(ヘヨ体)の丁寧なレジスター。 |
主要な世界言語
| 国旗 | 言語 | コード | LLM | Coached | スクリプト | 備考 | |
|---|---|---|---|---|---|---|---|
| 🇧🇩 | ベンガル語 | bn | ✅ | ✅ | ✅ | — | শুদ্ধ ভাষা(標準語)を優先。 |
| 🇧🇬 | ブルガリア語 | bg | ✅ | ✅ | ✅ | — | |
| 🇨🇿 | チェコ語 | cs | ✅ | ✅ | ✅ | — | Vykání(vyフォーム)。 |
| 🇩🇰 | デンマーク語 | da | ✅ | ✅ | ✅ | — | |
| 🇬🇷 | ギリシャ語 | el | ✅ | ✅ | ✅ | — | 現代のΔημοτική(民衆語)。 |
| 🇮🇷 | ペルシア語 | fa | ✅ | ✅ | ✅ | — | RTL。 |
| 🇫🇮 | フィンランド語 | fi | ✅ | ✅ | ✅ | — | 文法上の性別なし。 |
| 🇮🇱 | ヘブライ語 | he | ✅ | ✅ | ✅ | — | RTL。 |
| 🇮🇳 | ヒンディー語 | hi | ✅ | ✅ | ✅ | — | शुद्ध हिन्दी(純粋なヒンディー語)。英語の借用語を最小限に。 |
| 🇭🇺 | ハンガリー語 | hu | ✅ | ✅ | ✅ | — | Önフォーム。 |
| 🇮🇩 | インドネシア語 | id | ✅ | ✅ | ✅ | — | |
| 🇲🇾 | マレー語 | ms | ✅ | ✅ | ✅ | — | |
| 🇳🇱 | オランダ語 | nl | ✅ | ✅ | ✅ | — | Uフォーム。 |
| 🇳🇴 | ノルウェー語 | nb | ✅ | ✅ | ✅ | — | ブークモール。 |
| 🇵🇱 | ポーランド語 | pl | ✅ | ✅ | ✅ | — | Pan/Paniフォーム。 |
| 🇵🇹 | ポルトガル語 (欧州) | pt-PT | ✅ | ✅ | ✅ | — | 欧州ポルトガル語。 |
| 🇷🇴 | ルーマニア語 | ro | ✅ | ✅ | ✅ | — | |
| 🇷🇺 | ロシア語 | ru | ✅ | ✅ | ✅ | — | Выフォーム。 |
| 🇸🇰 | スロバキア語 | sk | ✅ | ✅ | ✅ | — | Vykanie(vyフォーム)。 |
| 🇷🇸 | セルビア語 | sr | ✅ | ✅ | ✅ | 🔤 ラテン文字→キリル文字 | 決定論的スクリプトコンバーター。 |
| 🇸🇪 | スウェーデン語 | sv | ✅ | ✅ | ✅ | — | |
| 🇰🇪 | スワヒリ語 | sw | ✅ | ✅ | ✅ | — | |
| 🇹🇭 | タイ語 | th | ✅ | ✅ | ✅ | — | ครับ/ค่ะ(丁寧語の助詞)。 |
| 🇹🇷 | トルコ語 | tr | ✅ | ✅ | ✅ | — | Sizフォーム。 |
| 🇺🇦 | ウクライナ語 | uk | ✅ | ✅ | ✅ | — | Виフォーム。 |
| 🇵🇰 | ウルドゥー語 | ur | ✅ | ✅ | ✅ | — | RTL。آپフォーム。 |
| 🇻🇳 | ベトナム語 | vi | ✅ | ✅ | ✅ | — | |
| 🇹🇼 | 中国語 (繁体字) | zh-TW | ✅ | ✅ | ✅ | — | 繁體中文。 |
地域バリアント
| 国旗 | 言語 | コード | LLM | Coached | スクリプト | 備考 | |
|---|---|---|---|---|---|---|---|
| 🇲🇽 | メキシコ・スペイン語 | es-MX | ✅ | ✅ | ✅ | — | Túフォーム。温かみのあるレジスター。 |
| 🇨🇦 | カナダ・フランス語 | fr-CA | ✅ | ✅ | ✅ | — | ケベック特有の慣用句。 |
先住民言語および低資源言語
これらの言語は、商用の機械翻訳サービスではサポートされていません。rosettaは、言語コミュニティがOCAP原則に基づいて独自のメソッドを構築するためのツールを提供します。
| 言語 | コード | LLM | Coached | スクリプト | ステータス | ||
|---|---|---|---|---|---|---|---|
| 🪶 | 平原クリー語 | crk | ❌ | ✅ | ✅ | 🔤 SRO→音節文字 | 🚧 開発中 |
:::info 平原クリー語は現在開発中です 平原クリー語のレジスター、コーチングインフラストラクチャ、スクリプトコンバーター、および評価ハーネスはすべて機能していますが、翻訳パイプラインはまだリリースされていません。リリース前に品質を確保するため、OCAP原則に基づいて言語コミュニティと協力しています。詳細および貢献方法については、低資源言語のサポートを参照してください。 :::
:::tip さらに多くの低資源言語を追加する rosettaのメソッドプラグインシステムは、このために設計されています。言語コミュニティはカスタムの翻訳メソッドを構築し、自身の管理下でホストして、APIメソッド経由で提供することができます。メソッドリーダーボードでは、任意の言語ペアのスコアを追跡しています。メソッドを構築し、ハーネスを実行して、トップスコアを獲得しましょう。 :::
人工言語
人工言語(Conlangs)は、LLMのレジスターとオプションのスクリプトコンバーターを通じてサポートされています。これらは実際の言語と同じインフラストラクチャを使用しており、品質ゲート、コーチングシステム、スクリプト変換パイプラインはまったく同じように機能します。
| 言語 | コード | LLM | スクリプト | 備考 | ||
|---|---|---|---|---|---|---|
| 🖖 | クリンゴン語 | tlh | ❌ | ✅ | 🔤 ローマ字→pIqaD | PUAフォントが必要。マーク・オークランドの語彙。 |
| 🧝 | シンダリン(トールキンのエルフ語) | x-elvish-s | ❌ | ✅ | 🔤 ラテン文字→テングワール | CSUR PUAフォントが必要。 |
| 🏴☠️ | 海賊英語 | x-pirate | ❌ | ✅ | — | レジスターのみ。航海に関するメタファー。 |
| 🦸 | クリプトン語 | x-kryptonian | ❌ | ✅ | 🔤 ラテン文字→クリプトン文字 | PUAフォントが必要。 |
| 🎭 | シェイクスピア英語 | x-shakespeare | ❌ | ✅ | — | レジスターのみ。Thee/thou、-eth/-estフォーム。 |
| 🐸 | ヨーダ語 | x-yoda | ❌ | ✅ | — | レジスターのみ。OSV(目的語-主語-動詞)の語順。 |
PUAフォントの要件、Unicodeの制限、および独自の人工言語を追加する方法については、人工言語、スクリプト、正書法を参照してください。
言語プリセット
initウィザードは、迅速なセットアップのためのプリセット名をサポートしています。プリセットと個別のコードを混在させることができます。
| プリセット | 展開先 |
|---|---|
european | fr, de, es, it, pt, nl |
asian | ja, zh, ko |
global | fr, es, de, ja, zh, ko, pt, ar |
nordic | da, fi, nb, sv |
# Mix presets with individual codes
i18n-rosetta init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja
任意の言語の追加
rosettaは、LLMが学習している任意の言語に翻訳できます。上記の表は、組み込みのレジスタープリセットを持つ言語をリストしているにすぎません。リストにない言語を追加するには、設定にそのBCP-47コードを含めます。
{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}
LLMは、その言語に関するトレーニング知識を使用して翻訳します。registerを設定することで、トーン、フォーマル度、および正書法の規則を制御できます。詳細については、設定を参照してください。
言語カード
各組み込み言語にはLanguage Card(言語カード)があります。これはlib/data/language-cards/にあるJSONファイルで、以下の内容が含まれています。
| フィールド | 含まれる内容 |
|---|---|
| Formality system | T-V区分、スピーチレベル、敬語、助詞など。 |
| Register presets | その言語の特性に合わせた名前付きプリセット。 |
| Method support | どの翻訳APIがこの言語をサポートしているか。 |
| Gender guidance | 文法上の性別のルールとインクルーシブなライティングのヒント。 |
| Script/direction | ISO 15924スクリプトコードおよびRTL/LTR。 |
| Eval datasets | どのベンチマークがこの言語をカバーしているか。 |
プリセットキーの使用
レジスターのテキストをすべて記述する代わりに、プリセットのキー名を使用できます。
{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}
Rosettaは、キーを完全なレジスタープロンプトに解決します。各言語で利用可能なプリセットを確認するには、npx i18n-rosetta initを実行してください。
プリセットの例
| 言語 | プリセット | デフォルト |
|---|---|---|
| フランス語 | formal-vous, casual-tu | formal-vous |
| 韓国語 | polite-haeyo, formal-hapsyo, casual-hae | polite-haeyo |
| 日本語 | polite, formal-keigo, casual | polite |
| ドイツ語 | formal-Sie, casual-du | formal-Sie |
| タイ語 | neutral-professional, polite-male, polite-female | neutral-professional |
| スペイン語 | neutral-professional, formal-usted, casual-tuteo | neutral-professional |
プリセットの追加や改善方法については、言語カードへの貢献を参照してください。
関連項目
- 設定 — 言語のセットアップを含む完全な設定リファレンス
- 翻訳メソッド — 各メソッドの仕組み
- スクリプトコンバーター — 決定論的スクリプト変換パイプライン
- 人工言語、スクリプト、正書法 — PUAフォント、Unicode、人工言語の追加
- 低資源言語のサポート — サービスが行き届いていない言語向けのメソッド構築