メインコンテンツへスキップ

対応言語

rosettaには、42以上の言語に対応した構造化リファレンスファイルであるLanguage Cards(言語カード)が同梱されています。各カードには、レジスター(使用域)のプリセット、フォーマル度システムのメタデータ、メソッドのサポートフラグ、および文字スクリプト情報が含まれています。LLMが学習している言語であれば、設定を1行追加するだけで任意の言語を追加できます。ここに挙げているのは、本番環境ですぐに使えるように調整されたレジスターを持つ言語です。


翻訳メソッド

各言語では、以下の1つ以上の翻訳メソッドを使用できます。

アイコンメソッド仕組みコスト
🟢Google Translateニューラル機械翻訳のベースライン。130以上の言語に対応。キーと値の文字列のみ対応(Markdownコンテンツを安全に翻訳することはできません)。約$20/100万文字
🔵LLM (OpenRouter)モデルが学習している任意の言語に対応。レジスターで制御されたプロンプト。キーと値のペアおよびMarkdownコンテンツを処理します。モデルにより異なる
🟣LLM-CoachedLLM + 文法辞書 + プロンプトに注入されるコーチングデータ。形態論的に複雑な言語に最適です。モデルにより異なる
🟠API (Plugin)HTTP経由で提供される、コミュニティホスト型の翻訳パイプライン。OCAP互換プロバイダーにより異なる

Google Translateの場合はGOOGLE_TRANSLATE_API_KEYを、LLMメソッドの場合はOPENROUTER_API_KEYを設定します。詳細については、翻訳メソッドを参照してください。


優先言語

これらは、Webおよびモバイルアプリケーションで最も一般的にリクエストされるロケールであり、rosettaが推奨するアクセシビリティ優先の順序でリストされています。

国旗言語コードGoogleLLMCoachedスクリプト備考
🇸🇦アラビア語arRTL。現代標準アラビア語(فصحى)。
🇵🇭フィリピン語 (Taglish)tlコードスイッチング: タガログ語主体、専門用語は英語。
🇫🇷フランス語frVousフォーム。ジェンダーインクルーシブ(Connecté·e)。
🇪🇸スペイン語esニュートラルなラテンアメリカ・スペイン語。
🇩🇪ドイツ語deSieフォーム。ジェンダーインクルーシブ(Benutzer:innen)。
🇯🇵日本語ja本文は「です/ます」調、UIラベルは「する」調。
🇨🇳中国語 (簡体字)zh简体中文。
🇮🇹イタリア語itLeiフォーム。
🇧🇷ポルトガル語 (ブラジル)ptブラジル・ポルトガル語。
🇰🇷韓国語ko해요체(ヘヨ体)の丁寧なレジスター。

主要な世界言語

国旗言語コードGoogleLLMCoachedスクリプト備考
🇧🇩ベンガル語bnশুদ্ধ ভাষা(標準語)を優先。
🇧🇬ブルガリア語bg
🇨🇿チェコ語csVykání(vyフォーム)。
🇩🇰デンマーク語da
🇬🇷ギリシャ語el現代のΔημοτική(民衆語)。
🇮🇷ペルシア語faRTL。
🇫🇮フィンランド語fi文法上の性別なし。
🇮🇱ヘブライ語heRTL。
🇮🇳ヒンディー語hiशुद्ध हिन्दी(純粋なヒンディー語)。英語の借用語を最小限に。
🇭🇺ハンガリー語huÖnフォーム。
🇮🇩インドネシア語id
🇲🇾マレー語ms
🇳🇱オランダ語nlUフォーム。
🇳🇴ノルウェー語nbブークモール。
🇵🇱ポーランド語plPan/Paniフォーム。
🇵🇹ポルトガル語 (欧州)pt-PT欧州ポルトガル語。
🇷🇴ルーマニア語ro
🇷🇺ロシア語ruВыフォーム。
🇸🇰スロバキア語skVykanie(vyフォーム)。
🇷🇸セルビア語sr🔤 ラテン文字→キリル文字決定論的スクリプトコンバーター。
🇸🇪スウェーデン語sv
🇰🇪スワヒリ語sw
🇹🇭タイ語thครับ/ค่ะ(丁寧語の助詞)。
🇹🇷トルコ語trSizフォーム。
🇺🇦ウクライナ語ukВиフォーム。
🇵🇰ウルドゥー語urRTL。آپフォーム。
🇻🇳ベトナム語vi
🇹🇼中国語 (繁体字)zh-TW繁體中文。

地域バリアント

国旗言語コードGoogleLLMCoachedスクリプト備考
🇲🇽メキシコ・スペイン語es-MXTúフォーム。温かみのあるレジスター。
🇨🇦カナダ・フランス語fr-CAケベック特有の慣用句。

先住民言語および低資源言語

これらの言語は、商用の機械翻訳サービスではサポートされていません。rosettaは、言語コミュニティがOCAP原則に基づいて独自のメソッドを構築するためのツールを提供します。

言語コードGoogleLLMCoachedスクリプトステータス
🪶平原クリー語crk🔤 SRO→音節文字🚧 開発中

:::info 平原クリー語は現在開発中です 平原クリー語のレジスター、コーチングインフラストラクチャ、スクリプトコンバーター、および評価ハーネスはすべて機能していますが、翻訳パイプラインはまだリリースされていません。リリース前に品質を確保するため、OCAP原則に基づいて言語コミュニティと協力しています。詳細および貢献方法については、低資源言語のサポートを参照してください。 :::

:::tip さらに多くの低資源言語を追加する rosettaのメソッドプラグインシステムは、このために設計されています。言語コミュニティはカスタムの翻訳メソッドを構築し、自身の管理下でホストして、APIメソッド経由で提供することができます。メソッドリーダーボードでは、任意の言語ペアのスコアを追跡しています。メソッドを構築し、ハーネスを実行して、トップスコアを獲得しましょう。 :::


人工言語

人工言語(Conlangs)は、LLMのレジスターとオプションのスクリプトコンバーターを通じてサポートされています。これらは実際の言語と同じインフラストラクチャを使用しており、品質ゲート、コーチングシステム、スクリプト変換パイプラインはまったく同じように機能します。

言語コードGoogleLLMスクリプト備考
🖖クリンゴン語tlh🔤 ローマ字→pIqaDPUAフォントが必要。マーク・オークランドの語彙。
🧝シンダリン(トールキンのエルフ語)x-elvish-s🔤 ラテン文字→テングワールCSUR PUAフォントが必要。
🏴‍☠️海賊英語x-pirateレジスターのみ。航海に関するメタファー。
🦸クリプトン語x-kryptonian🔤 ラテン文字→クリプトン文字PUAフォントが必要。
🎭シェイクスピア英語x-shakespeareレジスターのみ。Thee/thou、-eth/-estフォーム。
🐸ヨーダ語x-yodaレジスターのみ。OSV(目的語-主語-動詞)の語順。

PUAフォントの要件、Unicodeの制限、および独自の人工言語を追加する方法については、人工言語、スクリプト、正書法を参照してください。


言語プリセット

initウィザードは、迅速なセットアップのためのプリセット名をサポートしています。プリセットと個別のコードを混在させることができます。

プリセット展開先
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
i18n-rosetta init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

任意の言語の追加

rosettaは、LLMが学習している任意の言語に翻訳できます。上記の表は、組み込みのレジスタープリセットを持つ言語をリストしているにすぎません。リストにない言語を追加するには、設定にそのBCP-47コードを含めます。

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

LLMは、その言語に関するトレーニング知識を使用して翻訳します。registerを設定することで、トーン、フォーマル度、および正書法の規則を制御できます。詳細については、設定を参照してください。


言語カード

各組み込み言語にはLanguage Card(言語カード)があります。これはlib/data/language-cards/にあるJSONファイルで、以下の内容が含まれています。

フィールド含まれる内容
Formality systemT-V区分、スピーチレベル、敬語、助詞など。
Register presetsその言語の特性に合わせた名前付きプリセット。
Method supportどの翻訳APIがこの言語をサポートしているか。
Gender guidance文法上の性別のルールとインクルーシブなライティングのヒント。
Script/directionISO 15924スクリプトコードおよびRTL/LTR。
Eval datasetsどのベンチマークがこの言語をカバーしているか。

プリセットキーの使用

レジスターのテキストをすべて記述する代わりに、プリセットのキー名を使用できます。

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

Rosettaは、キーを完全なレジスタープロンプトに解決します。各言語で利用可能なプリセットを確認するには、npx i18n-rosetta initを実行してください。

プリセットの例

言語プリセットデフォルト
フランス語formal-vous, casual-tuformal-vous
韓国語polite-haeyo, formal-hapsyo, casual-haepolite-haeyo
日本語polite, formal-keigo, casualpolite
ドイツ語formal-Sie, casual-duformal-Sie
タイ語neutral-professional, polite-male, polite-femaleneutral-professional
スペイン語neutral-professional, formal-usted, casual-tuteoneutral-professional

プリセットの追加や改善方法については、言語カードへの貢献を参照してください。


関連項目