Pular para o conteúdo principal

Idiomas Suportados

O rosetta vem com Language Cards — arquivos de referência estruturados para mais de 42 idiomas. Cada cartão contém predefinições de registro, metadados do sistema de formalidade, sinalizadores de suporte a métodos e informações de script. Qualquer idioma que o seu LLM conheça pode ser adicionado com uma única linha de configuração — estes são os que possuem registros curados e prontos para produção.


Métodos de Tradução

Cada idioma pode usar um ou mais destes métodos de tradução:

ÍconeMétodoComo FuncionaCusto
🟢Google TranslateLinha de base de MT neural. Mais de 130 idiomas. Apenas strings de chave-valor — não pode traduzir conteúdo Markdown com segurança.~$20/1M de caracteres
🔵LLM (OpenRouter)Qualquer idioma que o modelo conheça. Prompts direcionados por registro. Lida com chave-valor + conteúdo Markdown.Varia de acordo com o modelo
🟣LLM-CoachedLLM + dicionários de gramática + dados de treinamento (coaching) injetados nos prompts. Melhor para idiomas morfologicamente complexos.Varia de acordo com o modelo
🟠API (Plugin)Pipelines de tradução hospedados pela comunidade e servidos via HTTP. Compatível com OCAP.Varia de acordo com o provedor

Defina GOOGLE_TRANSLATE_API_KEY para o Google Translate, ou OPENROUTER_API_KEY para métodos LLM. Consulte Métodos de Tradução para obter todos os detalhes.


Idiomas Prioritários

Estes são os locais (locales) mais solicitados para aplicativos web e móveis, listados na ordem recomendada pelo rosetta, priorizando a acessibilidade.

BandeiraIdiomaCódigoGoogleLLMCoachedScriptNotas
🇸🇦ÁrabearRTL. Árabe Padrão Moderno (فصحى).
🇵🇭Filipino (Taglish)tlAlternância de código (Code-switching): Tagalo como principal, termos técnicos em inglês.
🇫🇷FrancêsfrForma "Vous". Inclusivo de gênero (Connecté·e).
🇪🇸EspanholesLatino-americano neutro.
🇩🇪AlemãodeForma "Sie". Inclusivo de gênero (Benutzer:innen).
🇯🇵Japonêsjaです/ます para o corpo do texto, する para rótulos de UI.
🇨🇳Chinês (Simplificado)zh简体中文.
🇮🇹ItalianoitForma "Lei".
🇧🇷Português (BR)ptPortuguês do Brasil.
🇰🇷CoreanokoRegistro polido 해요체.

Principais Idiomas do Mundo

BandeiraIdiomaCódigoGoogleLLMCoachedScriptNotas
🇧🇩BengalibnPreferência por শুদ্ধ ভাষা.
🇧🇬Búlgarobg
🇨🇿TchecocsVykání (forma "vy").
🇩🇰Dinamarquêsda
🇬🇷GregoelΔημοτική moderno.
🇮🇷PersafaRTL.
🇫🇮FinlandêsfiSem gênero gramatical.
🇮🇱HebraicoheRTL.
🇮🇳Hindihiशुद्ध हिन्दी. Mínimo de estrangeirismos do inglês.
🇭🇺HúngarohuForma "Ön".
🇮🇩Indonésioid
🇲🇾Malaioms
🇳🇱HolandêsnlForma "U".
🇳🇴NorueguêsnbBokmål.
🇵🇱PolonêsplForma "Pan/Pani".
🇵🇹Português (EU)pt-PTPortuguês de Portugal.
🇷🇴Romenoro
🇷🇺RussoruForma "Вы".
🇸🇰EslovacoskVykanie (forma "vy").
🇷🇸Sérviosr🔤 Latino→CirílicoConversor de script determinístico.
🇸🇪Suecosv
🇰🇪Suaílisw
🇹🇭TailandêsthPartículas de polidez ครับ/ค่ะ.
🇹🇷TurcotrForma "Siz".
🇺🇦UcranianoukForma "Ви".
🇵🇰UrduurRTL. Forma آپ.
🇻🇳Vietnamitavi
🇹🇼Chinês (Tradicional)zh-TW繁體中文.

Variantes Regionais

BandeiraIdiomaCódigoGoogleLLMCoachedScriptNotas
🇲🇽Espanhol Mexicanoes-MXForma "Tú". Registro caloroso.
🇨🇦Francês Canadensefr-CAExpressões do Québécois.

Idiomas Indígenas e de Baixo Recurso

Estes idiomas não são suportados por serviços comerciais de MT. O rosetta fornece as ferramentas para que as comunidades linguísticas construam seus próprios métodos sob os princípios OCAP.

IdiomaCódigoGoogleLLMCoachedScriptStatus
🪶Plains Creecrk🔤 SRO→Silábico🚧 Em desenvolvimento

:::info O Plains Cree está em desenvolvimento ativo O registro, a infraestrutura de coaching, o conversor de script e o ambiente de avaliação para o Plains Cree são todos funcionais, mas o pipeline de tradução ainda não foi lançado. Estamos trabalhando com as comunidades linguísticas sob os princípios OCAP para garantir a qualidade antes do lançamento. Consulte Apoie um Idioma de Baixo Recurso para ver a história completa — e como você pode contribuir. :::

:::tip Adicionando mais idiomas de baixo recurso O sistema de plugins de métodos do rosetta foi projetado para isso. Uma comunidade linguística pode construir um método de tradução personalizado, hospedá-lo sob seu próprio controle e servi-lo por meio do método API. O Method Leaderboard rastreia as pontuações para qualquer par de idiomas — construa um método, execute o ambiente de avaliação e conquiste a pontuação mais alta. :::


Idiomas Construídos (Conlangs)

Conlangs são suportados por meio de registros LLM e conversores de script opcionais. Eles usam a mesma infraestrutura dos idiomas reais — o portão de qualidade, o sistema de coaching e o pipeline de conversão de script funcionam de forma idêntica.

IdiomaCódigoGoogleLLMScriptNotas
🖖Klingontlh🔤 Romanização→pIqaDFonte PUA necessária. Vocabulário de Marc Okrand.
🧝Sindarin (Élfico de Tolkien)x-elvish-s🔤 Latino→TengwarFonte CSUR PUA necessária.
🏴‍☠️Inglês Piratax-pirateApenas registro. Metáforas náuticas.
🦸Kryptonianox-kryptonian🔤 Latino→KryptonianoFonte PUA necessária.
🎭Inglês Shakespearianox-shakespeareApenas registro. Formas thee/thou, -eth/-est.
🐸Idioma do Yodax-yodaApenas registro. Ordem de palavras OSV.

Consulte Conlangs, Scripts e Ortografia para requisitos de fontes PUA, limitações do Unicode e como adicionar o seu próprio.


Predefinições de Idioma

O assistente init suporta nomes predefinidos para configuração rápida. Você pode misturar predefinições com códigos individuais.

PredefiniçãoExpande Para
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
i18n-rosetta init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

Adicionando Qualquer Idioma

O rosetta pode traduzir para qualquer idioma que o seu LLM conheça — a tabela acima apenas lista os idiomas com predefinições de registro integradas. Para adicionar um idioma não listado, inclua seu código BCP-47 na sua configuração:

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

O LLM traduzirá usando seu conhecimento de treinamento do idioma. Definir um register oferece controle sobre o tom, a formalidade e as convenções ortográficas. Consulte Configuração para obter detalhes.


Language Cards

Cada idioma integrado possui um Language Card — um arquivo JSON em lib/data/language-cards/ contendo:

CampoO Que Contém
Sistema de formalidadeDistinção T-V, níveis de fala, keigo, partículas, etc.
Predefinições de registroPredefinições nomeadas específicas para o caráter do idioma
Suporte a métodosQuais APIs de tradução suportam este idioma
Orientação de gêneroRegras de gênero gramatical e dicas de escrita inclusiva
Script/direçãoCódigo de script ISO 15924 e RTL/LTR
Conjuntos de dados de avaliaçãoQuais benchmarks cobrem este idioma

Usando Chaves Predefinidas

Em vez de escrever o texto completo do registro, você pode usar um nome de chave predefinida:

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

O rosetta resolve a chave para o prompt de registro completo. Execute npx i18n-rosetta init para ver as predefinições disponíveis para cada idioma.

Exemplos de Predefinições

IdiomaPredefiniçõesPadrão
Francêsformal-vous, casual-tuformal-vous
Coreanopolite-haeyo, formal-hapsyo, casual-haepolite-haeyo
Japonêspolite, formal-keigo, casualpolite
Alemãoformal-Sie, casual-duformal-Sie
Tailandêsneutral-professional, polite-male, polite-femaleneutral-professional
Espanholneutral-professional, formal-usted, casual-tuteoneutral-professional

Consulte Contribuindo com um Language Card para saber como adicionar ou melhorar predefinições.


Veja Também