ภาษาที่รองรับ
rosetta มาพร้อมกับ Language Cards — ไฟล์อ้างอิงที่มีโครงสร้างสำหรับภาษาต่างๆ มากกว่า 42 ภาษา การ์ดแต่ละใบประกอบด้วยพรีเซ็ตระดับภาษา (register presets), ข้อมูลเมตาของระบบความสุภาพ (formality system metadata), แฟล็กการรองรับเมธอด (method support flags) และข้อมูลสคริปต์ (script information) คุณสามารถเพิ่มภาษาใดๆ ที่ LLM ของคุณรู้จักได้ด้วยบรรทัดคอนฟิกเพียงบรรทัดเดียว — ภาษาเหล่านี้คือภาษาที่ได้รับการคัดสรรและมีระดับภาษาที่พร้อมใช้งานจริง
เมธอดการแปล
แต่ละภาษาสามารถใช้เมธอดการแปลเหล่านี้ได้ตั้งแต่หนึ่งเมธอดขึ้นไป:
| ไอคอน | เมธอด | วิธีการทำงาน | ค่าใช้จ่าย |
|---|---|---|---|
| 🟢 | Google Translate | พื้นฐาน Neural MT รองรับ 130+ ภาษา เฉพาะสตริงแบบ Key-value เท่านั้น — ไม่สามารถแปลเนื้อหา Markdown ได้อย่างปลอดภัย | ~$20/1M ตัวอักษร |
| 🔵 | LLM (OpenRouter) | ภาษาใดๆ ที่โมเดลรู้จัก ใช้พรอมต์ควบคุมระดับภาษา (Register-steered) จัดการได้ทั้ง Key-value และเนื้อหา Markdown | แตกต่างกันไปตามโมเดล |
| 🟣 | LLM-Coached | LLM + พจนานุกรมไวยากรณ์ + ข้อมูลการสอน (coaching data) ที่แทรกในพรอมต์ เหมาะที่สุดสำหรับภาษาที่มีความซับซ้อนทางสัณฐานวิทยา | แตกต่างกันไปตามโมเดล |
| 🟠 | API (Plugin) | ไปป์ไลน์การแปลที่โฮสต์โดยชุมชนและให้บริการผ่าน HTTP รองรับ OCAP | แตกต่างกันไปตามผู้ให้บริการ |
ตั้งค่า GOOGLE_TRANSLATE_API_KEY สำหรับ Google Translate หรือ OPENROUTER_API_KEY สำหรับเมธอด LLM ดูรายละเอียดทั้งหมดได้ที่ เมธอดการแปล
ภาษาที่มีความสำคัญลำดับแรก
นี่คือภาษา (locales) ที่ได้รับการร้องขอมากที่สุดสำหรับแอปพลิเคชันบนเว็บและมือถือ โดยเรียงลำดับตามคำแนะนำของ rosetta ที่เน้นการเข้าถึง (accessibility-first) เป็นหลัก
| ธง | ภาษา | รหัส | LLM | Coached | สคริปต์ | หมายเหตุ | |
|---|---|---|---|---|---|---|---|
| 🇸🇦 | อาหรับ | ar | ✅ | ✅ | ✅ | — | RTL. Modern Standard Arabic (فصحى) |
| 🇵🇭 | ฟิลิปปินส์ (Taglish) | tl | ✅ | ✅ | ✅ | — | Code-switching: ใช้ภาษาตากาล็อกเป็นหลัก, ทับศัพท์เทคนิคด้วยภาษาอังกฤษ |
| 🇫🇷 | ฝรั่งเศส | fr | ✅ | ✅ | ✅ | — | รูปแบบ Vous. ครอบคลุมทุกเพศ (Gender-inclusive) (Connecté·e) |
| 🇪🇸 | สเปน | es | ✅ | ✅ | ✅ | — | ละตินอเมริกาแบบเป็นกลาง |
| 🇩🇪 | เยอรมัน | de | ✅ | ✅ | ✅ | — | รูปแบบ Sie. ครอบคลุมทุกเพศ (Benutzer:innen) |
| 🇯🇵 | ญี่ปุ่น | ja | ✅ | ✅ | ✅ | — | ใช้ です/ます สำหรับเนื้อหาหลัก, ใช้ する สำหรับป้ายกำกับ UI |
| 🇨🇳 | จีน (ตัวย่อ) | zh | ✅ | ✅ | ✅ | — | 简体中文 |
| 🇮🇹 | อิตาลี | it | ✅ | ✅ | ✅ | — | รูปแบบ Lei |
| 🇧🇷 | โปรตุเกส (บราซิล) | pt | ✅ | ✅ | ✅ | — | ภาษาโปรตุเกสแบบบราซิล |
| 🇰🇷 | เกาหลี | ko | ✅ | ✅ | ✅ | — | ระดับภาษา 해요체 (สุภาพ) |
ภาษาหลักของโลก
| ธง | ภาษา | รหัส | LLM | Coached | สคริปต์ | หมายเหตุ | |
|---|---|---|---|---|---|---|---|
| 🇧🇩 | เบงกาลี | bn | ✅ | ✅ | ✅ | — | เน้นใช้ শুদ্ধ ভাষা |
| 🇧🇬 | บัลแกเรีย | bg | ✅ | ✅ | ✅ | — | |
| 🇨🇿 | เช็ก | cs | ✅ | ✅ | ✅ | — | Vykání (รูปแบบ vy) |
| 🇩🇰 | เดนมาร์ก | da | ✅ | ✅ | ✅ | — | |
| 🇬🇷 | กรีก | el | ✅ | ✅ | ✅ | — | Modern Δημοτική |
| 🇮🇷 | เปอร์เซีย | fa | ✅ | ✅ | ✅ | — | RTL |
| 🇫🇮 | ฟินแลนด์ | fi | ✅ | ✅ | ✅ | — | ไม่มีเพศทางไวยากรณ์ |
| 🇮🇱 | ฮีบรู | he | ✅ | ✅ | ✅ | — | RTL |
| 🇮🇳 | ฮินดี | hi | ✅ | ✅ | ✅ | — | शुद्ध हिन्दी ใช้คำยืมภาษาอังกฤษให้น้อยที่สุด |
| 🇭🇺 | ฮังการี | hu | ✅ | ✅ | ✅ | — | รูปแบบ Ön |
| 🇮🇩 | อินโดนีเซีย | id | ✅ | ✅ | ✅ | — | |
| 🇲🇾 | มาเลย์ | ms | ✅ | ✅ | ✅ | — | |
| 🇳🇱 | ดัตช์ | nl | ✅ | ✅ | ✅ | — | รูปแบบ U |
| 🇳🇴 | นอร์เวย์ | nb | ✅ | ✅ | ✅ | — | Bokmål |
| 🇵🇱 | โปแลนด์ | pl | ✅ | ✅ | ✅ | — | รูปแบบ Pan/Pani |
| 🇵🇹 | โปรตุเกส (ยุโรป) | pt-PT | ✅ | ✅ | ✅ | — | ภาษาโปรตุเกสแบบยุโรป |
| 🇷🇴 | โรมาเนีย | ro | ✅ | ✅ | ✅ | — | |
| 🇷🇺 | รัสเซีย | ru | ✅ | ✅ | ✅ | — | รูปแบบ Вы |
| 🇸🇰 | สโลวัก | sk | ✅ | ✅ | ✅ | — | Vykanie (รูปแบบ vy) |
| 🇷🇸 | เซอร์เบีย | sr | ✅ | ✅ | ✅ | 🔤 Latin→Cyrillic | ตัวแปลงสคริปต์แบบ Deterministic |
| 🇸🇪 | สวีเดน | sv | ✅ | ✅ | ✅ | — | |
| 🇰🇪 | สวาฮีลี | sw | ✅ | ✅ | ✅ | — | |
| 🇹🇭 | ไทย | th | ✅ | ✅ | ✅ | — | คำลงท้ายสุภาพ ครับ/ค่ะ |
| 🇹🇷 | ตุรกี | tr | ✅ | ✅ | ✅ | — | รูปแบบ Siz |
| 🇺🇦 | ยูเครน | uk | ✅ | ✅ | ✅ | — | รูปแบบ Ви |
| 🇵🇰 | อูรดู | ur | ✅ | ✅ | ✅ | — | RTL. รูปแบบ آپ |
| 🇻🇳 | เวียดนาม | vi | ✅ | ✅ | ✅ | — | |
| 🇹🇼 | จีน (ตัวเต็ม) | zh-TW | ✅ | ✅ | ✅ | — | 繁體中文 |
ภาษาตามภูมิภาค
| ธง | ภาษา | รหัส | LLM | Coached | สคริปต์ | หมายเหตุ | |
|---|---|---|---|---|---|---|---|
| 🇲🇽 | สเปน (เม็กซิโก) | es-MX | ✅ | ✅ | ✅ | — | รูปแบบ Tú ระดับภาษาแบบเป็นกันเอง (Warm) |
| 🇨🇦 | ฝรั่งเศส (แคนาดา) | fr-CA | ✅ | ✅ | ✅ | — | สำนวน Québécois |
ภาษาพื้นเมืองและภาษาที่มีทรัพยากรน้อย (Low-Resource Languages)
ภาษาเหล่านี้ไม่ได้รับการรองรับโดยบริการ MT เชิงพาณิชย์ rosetta มีเครื่องมือสำหรับชุมชนภาษาในการสร้างเมธอดของตนเองภายใต้ หลักการ OCAP
| ภาษา | รหัส | LLM | Coached | สคริปต์ | สถานะ | ||
|---|---|---|---|---|---|---|---|
| 🪶 | Plains Cree | crk | ❌ | ✅ | ✅ | 🔤 SRO→Syllabics | 🚧 อยู่ระหว่างการพัฒนา |
:::info Plains Cree อยู่ระหว่างการพัฒนาอย่างต่อเนื่อง ระดับภาษา, โครงสร้างพื้นฐานการสอน (coaching infrastructure), ตัวแปลงสคริปต์ และระบบประเมินผลสำหรับ Plains Cree นั้นสามารถใช้งานได้แล้ว แต่ไปป์ไลน์การแปล ยังไม่เปิดตัว เรากำลังทำงานร่วมกับชุมชนภาษาภายใต้ หลักการ OCAP เพื่อให้มั่นใจในคุณภาพก่อนการเปิดตัว ดูเรื่องราวทั้งหมดได้ที่ สนับสนุนภาษาที่มีทรัพยากรน้อย — และวิธีที่คุณสามารถมีส่วนร่วม :::
:::tip การเพิ่มภาษาที่มีทรัพยากรน้อยอื่นๆ ระบบปลั๊กอินเมธอดของ rosetta ได้รับการออกแบบมาเพื่อสิ่งนี้ ชุมชนภาษาสามารถสร้างเมธอดการแปลแบบกำหนดเอง โฮสต์ภายใต้การควบคุมของตนเอง และให้บริการผ่าน เมธอด API ได้ กระดานผู้นำเมธอด (Method Leaderboard) จะติดตามคะแนนสำหรับคู่ภาษาใดๆ — สร้างเมธอด รันระบบประเมินผล และคว้าคะแนนสูงสุด :::
ภาษาประดิษฐ์ (Constructed Languages)
ภาษาประดิษฐ์ (Conlangs) ได้รับการรองรับผ่านระดับภาษาของ LLM และตัวแปลงสคริปต์ที่เป็นทางเลือก พวกเขาใช้โครงสร้างพื้นฐานเดียวกันกับภาษาจริง — quality gate, ระบบการสอน และไปป์ไลน์การแปลงสคริปต์ทำงานเหมือนกันทุกประการ
| ภาษา | รหัส | LLM | สคริปต์ | หมายเหตุ | ||
|---|---|---|---|---|---|---|
| 🖖 | คลินกอน | tlh | ❌ | ✅ | 🔤 Romanization→pIqaD | จำเป็นต้องใช้ฟอนต์ PUA คำศัพท์ของ Marc Okrand |
| 🧝 | ซินดาริน (Tolkien Elvish) | x-elvish-s | ❌ | ✅ | 🔤 Latin→Tengwar | จำเป็นต้องใช้ฟอนต์ CSUR PUA |
| 🏴☠️ | ภาษาอังกฤษแบบโจรสลัด | x-pirate | ❌ | ✅ | — | เฉพาะระดับภาษาเท่านั้น ใช้คำอุปมาอุปไมยเกี่ยวกับการเดินเรือ |
| 🦸 | คริปโตเนียน | x-kryptonian | ❌ | ✅ | 🔤 Latin→Kryptonian | จำเป็นต้องใช้ฟอนต์ PUA |
| 🎭 | ภาษาอังกฤษแบบเชกสเปียร์ | x-shakespeare | ❌ | ✅ | — | เฉพาะระดับภาษาเท่านั้น ใช้รูปแบบ Thee/thou, -eth/-est |
| 🐸 | ภาษาโยดา | x-yoda | ❌ | ✅ | — | เฉพาะระดับภาษาเท่านั้น ลำดับคำแบบ OSV |
ดู ภาษาประดิษฐ์ สคริปต์ และอักขรวิธี สำหรับข้อกำหนดของฟอนต์ PUA, ข้อจำกัดของ Unicode และวิธีเพิ่มภาษาของคุณเอง
พรีเซ็ตภาษา (Language Presets)
วิซาร์ด init รองรับชื่อพรีเซ็ตสำหรับการตั้งค่าอย่างรวดเร็ว คุณสามารถผสมพรีเซ็ตกับรหัสภาษาแต่ละตัวได้
| พรีเซ็ต | ขยายเป็น |
|---|---|
european | fr, de, es, it, pt, nl |
asian | ja, zh, ko |
global | fr, es, de, ja, zh, ko, pt, ar |
nordic | da, fi, nb, sv |
# Mix presets with individual codes
i18n-rosetta init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja
การเพิ่มภาษาใดๆ
rosetta สามารถแปลเป็น ภาษาใดๆ ที่ LLM ของคุณรู้จัก — ตารางด้านบนเป็นเพียงรายชื่อภาษาที่มีพรีเซ็ตระดับภาษาในตัว หากต้องการเพิ่มภาษาที่ไม่อยู่ในรายการ ให้ใส่รหัส BCP-47 ในคอนฟิกของคุณ:
{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}
LLM จะแปลโดยใช้ความรู้เกี่ยวกับภาษาที่ได้รับการฝึกฝนมา การตั้งค่า register จะช่วยให้คุณควบคุมน้ำเสียง ความเป็นทางการ และธรรมเนียมปฏิบัติทางอักขรวิธีได้ ดูรายละเอียดที่ การตั้งค่า (Configuration)
Language Cards
ภาษาที่มีในตัวแต่ละภาษาจะมี Language Card — ซึ่งเป็นไฟล์ JSON ใน lib/data/language-cards/ ที่ประกอบด้วย:
| ฟิลด์ | สิ่งที่ประกอบอยู่ |
|---|---|
| ระบบความสุภาพ (Formality system) | การแยกแยะ T-V, ระดับการพูด, keigo, คำลงท้าย ฯลฯ |
| พรีเซ็ตระดับภาษา (Register presets) | พรีเซ็ตที่มีชื่อเฉพาะสำหรับลักษณะของภาษานั้นๆ |
| การรองรับเมธอด (Method support) | API การแปลใดบ้างที่รองรับภาษานี้ |
| คำแนะนำเรื่องเพศ (Gender guidance) | กฎของเพศทางไวยากรณ์และเคล็ดลับการเขียนที่ครอบคลุมทุกเพศ |
| สคริปต์/ทิศทาง (Script/direction) | รหัสสคริปต์ ISO 15924 และ RTL/LTR |
| ชุดข้อมูลประเมินผล (Eval datasets) | เกณฑ์มาตรฐาน (benchmarks) ใดบ้างที่ครอบคลุมภาษานี้ |
การใช้คีย์พรีเซ็ต
แทนที่จะเขียนข้อความระดับภาษาแบบเต็ม คุณสามารถใช้ชื่อคีย์พรีเซ็ตได้:
{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}
Rosetta จะแปลงคีย์เป็นพรอมต์ระดับภาษาแบบเต็ม รัน npx i18n-rosetta init เพื่อดูพรีเซ็ตที่มีให้ใช้งานสำหรับแต่ละภาษา
ตัวอย่างพรีเซ็ต
| ภาษา | พรีเซ็ต | ค่าเริ่มต้น |
|---|---|---|
| ฝรั่งเศส | formal-vous, casual-tu | formal-vous |
| เกาหลี | polite-haeyo, formal-hapsyo, casual-hae | polite-haeyo |
| ญี่ปุ่น | polite, formal-keigo, casual | polite |
| เยอรมัน | formal-Sie, casual-du | formal-Sie |
| ไทย | neutral-professional, polite-male, polite-female | neutral-professional |
| สเปน | neutral-professional, formal-usted, casual-tuteo | neutral-professional |
ดู การร่วมสมทบ Language Card สำหรับวิธีเพิ่มหรือปรับปรุงพรีเซ็ต
ดูเพิ่มเติม
- การตั้งค่า (Configuration) — ข้อมูลอ้างอิงการตั้งค่าทั้งหมดรวมถึงการตั้งค่าภาษา
- เมธอดการแปล — วิธีการทำงานของแต่ละเมธอด
- ตัวแปลงสคริปต์ (Script Converters) — ไปป์ไลน์การแปลงสคริปต์แบบ Deterministic
- ภาษาประดิษฐ์ สคริปต์ และอักขรวิธี — ฟอนต์ PUA, Unicode, การเพิ่มภาษาประดิษฐ์
- สนับสนุนภาษาที่มีทรัพยากรน้อย — การสร้างเมธอดสำหรับภาษาที่ขาดแคลนทรัพยากร