← Quay về trang chính

Quy Tắc Khoa Đẩu

Bảng ký tự và quy trình chuyển đổi chữ Việt hiện đại sang chữ Khoa Đẩu cổ, sử dụng bộ mã Unicode riêng (U+E000 – U+E026).

1. Nguyên Âm Đơn

Các nguyên âm cơ bản. Lưu ý: y dùng chung mã với i (E005), ơ dùng chung mã với â (E002).

Bảng nguyên âm đơn Khoa Đẩu
STT	Ký tự Việt	Ký hiệu Khoa Đẩu	Mã Unicode
1	a		U+E000
2	ă		U+E001
3	â		U+E002
4	e		U+E003
5	ê		U+E004
6	i (= y)		U+E005
7	o		U+E006
8	ô		U+E007
9	ơ (= â)		U+E002
10	u		U+E008
11	ư		U+E009

2. Nguyên Âm Ghép

Các tổ hợp nguyên âm. uô, uơ, uâ dùng chung mã E00C.

Bảng nguyên âm ghép Khoa Đẩu
STT	Ký tự Việt	Ký hiệu Khoa Đẩu	Mã Unicode
1	iê (= yê)		U+E00A
2	ươ		U+E00B
3	uô (= uơ, uâ)		U+E00C

3. Phụ Âm

3a. Phụ âm đơn

Một số phụ âm dùng chung ký hiệu: b = p, c = k = q, d = r, s = x.

Bảng phụ âm đơn Khoa Đẩu
STT	Ký tự Việt	Ký hiệu Khoa Đẩu	Mã Unicode
1	b (= p)		U+E011
2	c (= k, q)		U+E012
3	d (= r, gi)		U+E013
4	đ		U+E014
5	g (= gh)		U+E015
6	h		U+E016
7	l		U+E017
8	m		U+E018
9	n		U+E019
10	s (= x)		U+E01C
11	t		U+E01A
12	v		U+E01B

3b. Phụ âm ghép

Các tổ hợp phụ âm. ch và tr dùng chung mã E01D, ng và ngh dùng chung mã E01F.

Bảng phụ âm ghép Khoa Đẩu
STT	Ký tự Việt	Ký hiệu Khoa Đẩu	Mã Unicode
1	ph		U+E021
2	th		U+E022
3	ch (= tr)		U+E01D
4	nh		U+E020
5	ng (= ngh)		U+E01F
6	kh		U+E01E
7	gi		U+E013

4. Khóa Cuối (Âm Cuối)

Khi ở cuối âm tiết, một số ký tự dùng mã khác với khi ở đầu. Ví dụ: n đầu = E019, n cuối = E025.

Bảng khóa cuối Khoa Đẩu
STT	Âm cuối Việt	Ký hiệu Khoa Đẩu	Mã Unicode
1	-ng (/ -nh)		U+E015
2	-o (/ -u)		U+E00F
3	-i (/ -y)		U+E00E
4	-m		U+E024
5	-n		U+E025
6	-t		U+E026

5. Quy Trình Dịch

Mỗi câu tiếng Việt được chuyển đổi qua 5 bước tuần tự. Dưới đây minh họa quy trình với ví dụ cụ thể.

1 Chuẩn Hóa Văn Bản

Chuyển thành chữ thường, chuẩn hóa Unicode (NFC), loại bỏ dấu thanh (sắc, huyền, hỏi, ngã, nặng).

Ví dụ: "Xin chào"

"Xin chào" → "xin chao"

2 Khóa Âm Cuối

Thay thế phụ âm/nguyên âm cuối bằng ký tự khóa riêng theo FINAL_LOCK_MAP.

Ví dụ: "xin chao"

"xin" → n cuối → ký tự khóa (E025)
"chao" → o cuối → ký tự khóa (E00F)

3 Thêm Âm Đầu Ảo

Từ bắt đầu bằng nguyên âm sẽ được thêm ký tự E006 (âm đầu ảo) ở trước.

Ví dụ: "ăn ơi"

"ăn ơi" → thêm  trước → ăn ơi

4 Đảo Nguyên Âm

Một số nguyên âm (ươ, ô, ê, ơ, e, â) được chuyển lên trước phụ âm đầu theo quy tắc VOWELS_TO_MOVE.

Ví dụ: "tôi"

"tôi" → ô nằm trong danh sách → đảo thành "ôti"

5 Mã Hóa Ký Tự

Tra cứu từng ký tự theo thứ tự ưu tiên: RULES_3 (3 ký tự) → RULES_2 (2 ký tự) → RULES_1 (1 ký tự). Kết quả là chuỗi ký tự PUA hiển thị bằng font Khoa Đẩu.

Ví dụ: "xin chao" (sau các bước trên)

x→E01C, i→E005, [E025], ch→E01D, a→E000, [E00F]

Ví Dụ Chi Tiết

Ví dụ 1: "Xin chào"

B1. Chuẩn hóa: "xin chao" (bỏ dấu huyền)
B2. Khóa cuối: "xi" + E025 "cha" + E00F
B3. Âm đầu ảo: không thay đổi (cả hai từ bắt đầu bằng phụ âm)
B4. Đảo nguyên âm: không thay đổi (i, a không nằm trong danh sách đảo)
B5. Mã hóa: x→E01C i→E005 [E025] ch→E01D a→E000 [E00F]

Kết quả Khoa Đẩu

 

Ví dụ 2: "Ăn ơi" (minh họa âm đầu ảo)

B1. Chuẩn hóa: "ăn ơi"
B2. Khóa cuối: "ă" + E025 "ơ" + E00E
B3. Âm đầu ảo: cả hai từ bắt đầu bằng nguyên âm → thêm E006 trước mỗi từ
B4. Đảo nguyên âm: ơ nằm trong danh sách đảo → đảo lên trước
B5. Mã hóa: [E006] ă→E001 [E025] ơ→E002 [E006] [E00E]

Kết quả Khoa Đẩu

 

Ví dụ 3: "tiếng" (trace từng bước)

Trạng thái sau mỗi bước
Bước	Đầu vào	Đầu ra	Mô tả
0	tiếng	tiếng	Quốc Ngữ gốc
1	tiếng	tiêng	Lowercase + bỏ dấu sắc (NFD strip)
2	tiêng	tiê + E015	"ng" cuối → khóa E015
3	tiê + E015	tiê + E015	t là phụ âm, không thêm âm đầu ảo
4	tiê + E015	tiê + E015	iê là cụm bảo vệ, không đảo
5	tiê + E015	E01A E00A E015	t→E01A, iê→E00A

Kết quả Khoa Đẩu



6. So Sánh Phương Pháp Dịch

Trang chủ dùng Dictionary CPU (nhanh nhất, độ chính xác 100%). Trang AI dùng CNN-Shallow-Big — mô hình neural compact 16 KB. Bảng dưới so sánh hiệu năng đo trên benchmark 213,118 từ (Final Report §5.1).

Hiệu năng các phương pháp dịch Quốc Ngữ → Khoa Đẩu
Phương pháp	Độ chính xác	Độ trễ (213k từ)	Kích thước	Khi nào dùng
Rule-Based Serial	100%	~1,295 ms	5 KB	Logic tham chiếu (ẩn khỏi API)
Dictionary CPU	100%	~413 ms	315 KB	Mặc định trang chủ (`/api/translate`)
CNN-Shallow-Big	100%	~885 ms	16 KB	Trang AI (`/api/translate-ai`)
CNN-Big	99.93%	~1,253 ms	17 KB	Không deploy

Khi nào dùng cái nào?

Dictionary CPU. Tra cứu O(1) trên ~17,000 âm tiết tiếng Việt được tiền tính bằng Rule-Based. Nhanh nhất, deterministic. Từ ngoài từ điển (OOV) sẽ giữ nguyên không dịch.
CNN-Shallow-Big. Mạng nơ-ron 2 lớp Conv1D, ~3,300 tham số. Suy luận từng âm tiết theo char-level. Phù hợp khi muốn quan sát hành vi của AI trên text mới hoặc viết sai chính tả.
Rule-Based. Thuật toán gốc 5 bước (Section 5). Dùng để xây dictionary; không expose qua HTTP.