“ChatGPT phiên bản Việt” và câu chuyện của người tiên phong
Kinh tế - Xã hội

“ChatGPT phiên bản Việt” và câu chuyện của người tiên phong

PV
Tác giả: PV
Chỉ 9 tháng sau khi ChatGPT ra mắt, đội ngũ kỹ sư VinBigdata (Tập đoàn Vingroup) đã làm chủ hoàn toàn mô hình ngôn ngữ lớn tiếng Việt và chính thức giới thiệu ViGPT - ChatGPT phiên bản Việt đầu tiên dành cho người dùng cuối vào tháng 12/2023. Sản phẩm nhanh chóng gây được tiếng vang trong cộng đồng khoa học công nghệ Việt Nam.

Chọn con đường khó để giải bài toán Việt

Vào cuối năm 2022, ChatGPT tạo nên một “cú nổ lớn”, mở ra cuộc đua chinh phục AI tạo sinh giữa các các quốc gia và ông lớn trong lĩnh vực công nghệ. Giới công nghệ Việt khi ấy cũng sục sôi mong muốn phát triển những sản phẩm của riêng người Việt để tự chủ về công nghệ, giảm thiểu sự phụ thuộc vào các sản phẩm quốc tế. Tuy nhiên, không phải đơn vị nào cũng đủ khả năng và quyết tâm hiện thực hóa mong muốn ấy như VinBigdata.

“ChatGPT phiên bản Việt” và câu chuyện của người tiên phong

GS Vũ Hà Văn - Giám đốc Khoa học VinBigdata

“AI tạo sinh là một bài toán khó. Các ông lớn như OpenAI hay Google cũng phải đổ rất nhiều nguồn lực và thời gian vào nghiên cứu mới có thể tạo ra những sản phẩm như chúng ta thấy. Các sản phẩm này đã rất tốt nhưng thật ra các nhà khoa học cũng vẫn chưa hoàn toàn hiểu cơ cấu hoạt động của nó. Khi nào nó có lỗi, và lỗi sẽ như thế nào ít ai đoán trước được. Để phát triển một sản phẩm tương tự ChatGPT dành cho người Việt trong thời gian ngắn chưa tới một năm thì rất nhiều thử thách. Nhưng chúng tôi đã lựa chọn "liều" vì một phiên bản ChatGPT tiếng Việt nếu không phải người Việt làm thì ai làm”, GS. Vũ Hà Văn - Giám đốc Khoa học VinBigdata chia sẻ.

Thực tế, rất ít công ty lựa chọn xây dựng mô hình ngôn ngữ lớn của riêng mình từ đầu. Như GPT 3 của OpenAI có 175 tỷ tham số và được đào tạo trên bộ dữ liệu 45 terabyte và tiêu tốn 4,6 triệu USD. Thậm chí, theo tính toán, số tiền để phát triển GPT 4 có thể lên tới 100 triệu USD.

“Với những con số khổng lồ như thế, rất khó để tìm được một công ty nào đủ sức đầu tư cho công nghệ này”, TS. Nguyễn Kim Anh - Giám đốc Sản phẩm VinBigdata nói.

Để các doanh nghiệp Việt Nam có thể tiếp cận với công nghệ AI thế hệ mới với chi phí và hạ tầng tối ưu, VinBigdata lựa chọn một hướng đi hoàn toàn khác biệt, đó là tạo ra một mô hình ngôn ngữ chỉ với 1,6 tỷ tham số nhưng có khả năng tương đương với những mô hình ngôn ngữ lớn có nhiều tỷ tham số.

“Kết quả cho thấy, với kiến trúc do chính VinBigdata tự phát triển hoàn toàn có thể tối ưu và đẩy nhanh quá trình huấn luyện mô hình ngôn ngữ, giảm chi phí hạ tầng, bao gồm chi phí huấn luyện và chi phí sử dụng nhưng vẫn đảm bảo chất lượng của mô hình”, TS. Nguyễn Kim Anh cho biết thêm.

Sau khi giải quyết bài toán về kích thước mô hình ngôn ngữ lớn, trong quá trình “thai nghén” ViGPT, sau khi nghiên cứu các mô hình của nước ngoài, đội ngũ VinBigdata còn nhận ra một thử thách khác là “tính ảo giác”, đến từ bản chất cố hữu của mô hình xác suất thống kê.

Theo đó, các mô hình ngôn ngữ lớn trên thế giới thường được huấn luyện bằng các nguồn dữ liệu tiếng Anh. Do đó, mô hình này chưa thực sự hiểu và phản ứng đúng với ngữ cảnh và văn hóa của người Việt. Điều này dẫn đến tình trạng ảo giác (hallucination) khiến mô hình ngôn ngữ lớn “bịa đặt” ra câu trả lời không chính xác.

Để tìm ra lời giải tối ưu trong thời gian ngắn nhất, đội ngũ xử lý ngôn ngữ tự nhiên (NLP) của VinBigdata được chia thành các nhóm nhỏ, cùng phân tích, bàn bạc các ý tưởng khác nhau để tìm hướng đi cuối cùng phù hợp nhất.

“Sau cùng, chúng tôi quyết định phát triển kiến trúc khác so với phần lớn mô hình ngôn ngữ lớn hiện tại, đồng thời tiến hành đào tạo trên bộ 600GB dữ liệu tiếng Việt tinh chỉnh, nhằm tạo ra một “trợ lý ảo thông minh” có khả năng hiểu và đưa ra câu trả lời theo ngữ cảnh của người Việt”, TS. Nguyễn Kim Anh nói thêm.

Khát vọng một hệ sinh thái công nghệ Việt

Theo kết quả đánh giá từ Bộ Tiêu chuẩn đánh giá năng lực tiếng Việt (VMLU), ViGPT đạt điểm trung bình là 42.24%, đứng thứ hai chỉ sau ChatGPT (48.54%). Kết quả này cho phép ViGPT tìm kiếm thông tin, giải đáp câu hỏi về các chủ đề đặc trưng, đặc thù của Việt Nam một cách nhanh chóng.

Bên cạnh năng lực của trợ lý ảo, điều đội ngũ phát triển mong muốn là tích hợp ViGPT vào các sản phẩm gần gũi, sử dụng hằng ngày, nhằm tạo ra sự thay đổi trong cuộc sống của người Việt. Đó chính là động lực thôi thúc đội ngũ VinBigdata xây dựng một hệ sinh thái các sản phẩm ngôn ngữ và tiếng nói ứng dụng ViGPT - Hệ sinh thái “Vi” bao gồm: ViChat, ViVoice, Trợ lý ảo ViVi. Các sản phẩm này có thể sử dụng cho đa ngành nghề, từ công nghiệp ô tô, ngân hàng - tài chính, bảo hiểm đến giao thông vận tải và nhiều lĩnh vực khác.

“ChatGPT phiên bản Việt” và câu chuyện của người tiên phong

Đội ngũ VinBigdata kỳ vọng tạo ra một “trợ lý ảo thông minh” có khả năng hiểu và đưa ra câu trả lời theo ngữ cảnh của người Việt

“Khi làm công nghệ, nhất là AI, chúng tôi không chỉ muốn chinh phục những hệ thống hay, phức tạp mà khó nhìn thấy. Chúng tôi muốn tạo ra những sản phẩm hữu hình, có tính ứng dụng cao mà ở đó, AI là tác nhân trực tiếp tạo ra những thay đổi trong cuộc sống”, Giám đốc Sản phẩm VinBigdata khẳng định.

Do đó, phát triển thành công ViGPT mới chỉ là bước đầu tiên trong hành trình đưa công nghệ và dữ liệu “thuần Việt” phục vụ cuộc sống của hàng triệu người dân Việt Nam. Đại diện VinBigdata cho biết, đơn vị này đặt mục tiêu tích hợp ViGPT vào nền tảng trí tuệ nhân tạo đa nhận thức VinBase 2.0, nhằm cung cấp các giải pháp vượt trội cho hệ thống tổ chức, doanh nghiệp ở đa dạng quy mô, ngành nghề.

“ChatGPT phiên bản Việt” và câu chuyện của người tiên phong

ViGPT sẽ được tích hợp vào nền tảng VinBase 2.0, với các giải pháp ứng dụng AI tạo sinh và hệ tri thức đa ngành nghề, nhằm tăng tốc số hóa doanh nghiệp

Trước ViGPT, đội ngũ chuyên gia, kỹ sư trong lĩnh vực công nghệ xử lý ngôn ngữ và tiếng nói VinBigdata đã ghi dấu ấn với việc cho ra mắt ViVi - trợ lý ảo tiếng Việt toàn diện đầu tiên (được ứng dụng và triển khai trên các dòng ô tô điện VinFast, ứng dụng cư dân Vinhomes Resident và sàn thương mại điện tử Vinhomes Online), đồng thời, làm chủ hoàn toàn những công nghệ tiên tiến nhất trên thế giới như Sinh trắc học giọng nói (Voice Biometrics) hay Nhân bản giọng nói (Voice Cloning).

Tất cả những công nghệ này đều được phát triển dựa trên cơ sở dữ liệu 3.500 terabyte, tập trung chủ yếu vào dữ liệu đặc thù của người Việt, do VinBigdata thu thập, phân tích và tinh chỉnh. Mục tiêu sau cùng là làm sao mang công nghệ thế giới, chạm tới cuộc sống Việt, bằng chính dữ liệu và hệ tri thức của người Việt.

ViGPT là “ChatGPT phiên bản Việt" đầu tiên dành cho người dùng cuối được xây dựng dựa trên mô hình ngôn ngữ lớn tiếng Việt (LLM) do VinBigdata phát triển. ViGPT sở hữu những tính năng vượt trội và thiết kế phù hợp nhất với nhu cầu sử dụng của người Việt như sáng tạo nội dung, tìm kiếm thông tin, giải đáp các câu hỏi thường thức mang đặc trưng của Việt Nam. Đăng ký và trải nghiệm ViGPT tại: vigpt.vinbigdata.com

Hiến kế nâng cao chất lượng đội ngũ chủ tịch công đoàn cơ sở Hiến kế nâng cao chất lượng đội ngũ chủ tịch công đoàn cơ sở

Trước thềm Đại hội XIII Công đoàn Việt Nam, Tổng LĐLĐ Việt Nam tổ chức diễn đàn chuyên đề “Đổi mới công tác vận động, ...

Nâng cao chất lượng công tác nữ công trong chăm lo cho lao động nữ Nâng cao chất lượng công tác nữ công trong chăm lo cho lao động nữ

Những hoạt động chăm lo đời sống vật chất, tinh thần của lao động nói chung và lao động nữ nói riêng luôn là vấn ...

Mua xe máy cũ cần lưu ý những gì để vừa chất lượng vừa giá tốt Mua xe máy cũ cần lưu ý những gì để vừa chất lượng vừa giá tốt

Làm thế nào để có thể sở hữu một chiếc xe máy cũ (đã qua sử dụng) nhưng vẫn đảm bảo các tiêu chí: chất ...

Tin mới hơn

Thẻ OCB tối ưu mọi nhu cầu cho giới trẻ

Thẻ OCB tối ưu mọi nhu cầu cho giới trẻ

Hoàn tiền 15%, hỗ trợ trả góp 0% lãi suất với kỳ hạn lên đến 36 tháng, miễn phí sử dụng phòng chờ sân bay… là những điểm sáng trong hàng loạt các chương trình ưu đãi hấp dẫn dành riêng cho chủ thẻ OCB. Ngoài ra, ngân hàng Phương Đông (OCB) cũng đã phát triển hệ sinh thái thẻ toàn diện, bao gồm cả thẻ tín dụng và thẻ ghi nợ, thiết kế “may đo” phù hợp từng nhu cầu khách hàng. Điều này đã và đang góp phần tái định nghĩa khái niệm về thẻ, đưa thẻ trở thành phương thức thanh toán cực linh hoạt và tối ưu cho giới trẻ hiện nay.
VietinBank 9 tháng đầu năm 2025: Duy trì tăng trưởng vượt trội, kiểm soát tốt chất lượng tài sản

VietinBank 9 tháng đầu năm 2025: Duy trì tăng trưởng vượt trội, kiểm soát tốt chất lượng tài sản

Chiều 13.11, Ngân hàng TMCP Công Thương Việt Nam (VietinBank) đã tổ chức thành công Hội nghị cập nhật kết quả kinh doanh quý 3/2025.
Ban Công đoàn Quốc phòng chi hơn 1,6 tỷ đồng hỗ trợ đoàn viên bị bão lũ

Ban Công đoàn Quốc phòng chi hơn 1,6 tỷ đồng hỗ trợ đoàn viên bị bão lũ

Trước những thiệt hại nặng nề do bão số 10 (Bualoi), bão số 11 (MATMO) và lũ lụt miền Trung tháng 10.2025 gây ra, Ban Công đoàn Quốc phòng đã phê duyệt chuyển hơn 1,6 tỷ đồng hỗ trợ 1.324 trường hợp đoàn viên và người lao động (NLĐ) bị ảnh hưởng về nhà ở, tài sản.

Tin tức khác

Mắm moi chua Vích Phương: Di sản ẩm thực được khẳng định bởi OCOP 3 sao

Mắm moi chua Vích Phương: Di sản ẩm thực được khẳng định bởi OCOP 3 sao

Mắm moi chua Vích Phương được làm từ tép biển tươi đánh bắt ở Sầm Sơn (Thanh Hóa). Đây không chỉ là một loại gia vị mà còn thể hiện sự gìn giữ và sáng tạo trong ẩm thực truyền thống.
Xu hướng dòng tiền cuối năm: Tiết kiệm ngân hàng trở thành lựa chọn tối ưu

Xu hướng dòng tiền cuối năm: Tiết kiệm ngân hàng trở thành lựa chọn tối ưu

Cuối năm là thời điểm để đánh giá lại kết quả đạt được trong năm và đặt ra mục tiêu tài chính cho năm mới. Xu hướng mới cho thấy người dùng chuyển từ các kênh đầu tư rủi ro sang các giải pháp tích lũy an toàn, trong đó gửi tiết kiệm ngân hàng trở lại như một trong những lựa chọn dẫn đầu.
Xã rác - có phải lỗi chính tả không?

Xã rác - có phải lỗi chính tả không?

Suốt vài chục ngày gần đây, lượng rác thải ở các xã dọc trên Quốc lộ 9 - cửa ngõ của Hành lang kinh tế Đông Tây (EWEC) và Cửa khẩu quốc tế đường bộ Xuyên Á - bị dồn ứ rất nhiều trong dân cư và nơi công cộng.
BIDV đồng hành triển khai chiến dịch “60 ngày cao điểm hỗ trợ hộ kinh doanh chuyển đổi sang ke khai thuế”

BIDV đồng hành triển khai chiến dịch “60 ngày cao điểm hỗ trợ hộ kinh doanh chuyển đổi sang ke khai thuế”

Ngày 14.11, tại TP. Hồ Chí Minh, Ngân hàng TMCP Đầu tư và Phát triển Việt Nam (BIDV) và Thuế TP. Hồ Chí Minh đã ký kết Thỏa thuận hợp tác nhằm đồng hành triển khai chiến dịch “60 ngày cao điểm hỗ trợ hộ kinh doanh chuyển đổi mô hình từ thuế khoán sang kê khai”, góp phần thực hiện chủ trương của Bộ Tài chính và ngành Thuế về xóa bỏ thuế khoán, chuyển toàn bộ hộ kinh doanh sang nộp thuế theo phương pháp kê khai từ ngày 01.01.2026.
Ban Công đoàn Quốc phòng hỗ trợ Công ty X20 Thái Nguyên xây nhà "Mái ấm công đoàn, nghĩa tình đồng đội"

Ban Công đoàn Quốc phòng hỗ trợ Công ty X20 Thái Nguyên xây nhà "Mái ấm công đoàn, nghĩa tình đồng đội"

Trong những ngày đầu tháng 10.2025, bão số 11 (MATMO) gây lũ lụt nghiêm trọng tại Thái Nguyên, khiến hơn 300 gia đình và 227 người lao động (NLĐ) tại Công ty TNHH MTV X20 Thái Nguyên thiệt hại nặng nề, ước tính 6 tỷ đồng.
SeABank “xanh hóa” vận hành, nâng cao ý thức bảo vệ môi trường vì mục tiêu net-zero

SeABank “xanh hóa” vận hành, nâng cao ý thức bảo vệ môi trường vì mục tiêu net-zero

Trên hành trình phát triển bền vững và đóng góp cho mục tiêu chung về giảm phát thải carbon, SeABank đẩy mạnh “xanh hóa” vận hành và tối ưu quy trình, kết hợp triển khai các hoạt động xanh nhằm lan tỏa tinh thần vì môi trường.
Xem thêm