Loading...
Vietnam Geography App
Loading...
Vietnam Geography App
Tìm hiểu đặc điểm của tiếng Việt trong xử lý ngôn ngữ tự nhiên. Học cách tokenization, word segmentation và các thách thức riêng của tiếng Việt.
Tách từ là quá trình xác định ranh giới của các từ trong một câu. Trong tiếng Anh, các từ được ngăn cách bởi dấu cách, nên việc này khá đơn giản. Nhưng trong tiếng Việt, một từ có thể bao gồm nhiều "tiếng" (âm tiết) viết liền nhau không có dấu cách rõ ràng (ví dụ: "học sinh", "xã hội chủ nghĩa"). Việc xác định đâu là một từ có ý nghĩa hoàn chỉnh là một bài toán phức tạp, đòi hỏi các mô hình phải hiểu ngữ cảnh.
Các mô hình được huấn luyện trực tiếp trên dữ liệu tiếng Việt (như PhoBERT của VinAI) có khả năng hiểu sâu sắc hơn về ngữ pháp, cấu trúc câu, và các sắc thái văn hóa, thành ngữ, tiếng lóng của người Việt. Các mô hình dịch máy có thể mất đi những sắc thái này và không hiệu quả bằng trong các tác vụ NLP phức tạp.
NER là một tác vụ của NLP nhằm xác định và phân loại các thực thể có tên trong văn bản, chẳng hạn như tên người, tên tổ chức, địa điểm, ngày tháng, v.v. Ví dụ, trong câu "Ông Nguyễn Phú Trọng đến thăm Hà Nội vào ngày 10/10/2020", NER sẽ nhận diện "Nguyễn Phú Trọng" là TÊN NGƯỜI, "Hà Nội" là ĐỊA ĐIỂM, và "10/10/2020" là NGÀY THÁNG.
Phân tích cảm xúc sử dụng NLP và học máy để xác định thái độ hoặc cảm xúc (tích cực, tiêu cực, trung tính) được thể hiện trong một đoạn văn bản. Các doanh nghiệp thường sử dụng công cụ này để phân tích các bình luận của khách hàng trên mạng xã hội, từ đó hiểu được phản ứng của công chúng đối với sản phẩm hoặc chiến dịch của họ.
LLM là một loại mô hình AI được huấn luyện trên một lượng dữ liệu văn bản khổng lồ để hiểu và tạo ra ngôn ngữ giống như con người. GPT-3, BERT, và PhoBERT là các ví dụ về LLM. Chúng là nền tảng cho rất nhiều ứng dụng NLP hiện đại, từ dịch máy, tóm tắt văn bản đến trả lời câu hỏi.
Nhận dạng giọng nói (còn gọi là Speech-to-Text) là quá trình chuyển đổi ngôn ngữ nói thành văn bản viết. Ngược lại, Tổng hợp giọng nói (Text-to-Speech) là quá trình tạo ra giọng nói nhân tạo từ văn bản viết. Cả hai công nghệ này là cốt lõi của các trợ lý ảo như Siri hay Google Assistant.
Đây là một thách thức lớn. Để một hệ thống nhận dạng giọng nói hoạt động tốt, nó cần được huấn luyện trên một tập dữ liệu âm thanh đa dạng, bao gồm giọng nói từ nhiều vùng miền khác nhau (Bắc, Trung, Nam) và từ nhiều lứa tuổi, giới tính khác nhau. Các kỹ thuật thích ứng (adaptation) cũng được sử dụng để mô hình có thể tùy chỉnh theo giọng của người dùng cụ thể.
Chatbot dựa trên quy tắc hoạt động theo một kịch bản được lập trình sẵn. Nó chỉ có thể trả lời các câu hỏi đã được định nghĩa trước. Chatbot dựa trên AI sử dụng NLP để hiểu ý định của người dùng và có thể xử lý các câu hỏi linh hoạt hơn, ngay cả khi chúng không được diễn đạt chính xác theo kịch bản. Chatbot AI có khả năng "học" từ các cuộc hội thoại.
Embedding là quá trình biểu diễn các từ hoặc câu dưới dạng các vector số học trong một không gian nhiều chiều. Quá trình này giúp máy tính có thể "hiểu" được mối quan hệ ngữ nghĩa giữa các từ. Ví dụ, trong không gian vector, từ "vua" và "hoàng hậu" sẽ có mối quan hệ tương tự như từ "ông" và "bà".
NMT là một phương pháp dịch máy hiện đại sử dụng các mạng nơ-ron sâu (deep neural networks) để dịch toàn bộ câu cùng một lúc, thay vì dịch từng cụm từ riêng lẻ như các phương pháp cũ. Điều này cho phép NMT tạo ra các bản dịch trôi chảy và chính xác hơn nhiều, vì nó có thể nắm bắt được ngữ cảnh của cả câu.
Đâu là một thách thức độc đáo của tiếng Việt trong xử lý ngôn ngữ tự nhiên?
FPT.AI cung cấp giải pháp gì cho các doanh nghiệp Việt Nam?
Implement text normalization cho tiếng Việt bao gồm dấu thanh và ký tự đặc biệt
Một hàm có khả năng chuẩn hóa văn bản tiếng Việt với độ chính xác cao.
Sử dụng `unicodedata.normalize("NFC", text)` và các quy tắc regex tùy chỉnh cho tiếng Việt.Đồng sáng lập, OhmniLabs & Kambria tại OhmniLabs
“Ngôn ngữ là cửa sổ tâm hồn của một dân tộc. Việc phát triển công nghệ xử lý ngôn ngữ tiếng Việt không chỉ là một bài toán kỹ thuật, mà còn là cách chúng ta bảo tồn và phát huy bản sắc văn hóa trong thế giới số.”
Zalo AI (VNG Corporation)
Cần một mô hình NLP hiệu suất cao để phục vụ hệ sinh thái Zalo với hàng chục triệu người dùng, có khả năng hiểu sâu sắc các sắc thái của tiếng Việt, bao gồm cả tiếng lóng và ngôn ngữ tuổi teen.
Zalo AI đã xây dựng các mô hình ngôn ngữ lớn được huấn luyện trên tập dữ liệu khổng lồ bằng tiếng Việt. Họ phát triển các kỹ thuật tách từ và nhận dạng thực thể (Named Entity Recognition) tiên tiến, được tối ưu hóa riêng cho tiếng Việt.
Cải thiện 40% khả năng hiểu văn bản tiếng Việt trên toàn hệ sinh thái Zalo, từ chatbot đến tìm kiếm. Các mô hình này cũng được chia sẻ cho cộng đồng, thúc đẩy sự phát triển của NLP tại Việt Nam.
FPT.AI
Các doanh nghiệp Việt Nam cần một nền tảng AI dễ tiếp cận để xây dựng các ứng dụng thông minh (như chatbot, tổng đài tự động) mà không cần đầu tư lớn vào R&D.
FPT.AI đã phát triển một nền tảng cung cấp các API và công cụ cho NLP tiếng Việt, bao gồm nhận dạng giọng nói, tổng hợp giọng nói, và xử lý ngôn ngữ tự nhiên. Nền tảng này cho phép các nhà phát triển tích hợp AI vào sản phẩm của họ một cách dễ dàng.
Hàng ngàn doanh nghiệp đã sử dụng FPT.AI để tự động hóa dịch vụ khách hàng và tối ưu hóa hoạt động. Nền tảng này đã dân chủ hóa công nghệ AI, giúp nhiều công ty tiếp cận và ứng dụng AI hơn.