AI và Social Insight: Đảm bảo
Độ tin cậy của Dữ liệu Đầu vào

Khai thác dữ liệu mạng xã hội đang đóng vai trò ngày càng then chốt trong tìm hiểu hành vi người tiêu dùng và xu hướng thị trường. Đặc biệt, khi các doanh nghiệp đang đứng trong giai đoạn mới của “cơn bão” chuyển đổi số – AI. Các mô hình trí tuệ nhân tạo tiên tiến liên tục ra mắt mỗi 6 tháng, nhưng cũng đặt ra những thách thức về độ tin cậy của thông tin tạo ra bởi AI.

Bài viết này sẽ giúp các tổ chức và nhà lãnh đạo hiểu rõ ba yếu tố cốt lõi quyết định chất lượng phân tích social insight: cơ chế thu thập dữ liệu, quy trình xử lý thông tin, và phương pháp tích hợp AI với chuyên môn con người.

A4 1920x1080 cover

Độ phủ Dữ liệu:
Nền tảng cho Phân tích chính xác

1. Thách thức về Dữ liệu lịch sử (Historical data)

Để đưa ra phân tích có giá trị về xu hướng và dự báo đáng tin cậy, chúng ta cần xem xét theo chiều sâu thời gian. Ví dụ như trong ngành có các mùa cao điểm nào, các sản phẩm nào có xu hướng viral theo chu kỳ ra sao. Thương hiệu đã trải qua những giai đoạn, các thông điệp gì mỗi thời kỳ, có từng vấp phải khủng hoảng truyền thông hay không. Người dùng nhận thức về thương hiệu ra sao, sự thay đổi cách nhìn của họ về thương hiệu, v.v.

Với một tầm nhìn dài hạn, từ năm 2013, YouNet Media đã bắt đầu thu thập và lưu trữ dữ liệu mạng xã hội trực tiếp trên máy chủ tại Việt Nam. Điều này có nghĩa là đến nay, “mỏ dầu” dữ liệu đã trải rộng hầu hết các nền tảng, với bề dày hơn một thập kỷ – từ thời Facebook còn đang trong giai đoạn bùng nổ, đến khi TikTok bắt đầu làm “điên đảo” giới trẻ, hay Threads nổi lên như một đế chế “phông bạt”. Khả năng theo dõi sự phát triển các platform này qua thời gian tạo lợi thế cạnh tranh trong việc hiểu xu hướng và dự báo. Đồng thời, YouNet Media cũng là đơn vị duy nhất trong khu vực sở hữu kho dữ liệu mạng xã hội có thể truy xuất tới 3 năm trước, đáp ứng mọi nhu cầu báo cáo, kiểm định chuyên sâu và phân tích hiệu quả truyền thông trong quá khứ.

Trong khi, các hệ thống tích hợp AI, chỉ mới ra đời từ năm 2022 (ChatGPT), vấp phải sự tạm thời của dữ liệu mạng xã hội. Khác với sách báo có thể lưu trữ trong thư viện, nội dung mạng xã hội có thể bị xóa, ẩn, hoặc thay đổi thuật toán hiển thị mỗi năm. Một bài viết viral hôm nay có thể không còn tìm thấy được vào tháng sau. Đây chính là lý do tại sao việc bỏ lỡ giai đoạn đầu có thể trở thành bất lợi vĩnh viễn.

2. Chiến lược Mở rộng Nguồn Dữ liệu

Một thách thức nhưng cũng đồng thời là một điểm đặc biệt thú vị đó là làm sao thu thập dữ liệu trong một thị trường có ngôn ngữ mạng phức tạp như Việt Nam?

Hầu hết các công nghệ thu thập dữ liệu hoạt động theo nguyên lý “keyword-based” – tức là tìm kiếm theo từ khóa cố định. Ví dụ, khi muốn theo dõi thương hiệu “Grab”, máy tính sẽ tìm tất cả các bài viết có chứa từ “Grab”, cùng một số biến thể “Grap”, “Grabfood”, “Grabike”, v.v..

Tuy nhiên, cách người dùng Việt Nam sử dụng ngôn ngữ rất sáng tạo và đôi khi mang sắc thái mỉa mai. “Grab” có thể được gọi là “garb”, “gáp”, “gờ rap”, “gờ rấp”, v.v.. Đặc biệt, khi xảy ra khủng hoảng truyền thông, từ ngữ lan truyền có thể biến đổi cực nhanh. Cũng như người dùng cũng thường thay đổi và “úp mở” (app xanh lá) để tránh bị phát hiện.

Chính vì vậy, nếu hệ thống thu thập chỉ dựa trên keywords sẽ gây thiếu sót nguồn dữ liệu. Đây là lúc cần tăng cường thêm thuật toán quét hàng loạt trên quy mô lớn, và loang dần ra. Bắt đầu từ một nguồn phát, sau đó loang ra tìm các nội dung liên quan, các tài khoản tương tác, các group, page có nội dung tương tự. Như vậy, nền tảng có thể tự động phát hiện ra những cách gọi mới, những trend mới, những nguồn thông tin mới mà con người chưa kịp nghĩ đến.

YouNet Media kết hợp các công nghệ trên, cùng với sự can thiệp của con người. Khi phát hiện một điểm nóng hoặc khủng hoảng truyền thông mới, chuyên gia có thể ngay lập tức bổ sung thêm nguồn dữ liệu, và hệ thống cũng tăng cường phản ứng để không bỏ lỡ thông tin quan trọng nào.

A4 quy trinh xu ly du lieu social

Giải pháp bền vững nằm ở việc đầu tư liên tục cải thiện thuật toán thu thập, phát triển phương pháp tích hợp đa nền tảng và nâng cấp hạ tầng công nghệ.

3. Rào cản Chi phí và Vòng luẩn quẩn hệ thống

Giải pháp lý thuyết như trên, nhưng không phải tổ chức nào cũng có thể dễ dàng xây dựng công nghệ thu thập dữ liệu quy mô lớn. Hãy tưởng tượng chúng ta muốn mở một thư viện. Có thể bắt đầu bằng vài quyển sách, nhưng để trở thành thư viện uy tín, chúng ta cần hàng nghìn, thậm chí hàng triệu cuốn sách, giải pháp phân loại phức tạp, không gian lưu trữ rộng lớn và đội ngũ thủ thư chuyên nghiệp.

Thu thập dữ liệu mạng xã hội cũng tương tự. Để theo dõi hàng triệu bài viết, thảo luận, tương tác mỗi ngày từ hàng chục nền tảng khác nhau, cần hạ tầng máy chủ siêu mạnh, băng thông internet “khủng”, bộ nhớ lưu trữ với dung lượng petabyte, và tất nhiên là chi phí vận hành hàng tháng không hề nhỏ.

Điều này tạo ra một vòng luẩn quẩn mà nhiều công ty khởi nghiệp gặp phải. Không có nhiều khách hàng nên không đủ ngân sách đầu tư hạ tầng thu thập dữ liệu đầy đủ. Không có dữ liệu đầy đủ nên chất lượng phân tích kém, khó thu hút khách hàng mới. Ít khách hàng hơn nữa, và chu trình lặp lại.

Xử lý dữ liệu chính xác:
Vai trò không thể thay thế của Con người

1. Hạn chế của AI trong Xử lý Ngôn ngữ tự nhiên

Ngoài ví dụ vừa được nêu trên, các mô hình ngôn ngữ lớn (LLM) vẫn tồn tại hạn chế trong việc hiểu sâu ngữ nghĩa, bối cảnh văn hóa, lịch sử và tham chiếu xã hội hiện tại. Có thể kể đến như nội dung spam, thông tin vô nghĩa, hoặc biểu đạt ẩn dụ, meme và comic châm biếm theo dòng thời sự.

Để giải quyết vùng tối này của AI, YouNet Media đặt con người vào vai trò “gác cổng”, chặn đứng các thông tin spam, thao túng đi vào, khiến AI học và phân tích sai. Đây là chiến lược hệ thống, đảm bảo độ tin cậy cho khách hàng và an toàn cho AI. Quy trình kiểm duyệt bởi chuyên gia không chỉ ngăn chặn thông tin sai lệch mà giúp AI học hỏi từ quyết định chính xác của con người.

Ngoài ra, tại Việt Nam, social listening nhiều năm qua phải đối mặt thách thức lớn từ hàng triệu người dùng ảo, được tạo ra nhằm lừa đảo, gian lận tương tác và thao túng dư luận. YouNet Media đã phát triển công nghệ xác thực nội dung với chỉ số CFQU (Content From Qualified Users) – nỗ lực tiên phong mang tính định hướng và chuẩn hóa cho phân tích hành vi người dùng. CFQU hoạt động như một thuật toán “thẩm định uy tín”, phân biệt nội dung từ người dùng thực và tài khoản giả mạo.

2. Giới hạn Kỹ thuật trong Xử lý dữ liệu quy mô lớn

Mặc dù các mô hình AI được đào tạo trên dữ liệu lớn, nhưng không có nghĩa là khả năng xử lý cũng lớn như vậy. Context length (Độ dài ngữ cảnh) vẫn là một rào cản kỹ thuật của tất cả LLM hiện nay. Thuật ngữ này có thể hiểu như “bộ nhớ tạm thời” của AI – quyết định AI có thể “nhớ” và xử lý bao nhiêu thông tin cùng lúc. Quan trọng hơn, Effective context length (độ dài ngữ cảnh hiệu quả) là bộ nhớ mà AI hoạt động chính xác, thường nhỏ hơn nhiều so với Context length mặc định. Khi xử lý quá nhiều thông tin, AI “mất tập trung” và bỏ qua chi tiết quan trọng, đặc biệt thông tin ở giữa đoạn văn bản dài.

A4 effective context length

Trên thực tế, khi xử lý hàng nghìn bình luận và tương tác mạng xã hội, những hạn chế này trở nên nghiêm trọng. Cùng một bộ dữ liệu, có thể cho kết quả hoàn toàn khác nhau chỉ vì thứ tự sắp xếp thay đổi hoặc AI “quên” các dữ liệu ở đầu khi xử lý đến cuối. Hoặc bỏ qua những insight có giá trị chỉ vì chúng nằm ở vị trí “không may mắn”.

Giải pháp đa tầng cho hạn chế này bao gồm: sử dụng mô hình có khả năng xử lý ngữ cảnh lớn và hiệu suất cao hơn; giảm độ ngẫu nhiên qua cấu hình tối ưu và prompt engineering; kết hợp giám sát con người qua cơ chế kiểm soát chất lượng.

Quy trình tối ưu hiện nay chúng tôi đang áp dụng RLHF (Reinforcement Learning from Human Feedback) – kỹ thuật giúp AI học từ phản hồi con người. Quá trình này giống việc dạy trẻ qua khen thưởng và uốn nắn: thay vì chỉ cho AI đáp án đúng, con người đánh giá chất lượng nhiều câu trả lời, từ đó AI học cách tự điều chỉnh để được đánh giá cao hơn.

RLHF gồm ba giai đoạn: AI được huấn luyện cơ bản trên dữ liệu đã làm sạch; con người đánh giá và xếp hạng kết quả đầu ra theo tiêu chí chất lượng; AI sử dụng đánh giá này để tự điều chỉnh. Quá trình lặp lại liên tục tạo chu trình cải tiến với sự tham gia trực tiếp của chuyên gia.

Xử lý dữ liệu chính xác:
Vai trò không thể thay thế của Con người

Framework DIKW (Data – Information – Knowledge – Wisdom) giúp xác định giai đoạn AI hỗ trợ hiệu quả và giai đoạn cần can thiệp con người.

Artboard 1 copy

1. AI Thống trị Cấp độ Data và Information

Ở cấp độ Data, AI thể hiện ưu thế vượt trội trong thu thập, lưu trữ và tổ chức khối lượng thông tin khổng lồ từ mạng xã hội. Khả năng xử lý song song và tốc độ cao cho phép thu thập và phân loại hàng triệu điểm dữ liệu trong thời gian ngắn.

Cao hơn là Information, AI tiếp tục hiệu quả trong biến đổi dữ liệu thô thành thông tin có cấu trúc. Các thuật toán machine learning và deep learning nhận diện mẫu, phân loại nội dung và thực hiện tính toán thống kê.

2. Sự kết hợp AI x Human ở Tầng Knowledge

Tầng thứ ba – Knowledge – là nơi diễn ra cuộc chuyển giao quyền lực từ AI sang con người. Tại đây, chúng ta không chỉ cần biết “điều gì đã xảy ra” mà còn cần hiểu “tại sao nó xảy ra”“ý nghĩa của nó là gì”.

Trong thực tế, một chuyên gia con người nhìn vào báo cáo AI và nhận ra: “15% sentiment tiêu cực tập trung vào ngày 15/3 có thể liên quan đến sự cố chăm sóc khách hàng được một KOL chia sẻ. Hashtag #brandABC tăng đột biến sau campaign với celebrity X, nhưng unique audience thực sự thấp cho thấy đây có thể là tương tác ảo. Độ tuổi 18-25 tương tác nhiều nhưng ít chuyển đổi mua hàng, cần điều chỉnh chiến lược, v.v..”

Rõ ràng, đây là lúc kinh nghiệm, hiểu biết về thị trường, ngành hàng, khả năng đọc vị tâm lý người tiêu dùng của con người phát huy vai trò không thể thay thế.

3. Con người Độc quyền Tầng Wisdom

Tầng trên cùng – Wisdom – là lĩnh vực con người giữ vai trò độc tôn. Trí tuệ bao gồm khả năng đưa ra quyết định chiến lược, dự đoán xu hướng dài hạn và hiểu tác động sâu rộng của hành động.

Từ những Knowledge ở tầng dưới, một Brand Manager có thể quyết định: “Chúng ta sẽ tạm dừng hợp tác với celebrity X và tập trung vào micro-influencers có engagement thật. Đầu tư thêm vào content quality thay vì quantity. Xây dựng chương trình loyalty cho segment 18-25 tuổi với incentive phù hợp…”

Con người sử dụng tri thức từ sự kết hợp AI x Human để đưa ra quyết định chiến lược cao, phát triển chiến dịch marketing sáng tạo và xây dựng kế hoạch kinh doanh dài hạn. Đây là nơi kinh nghiệm, trực giác và tư duy sáng tạo phát huy vai trò không thể thay thế.

Tạm kết:
Hướng tới Tương lai bền vững

Câu chuyện mà chúng ta đang cùng thảo luận không phải là về cuộc đấu tranh giữa AI và Con người, mà là về sự phối hợp giữa hai loại năng lực khác nhau. AI với sức mạnh xử lý, con người với trí tuệ, kinh nghiệm và trực giác.

Những tổ chức muốn dẫn đầu trong tương lai không phải là những đơn vị có AI “thông minh nhất”, mà là những đơn vị biết cách tạo ra sự hài hòa giữa công nghệ và con người. Chúng ta cần hiểu rằng AI là công cụ mạnh mẽ để xử lý Data và Information, nhưng con người mới là trọng tâm tạo ra Knowledge và Wisdom.

Hành trình này đòi hỏi sự kiên nhẫn, đầu tư liên tục và tư duy cải tiến. Xuyên suốt hành trình này, YouNet Media luôn nỗ lực xây dựng và duy trì hệ sinh thái tích hợp, không chỉ để mang đến thành công cho khách hàng hiện tại mà còn định hình tương lai của ngành phân tích dữ liệu mạng xã hội tại Việt Nam.

Bài viết cùng chủ đề
4 Tiêu chí Vàng khi lựa chọn Giải pháp Social Listening
4 Tiêu chí Vàng khi lựa chọn Giải pháp Social Listening

Việc lựa chọn không chỉ đơn thuần dựa trên báo giá hay những tính năng hào nhoáng, mà cần am hiểu về tiêu chí kỹ thuật, đảm bảo độ chính xác, cân bằng...

A6 480x360 1
Khả năng và Giới hạn của AI trong Social Insight

Bài viết đi sâu theo từng cấp độ, các nhiệm vụ AI đang làm tốt, cùng với đó là các khu vực AI vẫn còn sơ khai, cần những Chuyên gia Con người dẫn dắt. Từ đó, rút ra phương pháp phối hợp giữa 2 loại năng lực trên.

Công ty thành viên thuộc YouNet Group - Công ty tiên phong, dẫn đầu về nền tảng và dịch vụ phân tích dữ liệu Mạng Xã Hội & Thương Mại Điện Tử.
© Copyright 2025. YouNet Media, all rights reserved.
Về chúng tôi
  • Hotline 1: 097 774 8746
  • Hotline 2: 028 3535 7356
  • Địa chỉ: Tầng 2, Tòa Nhà Lữ Gia Plaza, 70 Lữ Gia, Phường 15, Quận 11, Tp. Hồ Chí Minh, Việt Nam
Social Suite
Tết 2024
Campaign Ranking
Tết 2023
Tết 2022
Tết 2021
Tết 2020
Tết 2025