Cập nhật: 20:12 13/12/2025

GPT-5.2 của OpenAI đe dọa ngôi vị của Google Gemini 3

Mới đây, OpenAI đã chính thức giới thiệu GPT-5.2, mô hình ngôn ngữ lớn mới nhất được thiết kế tối ưu cho các công việc tri thức chuyên sâu, nghiên cứu khoa học và lập trình. Đây được xem là câu trả lời đanh thép của OpenAI trước sự trỗi dậy mạnh mẽ của Gemini 3 từ Google trong thời gian gần đây.GPT-5.2 được phát hành với ba phiên bản chính: Instant (nhanh), Thinking (tập trung suy luận sâu) và Pro (phiên bản mạnh nhất).

GPT-5.2 của OpenAI đe dọa ngôi vị của Google Gemini 3

Hiệu năng vượt trội trong công việc chuyên nghiệp (GDPval)

GPT-5.2 của OpenAI đe dọa ngôi vị của Google Gemini 3

Một trong những tiêu điểm của GPT-5.2 là khả năng xử lý các tác vụ “kiếm ra tiền” (economically valuable tasks). OpenAI đã sử dụng một bộ đánh giá mới có tên là GDPval – bao gồm các đầu việc tri thức đặc thù trải dài trên 44 ngành nghề khác nhau (như tạo bảng tính tài chính phức tạp, lên kế hoạch nhân sự, soạn thảo slide thuyết trình...).Kết quả cho thấy phiên bản GPT-5.2 Thinking đã đánh bại hoặc hòa với các chuyên gia con người trong 70.9% các trường hợp so sánh. Để dễ hình dung, phiên bản GPT-5 trước đó chỉ đạt mức 38.8%. Điều này đồng nghĩa với việc mô hình này không chỉ “chém gió” mà thực sự có thể thực hiện các công việc chuyên môn ở mức độ tin cậy cao.

"Bộ não" khoa học và toán học đạt đỉnh cao mới Nếu anh em quan tâm đến khả năng tư duy logic của AI, thì các con số benchmark của GPT-5.2 thực sự gây choáng ngợp: AIME 2025 (Thi Toán học): Đạt điểm số 100% tuyệt đối. Đây là một bước nhảy vọt, biến nó trở thành mô hình đầu tiên giải quyết trọn vẹn đề thi toán học thi đấu này mà không cần công cụ hỗ trợ.

GPT-5.2 của OpenAI đe dọa ngôi vị của Google Gemini 3

GPQA Diamond (Khoa học trình độ cao học): Phiên bản GPT-5.2 Pro đạt 93.2%, vượt qua ngưỡng của các chuyên gia trong lĩnh vực Vật lý, Hóa học và Sinh học.

GPT-5.2 của OpenAI đe dọa ngôi vị của Google Gemini 3

FrontierMath: Đây là bộ đề toán cực khó dành cho cấp độ chuyên gia nghiên cứu. GPT-5.2 giải được 40.3% số bài toán (Tier 1-3), một con số thoạt nghe có vẻ thấp nhưng thực tế là kỷ lục mới, bỏ xa các mô hình trước đó (vốn chỉ giải được dưới 10-20%). Đặc biệt, OpenAI đã công bố một case study cho thấy GPT-5.2 Pro đã hỗ trợ các nhà nghiên cứu giải quyết thành công một bài toán mở trong lý thuyết học thống kê (statistical learning theory), chứng minh rằng AI đã bắt đầu tham gia vào việc tạo ra tri thức khoa học mới chứ không chỉ là tổng hợp lại.

Khả năng lập trình và "Agent"

GPT-5.2 của OpenAI đe dọa ngôi vị của Google Gemini 3

Về mảng code, GPT-5.2 Thinking đạt 55.6% trên bảng xếp hạng SWE-Bench Pro – một bài kiểm tra kỹ thuật phần mềm sát thực tế, đòi hỏi AI phải xử lý code trên 4 ngôn ngữ lập trình khác nhau và giải quyết vấn đề trong các kho lưu trữ (repository) lớn.Mô hình này cũng thể hiện khả năng “Agentic” (tác vụ tự chủ) mạnh mẽ. Ví dụ, trong các tác vụ yêu cầu sử dụng công cụ (Tool calling) như Tau2-bench Telecom, nó đạt độ chính xác 98.7%. Điều này cho phép GPT-5.2 thực hiện các chuỗi công việc dài hơi như: tự động debug, refactor (tái cấu trúc) code, hoặc quản lý các quy trình chăm sóc khách hàng đa bước mà ít gặp lỗi ngớ ngẩn hơn.

Giảm ảo giác và xử lý ngữ cảnh dài

GPT-5.2 của OpenAI đe dọa ngôi vị của Google Gemini 3

Theo báo cáo kỹ thuật, GPT-5.2 Thinking giảm được 30% tỉ lệ bịa đặt thông tin so với GPT-5.1 Thinking. Đây là cải tiến cực kỳ quan trọng cho anh em làm nghiên cứu hoặc phân tích dữ liệu cần độ chính xác cao. GPT-5.2 cũng hỗ trợ ngữ cảnh dài, lên đến 256k tokens (tương đương hàng trăm nghìn từ).

GPT-5.2 của OpenAI đe dọa ngôi vị của Google Gemini 3GPT-5.2 của OpenAI đe dọa ngôi vị của Google Gemini 3

Trong bài kiểm tra MRCRv2 (tìm kiếm thông tin “kim đáy bể” trong văn bản dài), mô hình đạt độ chính xác gần như 100%, cho phép xử lý các tài liệu pháp lý hoặc báo cáo kỹ thuật dày cộp mà không bị “loạn”.

GPT-5.2 của OpenAI đe dọa ngôi vị của Google Gemini 3

Khả năng nhìn và hiểu hình ảnh cũng được nâng cấp mạnh. GPT-5.2 giảm một nửa tỉ lệ lỗi khi đọc biểu đồ khoa học và hiểu giao diện phần mềm. Ví dụ thực tế là anh em có thể quăng một tấm ảnh chụp màn hình dashboard phức tạp vào, và nó có thể phân tích số liệu hoặc bóc tách các thành phần giao diện (UI) chính xác hơn nhiều so với đời cũ.

Tổng kết

GPT-5.2 không chỉ là một bản cập nhật nhỏ giọt mà là một bước tiến lớn vào lãnh địa “làm việc chuyên nghiệp” của con người. Với việc đạt 100% điểm toán AIME và khả năng xử lý các tác vụ thực tế (GDPval) vượt trội, OpenAI đang muốn định vị lại ChatGPT từ một chatbot hỗ trợ sang một “nhân viên ảo” có trình độ chuyên gia.Hiện tại, người dùng các gói Plus, Pro và Enterprise đã có thể trải nghiệm dần các mô hình này.

Chủ đề:

CÓ THỂ BẠN QUAN TÂM:

© Công ty Phần mềm & Truyền thông VIỆT LONG
Địa chỉ:
Điện thoại:
Email:
Website: https://vietlong.org
Facebook: