Google I/O 2026: Gemini Omni, Gemini 3.5 Flash, agent cá nhân và 1000 thứ AI mới
By Duy Luân Dễ Thương
Share:
Dưới đây là bản tóm tắt chi tiết các nội dung chính từ sự kiện Google I/O 2026 dựa trên video:
Key Concepts
- Gemini 3.5 Flash: Model cân bằng giữa tốc độ, chi phí và hiệu năng.
- Gemini Omni: Model đa phương thức (multimodal) tập trung vào cảm nhận giác quan (video, âm thanh, hình ảnh).
- Agentic Workflow: Quy trình làm việc tự động hóa thông qua các tác nhân AI.
- Antigravity 2.0: Nền tảng xây dựng hệ thống agent với bộ khung "harness" điều phối hành vi.
- MCP (Model Context Protocol): Giao thức kết nối AI với các ứng dụng bên thứ ba.
- TPU (Tensor Processing Unit): Chip chuyên dụng cho AI (thế hệ thứ 8: 8T cho training, 8I cho inference).
1. Các dòng Model Gemini mới
- Gemini 3.5 Flash:
- Đặc điểm: Hiệu năng ngang ngửa các "frontier models" hiện nay (như Claude Opus 4.7, GPT 5.5) nhưng tốc độ xử lý token nhanh hơn đáng kể.
- Ứng dụng: Phù hợp cho lập trình (coding agent), các tác vụ dài hạn (long horizontal tasks) cần context window lớn.
- Gemini Omni:
- Mục tiêu: Xử lý thế giới quan (nhìn, nghe, chạm). Đầu vào đa dạng (text, ảnh, âm thanh, video).
- Tính năng: Tập trung vào tạo video, sau đó sẽ mở rộng sang tạo ảnh và văn bản.
- Gemini Omni Flash: Phiên bản tối ưu tốc độ của dòng Omni, sẽ sớm tích hợp vào ứng dụng Gemini và YouTube Shorts.
2. Antigravity 2.0 và Hệ sinh thái Agent
- Nền tảng: Chuyển từ công cụ hỗ trợ viết code thành nền tảng xây dựng hệ thống agent.
- Bộ khung Harness: Giúp agent hiểu rõ "khi nào cần làm gì" và đưa ra quyết định logic.
- Desktop App & SDK: Cho phép agent chạy song song trên máy tính, điều khiển các công cụ cục bộ thông qua prompt đơn giản. SDK cho phép lập trình viên bên thứ ba tích hợp bộ khung harness của Google.
3. Google Search và Trải nghiệm người dùng
- Thay đổi cách tìm kiếm: Khung tìm kiếm hỗ trợ xuống dòng để nhập prompt dài thay vì chỉ từ khóa. Hỗ trợ input đa phương thức (ảnh, video, âm thanh).
- Agent 24/7: Agent trong Search có thể theo dõi dữ liệu thời gian thực (ví dụ: giá chứng khoán) và gửi thông báo.
- Mini Apps: Agent có khả năng tự tạo giao diện web (UI) để thực hiện các tác vụ cụ thể, giúp người dùng không cần thuê lập trình viên cho các nhu cầu cá nhân/doanh nghiệp nhỏ.
4. Ứng dụng Gemini và Gemini Spark
- Giao diện: Ngôn ngữ thiết kế "Natural Expressive" mới, trực quan và tương lai hơn.
- Daily Brief Agent: Tự động tổng hợp dữ liệu từ Lịch, Drive, Gmail để tóm tắt công việc trong ngày.
- Gemini Spark: Dự án agent cá nhân chạy trên cloud 24/7, kết nối với các ứng dụng bên thứ ba (Asana, Booking.com, v.v.) thông qua MCP. Google đang hợp tác với các hãng phần cứng (Xiaomi, Vivo, Oppo, Samsung) để đưa khả năng này lên điện thoại.
5. Hạ tầng và Bảo mật
- Code Mender: API sử dụng Gemini để quét lỗ hổng bảo mật trong mã nguồn và tự động sửa lỗi.
- TPU thế hệ 8: Tách biệt kiến trúc: 8T (tối ưu huấn luyện) và 8I (tối ưu suy luận), giúp tăng hiệu suất và tiết kiệm điện năng.
- Google Docs: Tính năng "Doc Live" cho phép tạo và định dạng tài liệu thông qua giọng nói.
Các số liệu thống kê đáng chú ý
- Tốc độ tăng trưởng: Gemini hiện xử lý 3,2 nghìn tỷ (quadrillion) token mỗi tháng, tăng gấp 7 lần so với tháng 5/2025.
- Công suất: Hệ thống xử lý khoảng 19 tỷ token mỗi phút.
Tổng kết
Google đang thể hiện tham vọng trở thành đơn vị "Full-stack AI", kiểm soát từ hạ tầng phần cứng (TPU), mô hình ngôn ngữ (Gemini), nền tảng phát triển (Antigravity) cho đến các ứng dụng người dùng cuối. Điểm nhấn lớn nhất là sự chuyển dịch từ "chatbot" sang "Agentic AI" – nơi các tác nhân AI không chỉ trả lời câu hỏi mà còn chủ động thực hiện các quy trình công việc phức tạp, chạy 24/7 và kết nối sâu với dữ liệu cá nhân cũng như các ứng dụng bên thứ ba.
Chat with this Video
AI-PoweredLoad the transcript when you're ready to chat so the initial page stays lighter.