Skip to main content

Tại sao AI buộc phải xây lại Internet từ đầu?

Cập nhật: 2026-06-29

Mục lục


1. Internet truyền thống và giới hạn của nó

Internet truyền thống được thiết kế theo mô hình best-effort — tức là nỗ lực tối đa. Các gói dữ liệu di chuyển độc lập, tự tìm đường đi, bất chấp việc phải đi đường vòng. Khi có tắc nghẽn, một vài gói bị trễ hoặc rớt và phải gửi lại, nhưng hệ thống vẫn xử lý bình thản — video chỉ khựng lại vài mili giây để tải buffer, luồng công việc không sụp đổ.

💡 Hình dung: Mạng Internet truyền thống giống như hệ thống giao thông trong giờ cao điểm — mạnh ai nấy đi. Kẹt xe thì đi đường khác, hệ thống vẫn tiếp tục vận hành.

Tuy nhiên, khi AI tiến vào trung tâm sân khấu, sự linh động này lập tức bị xóa sổ. AI không chấp nhận kiểu "đi đường vòng" — nó đòi hỏi sự đồng bộ tuyệt đối.

💡 Hình dung: AI giống như hàng trăm ngàn vận động viên phải thực hiện cùng một động tác vào đúng cùng một phần nghìn giây. Chỉ cần một người trễ nhịp, toàn bộ màn trình diễn coi như bỏ đi.


2. Luồng lưu lượng Đông-Tây và thách thức Incast

Sự thay đổi hướng lưu lượng

Hàng thập kỷ, lưu lượng mạng chủ yếu chảy theo trục Bắc-Nam — từ máy chủ xuống người dùng cuối. AI đòi hỏi một luồng hoàn toàn khác: lưu lượng Đông-Tây, tức là đi ngang giữa các máy chủ với nhau.

Cụ thể, hàng chục ngàn GPU nằm cạnh nhau phải liên tục nói chuyện chéo với nhau ở tốc độ cực lớn trước khi có thể trả về bất kỳ kết quả nào.

Hai giai đoạn vật lý của AI

AI có hai giai đoạn hoàn toàn trái ngược nhau:

  • Training (đào tạo): Các kỹ sư kết nối hàng trăm ngàn GPU thành một bộ não duy nhất. Ví dụ cụm Sci-I Colossus ở Memphis kết nối 100.000 GPU lại với nhau. Các chip này liên tục chia sẻ các ma trận toán học khổng lồ để học hỏi.
  • Inference (suy luận): Khi AI đã học xong và bắt đầu trả lời câu hỏi của người dùng.

Hiện tượng Incast — cơn bão dữ liệu

Incast là hiện tượng tắc nghẽn đồng loạt: nhiều GPU cùng hoàn thành một phép tính và gửi kết quả về một nút nhận duy nhất vào đúng cùng một phần triệu giây.

Ví dụ: 4 cổng mạng, mỗi cổng xả dữ liệu ở mức 400 Gbps. Khi 4 luồng cùng ập đến một cổng nhận cũng chỉ có sức chứa 400 Gbps, lập tức có 1,6 Tbps dữ liệu dồn vào một nút thắt. Bộ nhớ đệm của bộ chuyển mạch tràn ra ngoài chỉ trong nháy mắt.

💡 Hình dung: Cố gắng úp 4 xô nước khổng lồ cùng một lúc vào một cái phễu bé tí — nước chắc chắn sẽ tràn. Trong thế giới mạng, nước tràn chính là hiện tượng rớt gói tin.

Hậu quả dây chuyền của Incast

Vì tính chất đồng bộ hóa tuyệt đối của mạng Đông-Tây: khi một GPU phát hiện thiếu dữ liệu, nó buộc phải dừng lại để yêu cầu gửi lại. 99,999 GPU còn lại trong cụm cũng lập tức bị khựng lại theo vì không thể bước sang nhịp tính toán tiếp theo nếu thiếu mảng dữ liệu từ GPU kia.

Toàn bộ cụm siêu máy tính rơi vào trạng thái đứng hình — tiền đầu tư bốc hơi theo từng mili giây nhàn rỗi.

East-West Traffic vs Traditional N-S + Incast BottleneckTraditional: North-SouthServerUser / ClientFlexible, best-effort OKPacket loss = retry onlyAI Workload: East-West (all GPUs must sync)GPU AGPU BGPU CGPU DGradient values sync at every training step1 missing packet = entire cluster stallsUp to 100,000 GPUs must synchronize simultaneouslyDrives enormous East-West bandwidth demandIncast: Simultaneous Burst Causes Buffer OverflowGPU 1 · 400GGPU 2 · 400GGPU 3 · 400GGPU 4 · 400G4 x 400 Gbps = 1.6 Tbps arrive at the same momentSwitch BufferMax capacity: 400 GbpsBuffer overflow — Packet drop1 GPU retransmits → 99,999 GPUs stall → cluster haltsEvery idle millisecond = thousands of dollars wasted

3. Backend Network vs Frontend Network

Thách thức Incast buộc phải xây dựng hai loại mạng tách biệt:

Backend NetworkFrontend Network
Dành choTraining (đào tạo)Inference (suy luận)
Phần cứngCáp và cổng chuyển mạch xịn nhất, đắt tiền nhấtTối ưu cho độ trễ thấp
Tiêu chí sống cònTuyệt đối không mất mát dữ liệu dù chỉ một bitĐộ trễ cực thấp khi phục vụ người dùng

💡 Hình dung: Như một sân bay có hai khu vực hoàn toàn tách biệt — nhà ga hàng hóa nặng (Backend: zero packet loss, chở hàng quý không được mất) và nhà ga hành khách (Frontend: cửa lên máy bay nhanh nhất, ưu tiên tốc độ thông qua).


4. Kiến trúc vật lý siêu trung tâm dữ liệu AI

Cấu trúc phân cấp

Node (vài GPU)
└── Rack (nhiều node xếp chồng)
└── Pod (nhiều rack nối lại — 256 đến 8.000+ GPU)
└── Siêu trung tâm dữ liệu (nhiều pod)

Một Pod có thể chứa từ 256 đến hơn 8.000 GPU tùy quy mô.

💡 Hình dung: Giống như tổ chức quân đội — GPU là chiến sĩ, Node là tiểu đội, Rack là đại đội, Pod là trung đoàn, siêu trung tâm là quân đoàn. Càng lên cao, kết nối càng cần mạnh hơn — đến mức phải dùng ánh sáng thay cáp đồng.

Optical DCI — kết nối quang học

Cáp đồng thông thường không thể chuyển lượng dữ liệu khổng lồ đi xa. Để ghép nối các pod thành siêu trung tâm dữ liệu, phải dùng Optical DCI (Data Center Interconnect quang học) — các chùm tia laser cực mạnh để cõng dữ liệu băng qua những khoảng cách xa trong các tòa nhà khổng lồ mà không làm mất đi vài phần nghìn giây quý giá.

Quy mô quốc gia: Sáng kiến IAGF châu Âu

Nhóm vận hành mạng Tây Ban Nha (ASNOG) đề cập đến sáng kiến IAGF của châu Âu: huy động đến 20 tỷ euro qua hình thức hợp tác công tư để xây những siêu trung tâm dữ liệu chứa hơn 100.000 vi xử lý tiên tiến.

AI đã trở thành một dạng cơ sở hạ tầng trọng yếu — quan trọng không kém gì lưới điện quốc gia.

Kiểm nghiệm trước khi triển khai: Nokia AI Network Innovation Center

Không ai dám xây siêu trung tâm dữ liệu chỉ dựa trên lý thuyết. Tại phòng thí nghiệm ở Sunnyvale, California, Nokia vận hành các hệ thống giả lập để tạo ra tải trọng mạng AI khắc nghiệt nhất, ép các thiết bị đến tận giới hạn phá hủy.

Kết quả là các bản thiết kế NDDS (Nokia Validated Design) — bộ khuôn mẫu kiến trúc đã vượt qua mọi sự tra tấn kỹ thuật. Khi các nhà mạng mua về triển khai thực tế, rủi ro sụp đổ gần như bằng không.

AI Datacenter Physical HierarchyHyperscale AI DatacenterPod A256 – 8,000+ GPUsPod B256 – 8,000+ GPUsOptical DCI(laser, long-range)RackRackNodeNodeGPUGPUGPUScale ReferenceGPU — 1 compute chipNode — few GPUs + NVLinkRack — stacked nodesPod — 256 to 8,000+ GPUsReal deployments:• Sci-AI Colossus (Memphis): 100,000 GPUs connected• IAGF Europe target: 100,000+ chips, €20BInterconnect by distance:GPU to Node — NVLinkNode to Rack — copperPod to DC — Optical DCI(laser beams across buildings)DatacenterPodRackNodeGPUNokia NDDS (Validated Designs): each layer stress-tested at Sunnyvale lab before production — near-zero collapse riskPartners: Lenovo, Supermicro, AMD

5. Cuộc chiến giao thức: InfiniBand vs Ultra Ethernet

InfiniBand — tiêu chuẩn vàng cũ

Trong thế giới siêu máy tính, InfiniBand từng là tiêu chuẩn vàng không thể lật đổ: độ trễ cực thấp, truyền tải trực tiếp tốt. Nhưng nó có một điểm yếu cốt tử: hệ sinh thái đóng — khi dùng InfiniBand, bị khóa chặt vào thiết bị của một hãng duy nhất, không thể linh hoạt mở rộng bằng đồ của các hãng khác.

Ultra Ethernet — Ethernet tái sinh

Ngành công nghiệp quay trở lại với Ethernet nhưng hoàn toàn khác — thông qua Ultra Ethernet Consortium (UEC) với giao thức Ultra Ethernet Transport (UET). Đây không chỉ là Ethernet nhanh hơn — các nhà nghiên cứu đang thực sự lập trình lại cách nó suy nghĩ.

💡 Hình dung: InfiniBand giống như đường sắt độc quyền — ray, tàu, ga đều phải cùng một nhà sản xuất. Ultra Ethernet giống như đường bộ tiêu chuẩn — bất kỳ hãng xe nào cũng chạy được, cạnh tranh tự do, linh hoạt hơn nhiều.

Các cải tiến cốt lõi

TTPE (Tesla Transport Protocol over Ethernet): Lột bỏ mọi lớp dữ liệu dư thừa để giảm tải, nhẹ gánh hơn hẳn.

DMA (Direct Memory Access): Cho phép dữ liệu bay thẳng từ bộ nhớ máy chủ phát sang bộ nhớ máy chủ nhận — không cần bộ vi xử lý trung tâm phải ra mặt xử lý trung gian.


6. In-Network Computation — mạng biết tính toán

Bài toán All Reduce trong Training

Khi các GPU tự học, mỗi chiếc tạo ra các kết quả cục bộ gọi là giá trị Gradient — các thông số điều chỉnh toán học. Ở kiến trúc cũ, hàng chục ngàn GPU đẩy các giá trị này về một máy chủ trung tâm để cộng gộp lại, gây ra tắc nghẽn cổ chai khủng khiếp.

Giải pháp: Tính toán ngay trên đường truyền

Với In-Network Computation, thay vì để máy chủ làm việc đó, các kỹ sư lập trình cho chính các bộ định tuyến, bộ chuyển mạch cộng gộp dữ liệu ngay trong lúc dữ liệu đang bay trên đường chuyển.

💡 Hình dung: Giống như một người đưa thư vô cùng thông minh. Trước đây, người đưa thư chỉ ôm hàng ngàn lá thư chứa các con số đến tay ông chủ để ông ấy tự lấy máy tính ra cộng. Còn bây giờ, người đưa thư vừa chạy vừa tự động bóc các phong bì, lấy máy tính bỏ túi ra cộng tất cả con số lại ngay trên đường đi — đến đích chỉ giao đúng một tờ giấy duy nhất có ghi kết quả cuối cùng.

Việc giảm tải này giúp hệ thống tiết kiệm được một lượng băng thông khổng lồ.

All-Reduce: Old Central Aggregation vs In-Network ComputationOLD: Central AggregationGPU AGPU BGPU CgradientgradientgradientAggregation ServerCPU bottleneckresultAll GPUs receive result1.6 Tbps floods 1 serverBuffer overflow, packet dropGPUs idle while waitingNEW: In-Network ComputationGPU AGPU BGPU CSmart SwitchComputes gradients in-flightResult readyNo server bottleneckBandwidth reduced drasticallyGPUs proceed immediately

7. Quản lý tắc nghẽn chủ động: ECN và PFC

Mạng Ultra Ethernet được trang bị hệ thống quản lý tắc nghẽn cực kỳ chủ động với hai cơ chế:

ECN (Explicit Congestion Notification — Cảnh báo tắc nghẽn rõ ràng): Khi bộ nhớ đệm bắt đầu có dấu hiệu hơi đầy, ECN không đợi đến khi rớt gói tin mới báo lỗi. Nó âm thầm gắn một thẻ cảnh báo vào gói dữ liệu đang chuyển, gửi tín hiệu ngược về máy chủ phát: "Đường phía trước hẹp rồi, hãm phanh đi, giảm tốc độ xả dữ liệu xuống."

PFC (Priority-based Flow Control — Kiểm soát luồng dựa trên ưu tiên): Phân ưu tiên các luồng dữ liệu khác nhau.

💡 Hình dung: Bộ chuyển mạch có một hệ thống đèn giao thông chủ động — không đợi xe đâm vào nhau mới bật đèn đỏ, mà cảnh báo từ xa khi đường bắt đầu đông.

Tất cả sự tinh chỉnh này xảy ra trong những phần triệu của giây.


8. Tự động hóa mạng bằng AI

Vấn đề: Con người không đủ nhanh

Khi hệ thống bay ở tốc độ hàng terabit mỗi giây, giao thức tự nắn dòng, tự báo nghẽn, tự cộng trừ dữ liệu — giới hạn sinh học của kỹ sư không cho phép họ gõ mã lệnh đủ nhanh để vá một lỗi mạng vừa xảy ra cách đó vài phần nghìn giây. Đó là lý do tự động hóa dựa trên AI trở thành yếu tố bắt buộc.

💡 Hình dung: Giống như phi công chuyển sang autopilot — phi công không biến mất, nhưng thay vì tay lái từng giây, họ ngồi theo dõi bảng điều khiển và chỉ can thiệp khi autopilot cần quyết định lớn.

SR Linux và EDA

Nokia triển khai hệ điều hành mạng SR Linux và nền tảng EDA (Event-Driven Automation — Tự động hóa dựa trên sự kiện). Điểm đáng chú ý nhất: họ đưa công nghệ ngôn ngữ tự nhiên vào thẳng hệ thống quản lý.

Thay vì phải đào bới hàng vạn dòng mã khô khan để tìm lỗi, kỹ sư chỉ cần gõ câu hỏi thường ngày như: "Cho tôi biết luồng dữ liệu nào đang gây nghẽn ở port số 4" — EDA tự dịch câu hỏi đó thành hàng loạt quy trình truy xuất phức tạp và trả lời nguyên nhân gốc rễ chỉ trong nháy mắt.

Framework Sense-Think-Act

Mạng lưới hiện nay không chỉ thụ động nhận lệnh — nó hoạt động theo quy trình 3 bước:

  1. Sense (Cảm nhận): Cảm nhận nội dung động của dòng dữ liệu
  2. Think (Suy nghĩ): Dùng AI nội bộ để đánh giá trạng thái bình thường hay nguy hiểm
  3. Act (Hành động): Tự động điều phối lại giao thông mà không cần chờ con người duyệt

Digital Sandbox — Hộp cát kỹ thuật số

Để triệt tiêu rủi ro quyết định sai, nền tảng EDA xây dựng Digital Sandbox: một bản sao song sinh của toàn bộ mạng lưới thực chạy song song ảo.

Khi bất kỳ ai — kể cả chính AI — muốn thay đổi một cấu hình, lệnh đó bắt buộc phải được chạy thử trên bản sao song sinh trước. Nếu bản sao bị sập, lệnh bị chặn ngay lập tức — mạng vật lý thực tế ngoài kia không bị sước một vết nào.

Autonomous Network: Sense-Think-Act + Digital Sandbox SafetyAutonomous Operation LoopLive Network TrafficobserveSENSE: Monitor TrafficclassifyTHINK: AI EnginedecideACT: Reroute / AdjustNo human approval neededReaction time: microsecondsNL query interface via SR Linux / EDADigital Sandbox (Safety Layer)Config Change Requesttest firstDigital Twin Network(virtual copy of real network)FAILChange blockedPASSApprovedReal NetworkReal networkuntouchedEvery change — human or AI — must pass twin simulation firstIf twin crashes, real network is never scratched

9. Bảo mật DDoS trong kỷ nguyên AI

Tấn công DDoS thế hệ mới

Các cuộc tấn công từ chối dịch vụ DDoS nhắm vào trung tâm AI hiện nay không còn là những cơn lũ dữ liệu thô bạo dễ nhận biết. Kẻ thủ bây giờ dùng botnet IoT — chiếm quyền điều khiển hàng triệu thiết bị từ camera an ninh đến tủ lạnh thông minh biến thành vũ khí.

Chúng không tạo ra sóng thần. Chúng gửi những yêu cầu cực kỳ nhỏ, trông hoàn toàn hợp lệ, nhưng số lượng đủ lớn để làm cạn kiệt bộ não xử lý của AI. Các bộ lọc truyền thống nhìn vào khối lượng thấy bình thường và bị qua mặt.

💡 Hình dung: DDoS cũ như đám đông ồn ào xông vào cửa hàng — bảo vệ nhận ra ngay. DDoS mới như hàng ngàn "khách hàng bình thường" vào đứng chặn lối đi nhưng không mua gì — camera thấy bình thường, nhưng Genome nhận ra vì họ xuất hiện đúng giờ bất thường và hỏi về sản phẩm lạ.

Genome — Phân tích ngữ cảnh

Nền tảng Genome của Nokia tiếp cận theo cách hoàn toàn mới: không đếm khối lượng dữ liệu, mà phân tích hành vi của dữ liệu đó.

Genome liên tục lập bản đồ hoạt động bình thường của toàn bộ mạng. Khi một tủ lạnh thông minh đột nhiên gửi yêu cầu phân tích dữ liệu toán học AI phức tạp, hệ thống nhận ra sự bất thường trong ngữ cảnh ngay lập tức.

Như tài liệu trích dẫn: "Sự phòng thủ hiệu quả thực sự bắt đầu bằng việc phát hiện ra lớp nào đang bị tấn công và điều chỉnh các biện pháp đối phó ngay lập tức trên hệ thống."

Genome kích hoạt bộ lọc 3 tầng, tự động bóc tách và cô lập luồng dữ liệu độc hại ngay tại phần rìa mạng — trong khi yêu cầu từ người dùng thật vẫn qua bình thường, không hề bị chậm trễ.


10. Bức tranh lớn: Planetary Computer

Sự hoán đổi vai trò

Quá trình tiến hóa diễn ra theo một nghịch lý thú vị:

  1. Con người tạo ra các mạng lưới để huấn luyện AI
  2. Hệ thống đó lớn quá nhanh, phức tạp vượt mức kiểm soát của con người
  3. Giờ đây, phải dùng chính Agentic AI (AI tự trị) để giám sát, vận hành và bảo vệ ngược lại các đường ống dữ liệu đó

Các kỹ sư loài người chính thức lùi lại một bước — từ vị trí người lái xe, chuyển sang cầm bảng theo dõi và làm người giám sát hệ thống tự lái.

Tokens per second — thước đo hiệu năng mới

Thế hệ chip chuyên dụng mới như TSP (Tensor Streaming Processor) của Groq có khả năng đẩy tốc độ sinh token nhanh gấp 10 lần các GPU hiện tại. Khi bộ não tính toán nhanh gấp 10 lần, nó ép các đường ống dẫn dữ liệu cũng phải chạy đua đến nghẹt thở.

Ranh giới mới: Mạng hay Máy tính?

Khi mạng lưới có khả năng tự phòng thủ và tự tham gia tính toán các thuật toán toán học ngay trên đường bay của dữ liệu — ranh giới giữa một đường truyền mạng và một cỗ máy tính thực sự nằm ở đâu?

💡 Hình dung: Trước đây, não người và dây thần kinh là hai thứ khác nhau — não suy nghĩ, dây chỉ truyền tín hiệu. Planetary Computer là khi chính những sợi dây thần kinh đó bắt đầu biết suy nghĩ.

Trong một tương lai gần, khái niệm Internet có thể sẽ không còn là một bó cáp thụ động chuyên dùng để kết nối các máy tính rời rạc nữa. Bản thân toàn bộ mạng lưới vô tận đó có thể đã tiến hóa thành một cỗ máy tính duy nhất mang tầm vóc của cả một hành tinh — nơi từng sợi cáp quang không chỉ đóng vai trò truyền tin, mà đã trở thành các neuron thần kinh có khả năng tự suy nghĩ.


Nguồn tổng hợp từ: báo cáo kỹ thuật ASNOG, tài liệu kiến trúc mạng Nokia, blog chuyên gia Rudy Holbeck, và phân tích Nokia AI Network Innovation Center. Tham khảo: Nokia TechTalks in 10 - Networking for AI