Khi lý luận trở thành nguồn tài nguyên khan hiếm, ai sẽ nắm bắt được giá trị?

Tác giả gốc: Frank Fu

Nguồn gốc: IOSG Ventures

Lỗ hổng do David Cahn nêu ra vào năm 2023 chưa bao giờ được lấp đầy về mặt đào tạo. Nó chỉ ở khía cạnh suy luận và thị trường chỉ mới bắt đầu định giá nó trong vài tuần qua. Khi NVIDIA tổ chức lại báo cáo tài chính của mình xung quanh "mã thông báo dịch vụ" và Cerebras được công khai và được đăng ký vượt mức 20 lần, tranh chấp về nút thắt cổ chai đã kết thúc và câu hỏi thực sự trở thành câu hỏi tiếp theo: khi lý luận trở thành một nguồn tài nguyên khan hiếm, thì giá trị sẽ được gửi ở cấp độ nào của ngăn xếp máy tính.

Tiếp theo GPU: Từ câu hỏi 200 tỷ USD đến câu hỏi 600 tỷ USD

Vào năm 2023, David Cahn của Sequoia đã đặt ra câu hỏi quan trọng đối với toàn bộ quá trình xây dựng AI, cụ thể là "câu hỏi 200 tỷ USD". Với mỗi 1 đô la chi cho GPU, khoảng 1 đô la khác được chi cho việc cung cấp năng lượng cho nó trong trung tâm dữ liệu, do đó, mỗi năm GPU CapEx có nghĩa là những con chip này cuối cùng sẽ phải tạo ra doanh thu khoảng 200 tỷ đô la để thu lại số vốn đó. Ngay cả khi đưa ra những giả định rất hào phóng về doanh thu AI, ông vẫn tìm thấy khoảng cách hơn 125 tỷ USD giữa “đầu tư” và “số tiền mà khách hàng cuối thực sự phải trả”. Mối lo ngại rất rõ ràng: GPU đang được xây dựng quá mức trước nhu cầu thực tế.

Một năm sau, thay vì thu hẹp lại, khoảng cách lại ngày càng mở rộng. Phần tiếp theo của Cahn vào năm 2024 xác định lại nó là “vấn đề trị giá 600 tỷ USD” khi CapEx siêu quy mô mở rộng. Logic giảm giá hội tụ thành một hình dạng quen thuộc: xây dựng quá mức dẫn đến cung vượt cầu và đốt cháy vốn quá mức.

Cả hai bài viết đều hỏi cùng một câu hỏi: Ai sẽ lấp vào chỗ trống này? Câu trả lời không bao giờ xuất hiện ở phần “huấn luyện” của sổ cái. Đó là về mặt suy luận và thị trường chỉ mới bắt đầu định giá nó trong vài tuần qua.

Cerebras IPO và Reasoning Squeeze

Cerebras đã ra mắt công chúng vào thứ Năm. Đợt IPO đã được đăng ký vượt mức gấp 20 lần và được định giá gần gấp đôi mức tăng giá cuối cùng vào thứ Tư. Nhu cầu không đến từ việc đặt cược vào "sát thủ Nvidia tiếp theo", mà đến từ một điều đơn giản hơn: thị trường đang bắt đầu nhận ra rằng nút thắt thực sự trong AI là khả năng suy luận chứ không phải đào tạo.

Điểm đặc biệt của Cerebras là kiến trúc chip có khả năng suy luận cực nhanh. Đó không phải là đào tạo, đó là lý luận. Đây là điều khiến Phố Wall phấn khích. Thị trường suy luận đang diễn ra định kỳ và mở rộng quy mô theo mức độ sử dụng. Mỗi khi Claude trả lời một câu hỏi và mỗi khi đặc vụ thực hiện một nhiệm vụ, sức mạnh tính toán sẽ bị tiêu hao. Việc đào tạo chỉ diễn ra một lần, suy luận không bao giờ dừng lại.

J.P. Morgan ước tính quy mô của thị trường suy luận gấp 10 đến 50 lần thị trường đào tạo. Khi một máy bắt đầu thực hiện các nhiệm vụ được giao bởi các máy khác, tức là mở rộng tác nhân, nhu cầu suy luận không còn mở rộng theo số lượng người dùng mà theo chính sức mạnh tính toán.

Nvidia vẽ lại bản đồ: Lý luận gây chú ý

Nếu Cerebras là sự thức tỉnh của thị trường, thì báo cáo tài chính hàng quý mới nhất của Nvidia là sự xác nhận từ đầu chuỗi ngành. Trong cuộc gọi báo cáo thu nhập mới nhất, Jensen Huang đã đưa ra tuyên bố ngầm rõ ràng: nhu cầu về AI đang tăng trưởng theo hình parabol. Lý do rất đơn giản: AI đã xuất hiện. AI chính thống đã chuyển đổi từ lý luận một lần sang lý luận logic, sau đó sang giai đoạn tác nhân có thể gọi các công cụ của riêng mình và điều phối các nhiệm vụ. Huang cho biết: “Token hiện đang có lãi”. Trong kỷ nguyên AI, sức mạnh tính toán là doanh thu và lợi nhuận.

Điều này đã định hình lại toàn bộ ngành công nghiệp. Đào tạo là chi phí một lần để xây dựng mô hình, trong khi suy luận là chi phí định kỳ để chạy mô hình. Nút thắt ngày nay nằm ở khả năng suy luận chứ không phải ở việc đào tạo.

Nvidia đã ghi phán quyết này vào báo cáo tài chính của mình. Hiện nó được tiết lộ là hai nền tảng thay vì một: Trung tâm dữ liệu và Điện toán biên. Trung tâm dữ liệu (~75 tỷ USD trong quý, +92% so với cùng kỳ năm trước) tiếp tục được chia thành Hyperscale (~38 tỷ USD, +12% so với quý trước) và ACIE, hay AI Cloud, Industrial & Enterprise (~37 tỷ USD, +31% so với quý trước). Một dòng hoàn toàn mới là Điện toán biên: 6,4 tỷ USD, +29% so với cùng kỳ năm trước, bao gồm các thiết bị đầu cuối nơi AI tác nhân và AI vật lý thực sự chạy, chẳng hạn như PC, máy trạm, trạm cơ sở AI-RAN, robot và ô tô.

Mạng biên vẫn chiếm chưa đến 8% tổng doanh thu, nhưng Nvidia đã quảng bá nó lên "nền tảng thứ hai" bên cạnh trung tâm dữ liệu. Tín hiệu này là: suy luận được chia thành hai mặt trước, suy luận đám mây (suy luận đám mây) ở trung tâm dữ liệu và suy luận điểm cuối (suy luận điểm cuối) ở rìa. AI cần nhìn, di chuyển và hành động trong thế giới vật chất. Lộ trình tuân theo logic tương tự: Vera Rubin, sẽ bắt đầu xuất xưởng vào quý 3, có thông lượng suy luận lên tới 35 lần so với Blackwell; Huang cũng cấp TAM mới trị giá 200 tỷ USD cho các CPU Vera được xây dựng cho khối lượng công việc đại lý. Mọi công ty theo mô hình hàng đầu đều được kỳ vọng sẽ chuyển đổi hoàn toàn sang mô hình này ngay từ ngày đầu tiên.

Khi công ty có giá trị nhất trên trái đất tái cơ cấu việc công bố thông tin tài chính xung quanh “token dịch vụ”, cuộc chiến giải quyết các nút thắt cổ chai đã được giải quyết. Phần còn lại của bài viết này thảo luận xem ai sẽ nắm bắt được giá trị khi suy luận (chứ không phải đào tạo) trở thành nguồn lực khan hiếm.

Đầu tiên hãy mô tả phạm vi. Trong số hai mặt trận này, bài viết này thảo luận về suy luận đám mây, là GPU của trung tâm dữ liệu được thuê để cung cấp dịch vụ mã thông báo API cho thế giới bên ngoài. Suy luận điểm cuối chạy trên chip cục bộ bên trong chính thiết bị (Nvidia's Jetson, RTX, Drive, AI-RAN), bỏ qua hoàn toàn ngăn xếp tổng hợp và cho thuê GPU cơ bản. Ở đây, vui lòng coi nó như một cơn gió thuận chiều khuếch đại toàn bộ nền kinh tế suy luận và hỗ trợ lập luận thắt cổ chai, thay vì thị trường nơi Hyperbolic và Venice tọa lạc, hoàn toàn nằm trong đường mây.

Sức ép đã đến

Anthropic là con chim hoàng yến trong mỏ than. Việc sử dụng vượt xa khả năng được cấu hình trước. Những lời phàn nàn về việc Claude bị "lobotomized" tràn ngập Internet, bao gồm các câu trả lời bị hạn chế, lý luận chậm lại và các cửa sổ ngữ cảnh bị nén. Giải pháp là sức mạnh tính toán trần trụi: Vào tháng 5 năm 2026, Anthropic đã tiếp quản toàn bộ trung tâm dữ liệu Colossus 1 từ SpaceX, hơn 220.000 GPU Nvidia, hơn 300 megawatt và dành riêng cho việc suy luận thay vì đào tạo.

Phần năng lực sản xuất này đã mở khóa một loạt thay đổi giới hạn, mỗi thay đổi đó là một tín hiệu. Vào ngày 6 tháng 5, Anthropic đã nhân đôi giới hạn năm giờ của Claude Code, loại bỏ việc điều chỉnh giờ cao điểm và tăng đáng kể giới hạn tốc độ API của Opus. Vào ngày 13 tháng 5, giới hạn hàng tuần của Claude Code được tăng thêm 50% (đến ngày 13 tháng 7). Sau đó, bắt đầu từ ngày 15 tháng 6, nó đã làm điều ngược lại với "hào phóng": cắt mức sử dụng tác nhân và có lập trình (SDK tác nhân, chế độ không đầu claude -p, quy trình CI) ra khỏi đăng ký cố định và đưa nó vào nhóm tín dụng được đo lường độc lập ($20 đến $200 mỗi tháng, được thanh toán theo giá API). Bước cuối cùng này cô đọng toàn bộ lập luận thành một hành động duy nhất: tác nhân sử dụng suy luận ở tốc độ vượt xa mức mà các đăng ký cố định được thiết kế để chịu đựng và do đó phải được định giá theo "chi phí định kỳ" ban đầu.

Đào tạo là chi phí vốn một lần. Suy luận là chi phí vận hành định kỳ được cộng gộp với mỗi người dùng mới và mỗi đại lý mới.

Ngăn xếp này: sáu lớp, một nút thắt cổ chai

Mọi ứng dụng AI đều nằm trong chuỗi cung ứng bắt đầu từ nhà máy TSMC và kết thúc tại điểm cuối API:

Hầu hết các công ty chỉ có một lớp. Nvidia có silicon, CoreWeave có kim loại trần, Together AI có tối ưu hóa suy luận và OpenRouter có định tuyến API mô hình.

Ngoại trừ một.

Hyperbolic: Công ty duy nhất có ba cấp độ

Hyperbolic ra mắt thị trường GPU theo yêu cầu vào tháng 6 năm 2025. Trong vài tháng đầu tiên, số lượng nhà phát triển của nó đã vượt quá 200.000+ và những người áp dụng nó trải rộng khắp các phòng thí nghiệm AI tiên tiến, tìm kiếm và các nền tảng tiêu dùng lớn.

Điều thú vị là kiến trúc của nó.

Hyperbolic không sở hữu một GPU nào. Mọi thẻ đều đến từ neocloud và trung tâm dữ liệu, bao gồm CoreWeave, Lambda Labs, Nebius và các nhà khai thác nhỏ hơn có năng lực dự phòng. Điều này nghe có vẻ là một điểm yếu nhưng thực ra nó là một con hào.

Bằng cách ngồi giữa nhà cung cấp GPU và người tiêu dùng, Hyperbolic có thể xem dữ liệu thời gian thực mà những người khác không thể. Nó biết ai đang mua GPU nào với mức giá nào và khi nào. Nó nhận thấy tình trạng dư cung trước khi nó được công bố rộng rãi và nhận thấy nhu cầu tăng đột biến trước khi chúng được tung ra thị trường.

Ngày nay, bản thân con hào chính là tập hợp nhiều đám mây này. Hyperbolic kết hợp năng lực phân mảnh từ hàng chục đám mây và trung tâm dữ liệu độc lập vào một nhóm thống nhất được tiêu chuẩn hóa, cho phép các nhà phát triển thuê GPU rẻ nhất hiện có ở bất kỳ đâu mà không cần phải thương lượng với từng nhà điều hành hoặc quản lý nhiều tài khoản. Càng kết nối nhiều đám mây, tính thanh khoản càng sâu và dữ liệu giá cả càng phong phú. Trong tương lai, nhóm đang khám phá cách sử dụng những dữ liệu này để lập mô hình đường cong giá GPU và cuối cùng đầu tư vốn của chính mình để điều hòa cung và cầu, đóng vai trò là nhà tạo lập thị trường cho sức mạnh tính toán vật lý; nhưng mục tiêu này vẫn đang ở giai đoạn đầu và chính lớp tổng hợp mới thực sự là mối quan tâm kép vào lúc này.

Đây là bánh đà:

Có nhiều quyền truy cập vào đám mây hơn → nguồn cung tổng hợp hơn
Cung cấp nhiều hơn → thị trường sâu hơn và dữ liệu định giá theo thời gian thực
Dữ liệu tốt hơn → hiện tại định tuyến thông minh hơn và mô hình định giá dài hạn
Thanh khoản và giá cả tốt hơn → nhiều nhà phát triển hơn → nhiều đám mây hơn muốn kết nối

Không có công ty nào khác đang thử điều này. Hyperbolic là công ty duy nhất mở rộng lớp cho thuê GPU, lớp triển khai và lớp API mô hình.

Venice là tấm gương phản chiếu

Venice là biểu hiện rõ nét nhất của nền kinh tế suy luận ở lớp ứng dụng, đồng thời cũng là sự so sánh hữu ích với quan điểm của Hyperbolic. Đây là một ứng dụng suy luận ưu tiên quyền riêng tư: một tập hợp các API tương thích với OpenAI, cùng với các đăng ký hướng tới người tiêu dùng (Free / Pro / Pro+ / Max), định tuyến các yêu cầu tới khoảng 75 mô hình, khoảng 2/3 trong số đó là các mô hình nguồn mở hoặc tự lưu trữ (Llama, Mistral, Qwen, DeepSeek) và phần còn lại là các mô hình tiên tiến nguồn đóng chuyển tiếp ẩn danh. Điều quan trọng là bản thân Venice không sở hữu sức mạnh tính toán đáng kể. Nó thuê từ các đối tác GPU không được tiết lộ và các nhà cung cấp điện toán bí mật (NEAR AI Cloud, Phala) và trả tiền cho các phòng thí nghiệm tiên tiến để truyền tải minh bạch, do đó chi phí doanh thu thực sự của nó là sức mạnh tính toán suy luận chứ không phải lưu trữ SaaS.

Điều Venice thực sự bán là sự riêng tư. "Quyền riêng tư" được đề cập ở đây không phải là biến sức mạnh tính toán công thành tài sản riêng mà là bao bọc một lớp bảo đảm cho lý do thương mại: không lưu giữ dữ liệu, không sử dụng đào tạo và yêu cầu ẩn danh. Một phần tải vẫn đang chạy trong TEE nên bản thân người vận hành không thể nhìn thấy văn bản rõ ràng. Sức mạnh tính toán cơ bản đã có sẵn trên thị trường và thứ được bán với giá cao hơn chính là lớp đóng gói bảo mật này. Hơn nữa, lớp bảo đảm này được phân lớp và không đồng nhất: đối với các mô hình nguồn mở chạy trên bộ điều khiển của riêng bạn hoặc GPU TEE, có thể đạt được khả năng tính toán bí mật gần giống nhau; nhưng đối với việc truyền tải minh bạch ẩn danh của các mô hình nguồn đóng như Claude và GPT, quyền riêng tư chỉ bị tước bỏ danh tính và phòng thí nghiệm tiên tiến vẫn đang xử lý lời nhắc ban đầu của bạn. Do đó, quyền riêng tư mạnh nhất chỉ bao gồm phần nguồn mở và phần mô hình tiên tiến là "ẩn danh" chứ không phải "bí mật thực sự". Lợi nhuận gộp của Venice = giá đăng ký - chi phí suy luận được trả cho hạ nguồn và phần mà nó tính phí cao hơn giá API trần gần như được hỗ trợ hoàn toàn bởi lớp phí bảo mật riêng tư này. Đây cũng là lý do tại sao nó có lợi nhuận nhỏ và phải chịu mức giá minh bạch tiên tiến.

Thiết kế mã thông báo gói phần này của yêu cầu suy luận. Venice chạy trên hai mã thông báo: VVV (đặt cược và truy cập nền tảng) và DIEM, sau này là tín dụng suy luận, mỗi DIEM tương đương với khoảng 1 đô la Mỹ mỗi ngày cho sức mạnh tính toán. Đăng ký trả phí sẽ kích hoạt mua lại và đốt VVV theo chương trình (tương ứng khoảng 2/5/10 USD cho Pro/Pro+/Max) và lượng phát thải sẽ giảm theo lịch trình cố định: 6 triệu → 5 triệu → 4 triệu VVV mỗi tháng và sẽ được điều chỉnh xuống 3 triệu vào ngày 1 tháng 7. Việc mua lại là có thật, nhưng tùy ý và vẫn còn khiêm tốn: khoảng 103.000 đô la đã bị đốt cháy vào tháng 4 và tháng 5 mỗi tháng, và tháng 6 đang dần tăng lên khoảng 110.000 đô la, thấp hơn nhiều so với mức 200.000 đô la mỗi tháng.

Những điều cơ bản tốt hơn những tiêu đề. Con số “70 triệu đô la ARR” được lưu hành công khai gần như chắc chắn là sản phẩm của việc nhầm lẫn việc gia hạn đăng ký với số lượt mua lại khách hàng mới; phạm vi có thể quan sát được có thể phòng thủ là gần từ 6 triệu đến 15 triệu USD ARR. Bên dưới điều này, lực kéo là có thật: ~136.000 địa chỉ nắm giữ tiền xu, ~9,9 triệu lượt truy cập trang web mỗi tháng (~330.000 mỗi ngày) và các đăng ký Pro mới dao động quanh mốc ~1.400 mỗi ngày. Đây là một doanh nghiệp thực sự, nhưng là một doanh nghiệp có lợi nhuận thấp, nền kinh tế bị hạn chế bởi sức mạnh tính toán mà nó mua.

Đây là lý do tại sao Hyperbolic cao hơn nó một cấp. Nếu Venice là trạm xăng thì Hyperbolic là nhà máy lọc dầu. Venice mua sức mạnh tính toán từ cùng một nguồn cung hạn chế mà mọi người đều dựa vào; Hyperbolic tổng hợp, tiêu chuẩn hóa và bán nguồn cung rời rạc đó cho Venice và tất cả những người chơi thích nó. Khi nhu cầu suy luận tăng lên, giá trị sẽ tích lũy không chỉ đối với các ứng dụng tiêu thụ sức mạnh tính toán mà còn đối với lớp tổng hợp và định tuyến sức mạnh tính toán, đồng thời thu được chi phí doanh thu do các ứng dụng này trả.

Tại sao điều này lại quan trọng vào lúc này

Nvidia đã cơ cấu lại tài chính của mình xoay quanh “mã thông báo dịch vụ”. IPO của Cerebras chứng minh rằng thị trường hiểu rằng suy luận là điểm nghẽn. Anthropic đang tranh giành năng lực, chứng tỏ đây là một vấn đề thực sự. AI vật lý và tác nhân sẽ khuếch đại nhu cầu theo nhiều bậc độ lớn, trải dài cả phía đám mây và thiết bị.

Và nó cũng khép lại vòng luẩn quẩn của "vấn đề 600 tỷ USD" từ phía bên kia. Logic giảm giá của Cahn về việc xây dựng quá mức, rồi xây dựng quá mức, cuối cùng có thể được chứng minh là đúng. Nhưng tình trạng dư thừa chính xác là điểm hấp dẫn đối với các nhà tổng hợp tài sản ít: khi giá GPU giảm và nguồn cung bị phân tán trên hàng chục đám mây, người chơi không sở hữu phần cứng và chuyển mọi khối lượng công việc đến thẻ rẻ nhất hiện có sẽ kiếm được chênh lệch giá, trong khi nhà điều hành nắm giữ GPU ngày càng mất giá sẽ chịu lỗ. Hyperbolic là phần thừa dài chứ không phải phần ngắn.

Công ty chiến thắng cuối cùng sẽ không phải là công ty có nhiều GPU nhất mà là công ty có thể cho bạn biết GPU nào có sẵn ở đâu, với mức giá nào và định tuyến từng khối lượng công việc đến nơi có thể chạy với chi phí thấp nhất.

Hyperbolic đang xây dựng một công ty như vậy. Nó không sở hữu GPU riêng, nó là phần mềm thuần túy, sâu ba lớp, nhưng nó được tích hợp vào lớp tổng hợp sức mạnh tính toán tối thượng của suy luận.

Khi lý luận trở thành nguồn tài nguyên khan hiếm, ai sẽ nắm bắt được giá trị?

Tiếp theo GPU: Từ câu hỏi 200 tỷ USD đến câu hỏi 600 tỷ USD

Cerebras IPO và Reasoning Squeeze

Nvidia vẽ lại bản đồ: Lý luận gây chú ý

Sức ép đã đến

Ngăn xếp này: sáu lớp, một nút thắt cổ chai

Hyperbolic: Công ty duy nhất có ba cấp độ

Venice là tấm gương phản chiếu

Tại sao điều này lại quan trọng vào lúc này

Bài viết liên quan

Phân tích chuyên sâu: IPO của SpaceX có đáng đầu tư ở mức 135 USD/cổ phiếu không?

Quan sát ngành: Từ phiên bản mới nhất của Bitget CFD, hãy xem xét xu hướng "dựa trên kịch bản" và "không ma sát" của các nền tảng phái sinh tiền điện tử

Quan sát ngành: Từ phiên bản mới nhất của Bitget CFD, hãy xem xét xu hướng "dựa trên kịch bản" và "không ma sát" của các nền tảng phái sinh tiền điện tử

Sản phẩm

Pháp lý & Hỗ trợ

Liên kết bạn bè