Ketika penalaran menjadi sumber daya yang langka, siapa yang menangkap nilainya

Oleh Frank Fu

Sumber: IOSG Ventures

Pada tahun 2023, David Cahn menyarankan agar lubang itu tidak pernah diisi pada sisi pelatihan. Ini telah dimasukkan ke dalam penalaran, dan pasar baru mulai memfaktorkannya menjadi harga dalam beberapa minggu terakhir. Masalah nyata menjadi yang berikutnya ketika Waida Young mengatur kembali keuangan di sekitar "service token" dan Cerebras mendapat 20 kali lebih langganan. Ketika penalaran menjadi sumber daya yang langka, nilainya disimpan pada tingkat apa dari kalkulator。

IKUTI GPU: DARI $ 200 MILIAR SAMPAI $ 60 MILIAR

Pada tahun 2023, David Cahn dari Sequoia mengangkat isu yang menggantung di seluruh gedung AI, masalah senilai jutaan dolar". Setiap dolar dihabiskan untuk GPU dan kira-kira satu dolar lagi dihabiskan untuk powering di pusat data, jadi setiap tahun GPU CapEx berarti bahwa chip pada akhirnya harus menghasilkan sekitar $ 200 miliar pendapatan untuk memulihkan modal. Bahkan dengan asumsi yang sangat murah hati terhadap pendapatan AI, ia menemukan lubang lebih dari $12,5 miliar antara \"input\" dan \"pembayaran pengguna akhir\". Keprihatinan ini jelas: GPU sedang dibangun berlebihan di depan permintaan nyata。

Setahun kemudian, celahnya telah melebar dan bukannya sempit. Pada kelanjutan tahun 2024, Cahn mendefinisikannya kembali sebagai masalah "$60 miliar" dengan perluasan produsen super besar CapEx. Sebuah bentuk logika kosong yang familiar: konstruksi berlebihan menyebabkan terlalu banyak persediaan, yang membakar modal。

artikel - artikel ini sebenarnya menanyakan hal yang sama: siapa yang akan mengisi lubang ini? jawabannya tidak pernah muncul dalam buku-buku di sisi "train". ini muncul di sisi inferensi, dan pasar hanya mulai faktor itu menjadi prioritas dalam beberapa minggu terakhir。

Cerebras IPO dan penalaran memeras

Cerebras terdaftar pada hari Kamis. Kali ini IPO mendapatkan 20 kali lebih dari langganan, dan harganya hampir dua kali lipat dari kenaikan akhir pada hari Rabu. Permintaan tidak datang dari taruhan pada pembunuh Nvidia berikutnya, tetapi dari hal yang lebih sederhana: pasar mulai menyadari bahwa yang benar-benar berbobot dalam AI adalah inferensi, bukan pelatihan。

Bakat Cerebras adalah struktur chip yang membuat penalaran sangat cepat. Bukan pelatihan, penalaran. Itulah yang mengubah Wall Street. Pasarnya berulang, berkembang dengan penggunaan. Setiap kali Claude menjawab sebuah pertanyaan, setiap kali antent melakukan misi, itu menguras komputasi. Pelatihan hanya terjadi sekali, dan penalaran tidak pernah berhenti。

J.P. Morgan memperkirakan ukuran pasar referensi sebesar 10 sampai 50 kali ukuran pelatihan. Ketika mesin mulai menjalankan misinya dari mesin lain, yaitu memperluas dalam bentuk anatomi, permintaan referensi tidak lagi berkembang dengan jumlah pengguna, tetapi dengan kalkulus itu sendiri。

Nvidia menggambar ulang: penalaran menjadi tajuk utama

Jika Cerebras adalah kebangkitan pasar, maka musim terbaru Nvidia adalah konfirmasi dari puncak rantai. Pada konferensi keuangan terbaru, Jensen Huaang membuat pernyataan yang tidak terkatakan itu jelas: permintaan AI semakin meningkat dengan cara parabolik. Alasan untuk ini sederhana: AI angstic telah tiba. AI Mainstream telah berpindah dari penalaran satu kali ke penalaran logis, dan kemudian ke proses di mana akan disebut alat sendiri, mengatur tugas. Kata Huang, "Token sekarang menguntungkan. Di era AI, kemampuan menghitung adalah pendapatan dan keuntungan。

ini membentuk kembali seluruh industri. pelatihan adalah biaya satu kali untuk membangun model, dan referensi adalah biaya berulang menjalankannya, sementara bottlenecks hari ini disimpulkan dan tidak dilatih。

Vidia menulis penilaian ini ke dalam pernyataan keuangannya. Sekarang ini diungkapkan di dua platform daripada satu: Pusat Data dan Pemasaran Edge. Pusat data (kira-kira $75 miliar untuk musim saat ini, dibandingkan dengan +92 persen) selanjutnya dibongkar ke Hyperscale (kira-kira $38 miliar, relatif sebesar +12 persen) dan ACIE, misalnya AI awan, industri dan perusahaan (kira-kira $37 miliar, relatif sebesar +31 persen). Jalur yang benar-benar baru adalah Edge Compushing: $6,4 miliar, +29 persen, meliputi benar-benar menjalankan terminal seperti PC, workstation, AI-RAN base station, robot dan mobil。

Tepinya masih dihitung kurang dari 8 persen dari total pendapatan, tetapi Nvidia telah mengangkatnya ke platform kedua di samping pusat data. Sinyalnya adalah bahwa inferensi dibagi menjadi dua front, inferensi claud pusat data, dan inferensi titik akhir tepi, dan AI adalah untuk melihat, bergerak dan bertindak di dunia fisik. Peta jalan tersebut mengikuti logika yang sama: Vera Rubin, dari kuartal ketiga tahun ini, bisa mencapai 35 kali ukuran inferensi Blackwell; Ia juga memberikan $ 200 miliar TAM baru untuk CPU Vera, yang dirancang untuk beban agntik. Setiap perusahaan model garis depan diharapkan untuk sepenuhnya bergeser ke sana pada hari pertama。

saat perusahaan-perusahaan bernilai tertinggi di planet ini mengatur ulang pengungkapan keuangan mereka di sekitar øservice token", orang-orang berbobot menetap. kelanjutan kertas ini membahas siapa yang menangkap nilai ketika referensi (lebih buruk daripada pelatihan) menjadi sumber daya yang langka。

Sebuah catatan scoping pertama. Pada kedua front, makalah ini berhubungan dengan CDU, pusat data sewaan yang menyediakan layanan token API eksternal. Titik akhir lemadin mengacu pada chip lokal di dalam perangkat itu sendiri (Jetson, RTX, Drive, AI-RAN) yang berjalan sepenuhnya tanpa pajakan GPS dan polimer. Di sini, melihatnya sebagai cara yang halus untuk memperbesar seluruh ekonomi, untuk mendukung botlenecks, daripada pasar di mana Hyperbolik dan Venesia terletak, yang benar-benar di garis awan。

Peras telah tiba

Antropik adalah sebuah kenari di tambang batu bara. Memanfaatkan kapasitas yang jauh lebih banyak daripada pra-konfigurasi, keluhan Claude tentang \"pemali otak\" di seluruh web, termasuk respon aliran terbatas, penalaran lambat, jendela konteks terkompresi. Solusinya adalah perhitungan telanjang: pada Mei 2026, Antropik mengambil alih dari SpaceX seluruh pusat data Colossus 1, 220.000 + Nvidia GPU, 300 + MW, dan mendedikasikannya untuk inferensi, bukan pelatihan。

Bagian ini dari kapasitas membuka serangkaian perubahan topi, masing-masing merupakan sinyal. Pada 6 Mei, Anthropic menggandakan batas lima jam untuk Claude Code, menghapus batas waktu puncak dan secara signifikan meningkatkan batas API untuk Opus. Hari 13 Mei, batas mingguan Claude Code dinaikkan 50 persen lagi (sampai 13 Juli). Secara turun-temurun, pada 15 Juni, itu melakukan kebalikan dari Øsponsible": untuk menggunakan Agen SDK, no-head mode claude-p, CI streaming jalur air dari langganan datar dan menempatkan mereka dalam kolam kredit yang diukur secara independen ($20-200 per bulan dengan harga API). Langkah terakhir ini mengembun seluruh set argumen ke dalam sebuah tindakan: semut mengkonsumsi inferensi pada tingkat yang jauh lebih cepat daripada toleransi desain dari langganan datar, sehingga harus harga sesuai dengan biaya aslinya "recurring"。

pelatihan adalah pengeluaran modal satu kali. ketidakpedulian adalah biaya operasi yang berulang yang diterima setiap pengguna baru dan setiap delegasi baru。

Gudang ini: enam lantai, satu bengong

APLIKASI AI MASING-MASING ADALAH TERLETAK DALAM RANTAI PASOKAN DIMULAI DENGAN TSMC KRISTAL TANAMAN LINGKARAN DAN BERAKHIR DENGAN TITIK AKHIR API:

Kebanyakan perusahaan hanya memiliki salah satunya. Vidgia Nvidia memiliki silikon, CoreWeave memiliki nudity metal, Together AI memiliki optimasi penalaran, OpenRouter memiliki model API route。

Kecuali satu。

Hiperbolik: Satu-satunya perusahaan yang melintasi tiga lapisan

Hiperbolik diluncurkan pasar GPU-nya pada Juni 2025. Pada beberapa bulan pertama, jumlah pengembang telah melampaui 200.000+, menggunakan laboratorium AI garis depan, pencarian, dan platform tingkat konsumen besar。

Yang menarik adalah strukturnya。

Hiperbolik memiliki GPU yang tidak dipegang. Setiap kartu berasal dari Neocloud dan pusat data, termasuk CoreWeave, Lambda Labs, Nebius dan operator yang lebih kecil dengan kapasitas idle. Kedengarannya seperti kelemahan, tapi itu parit。

Dengan duduk di antara pemasok GPU dan konsumen, Hyperbolic dapat melihat data real-time yang tidak dapat dilihat oleh orang lain. Ia tahu siapa yang membeli apa yang GPU dengan harga berapa, pada waktu apa. Ia melihatnya sebelum pasokan berlebih terbuka, sebelum permintaan meningkat ke pasar。

Hari ini, parit itu sendiri adalah agregasi multi-klaud. Hiperbolik Usut produksi puing-puing kapasitas produksi dari puluhan awan berdiri sendiri dan pusat data ke dalam kolam terpadu standardisasi yang memungkinkan pengembang untuk menyewa GPU termurah tersedia di mana saja tanpa bernegosiasi dengan masing-masing operator atau mengelola tumpukan rekening. Semakin banyak awan itu mencapai, semakin banyak cairan itu, semakin mahal data itu. Pada masa depan, tim sedang menjelajahi bagaimana menggunakan data ini untuk memodelkan kurva harga GPU dan akhirnya berinvestasi di modal sendiri untuk memperlancar pasokan dan permintaan serta berperan sebagai pemasar dalam perhitungan fisik; namun, tujuan ini masih pada tahap awal, dan merupakan lapisan polimer yang benar-benar pulih sekarang。

Ini adalah roda:

Akses ke lebih banyak awan, lebih banyak persediaan agregat
Suplai lebih banyak, pasar lebih dalam dan data real-time pricing
Data yang lebih baik, sekarang jalan yang lebih cerdas, model yang lebih lama
Mobilitas dan harga yang lebih baik, lebih banyak pengembang, lebih banyak awan untuk diakses

Tidak ada perusahaan lain yang mencoba ini. Hiperbolik adalah satu-satunya perusahaan yang berjalan di seluruh baik GPU sewa, penyebaran dan model lapisan API。

Vince, cermin ini

Venice adalah ekspresi ekonomi yang paling jelas pada tingkat aplikasi dan kontras yang berguna untuk lokasi Hiperbolik. Ini adalah aplikasi penalaran privasi-prioritas: sebuah OpenAI kompatibel set API, bersama-sama dengan langganan berorientasi konsumen (Free / Pro / Pro / Pro+ / Max), mengarah permintaan ke sekitar 75 model, di antaranya sekitar dua pertiga adalah open-source atau model yang dihost sendiri (Llama, Mistral, Qwen, DeepSeek), dan sisanya adalah faks anonim dari model perbatasan sumber tertutup. Intinya adalah, Vince tidak memiliki kalkulus yang berarti. Para kolaborator GPU yang selalu dipublikasikan dan pemasok komputasi rahasia (NEAR AI Cloud, Phala) menyewanya dan membayarnya melalui laboratorium depan, sehingga biaya akses sebenarnya adalah inferensi, bukan SaaS hosting。

Vince Vince benar-benar menjual privasi. Istilah Śprivileged" bukan tentang mengubah komputasi publik menjadi properti pribadi, tetapi lebih kepada menambahkan lapisan jaminan pada logika komersialisasi: tidak menjaga data, tidak melatih, meminta anonimitas, dan sebagian untuk menjalankan ke TEE, sehingga operator tidak melihatnya. Faktor terbawah adalah beban jalan, dan harga yang ditambahkan adalah lapisan kemasan privasi ini. Dan lapisan jaminan ini berlapis dan tidak rata: model sumber terbuka yang berjalan di bawah kendalinya sendiri atau pada GPU TEEE dapat dihitung dari ujung hingga akhir spektrum; tetapi pass-melalui anonim dari model sumber tertutup seperti Claude, GPT, privasi hanya strip identitas Anda, dan prompt asli Anda masih diproses di akhir laboratorium depan. Jadi privasi terkuat hanya meliputi sumber terbuka, dan model garis depan adalah "anonymous" daripada "rahasia nyata." Maori Venesia = harga langganan – bagian dari harga yang dibayar hilir untuk inferensi, yang lebih dari harga API telanjang, hampir seluruhnya didukung oleh harga harga dari harga yang mahal, itulah sebabnya tipis dan subjek untuk forward-through pricing。

Desain token dikemas bagian ini dari permintaan. Darian Venesia berjalan di atas dua token: VVVV (collateral dan akses platform) dan DIEM, yang merupakan kredit referensi, setiap DIEM kira-kira $1 per hari. Langganan biaya memicu membeli-kembali VV yang dapat diprogram (Pro / Pro+ / Max, kira-kira US $ 2/5 / 10, masing-masing), sementara emisi berkurang sesuai dengan jadwal tetap: 6M → 5M → 4M VVV per bulan, turun menjadi 3M pada 1 Juli. Repurchases adalah nyata, tetapi bijaksana dan masih sederhana: pada bulan April dan Mei, sekitar US $ 10,3 juta hancur, dan pada bulan Juni, perlahan naik ke sekitar US $ 110 juta, baik di bawah garis $ 200.000 per bulan。

permukaan dasar lebih sehat daripada judul. Angka yang beredar di depan publik sebesar US $ 70 juta ARR hampir pasti dapat diidentifikasi sebagai tambahan bersih untuk biaya langganan; area defensible lebih dekat dengan US $ 6 juta ke US $ 15 juta. Dalam konteks ini, perpindahan itu nyata: sekitar 136.000 alamat yang dipegang mata uang, sekitar 9.9 juta kunjungan situs web per bulan (sekitar 330.000 kali sehari) dan langganan Pro baru melayang-layang di sekitar baris dari sekitar 1400 per hari. Ini adalah bisnis nyata, tetapi ekonomi bisnis tipis tunduk pada perhitungan yang telah diperolehnya。

Itulah mengapa Hiperbolik berada di atasnya. Jika Vince adalah pompa bensin, Hyperbolic adalah kilang minyak. Venice memiliki daya beli dari pasokan terbatas yang sama di mana semua orang bergantung; persediaan hiperbolik yang segmen untuk agregat, standardisasi dan menjual ke Venesia dan semua pemain seperti itu. Sebagai permintaan bertambah, nilai terkumpul bukan hanya untuk aplikasi konsumsi-kalkulasi, tetapi juga untuk agregat dan route-calculation dan menangkap akumulasi biaya pembayaran konsumsi untuk aplikasi ini。

Mengapa ini penting sekarang

Nvidia telah direstrukturisasi keuangannya sekitar " token layanan". IPO Cerebras' membuktikan bahwa pasar telah memahami bahwa akses adalah sebuah kedok. Antropik berkeliaran untuk kapasitas, membuktikan itu masalah nyata. Agensia dan fisik AI akan mengagungkan permintaan dengan beberapa perintah magnitudo melintasi awan dan sisi akhir。

Dan itu memiliki masalah "60 miliar dolar" cincin dari sisi lain. Logika kosong Cahn ' s, i.e., over-building, maka overcapacity, kemungkinan akan disahkan akhirnya. Tetapi, Kelebihan adalah hal terbaik untuk aset-polimer ringan: ketika harga GPU turun dan fragmentasi persediaan tersebar di atas puluhan awan, pemain yang tidak memiliki perangkat keras apapun dan yang mentransfer setiap beban tugas ke kartu yang paling murah yang tersedia mendapatkan perbedaan, sementara operator yang memegang Susutnilai GPU menanggung kerugian. Hiperbolik Hiperbolik melakukan lebih dari yang kosong。

PERUSAHAAN YANG AKHIRNYA MENANG BUKANLAH SATU DENGAN GPU TERBESAR, TETAPI YANG DAPAT MEMBERITAHU ANDA DI MANA GPUS BERADA DI MANA DAN DENGAN HARGA BERAPA MEREKA TERSEDIA, DAN MANA SALAH SATU BEBAN DARI SETIAP PEKERJAAN AKAN BERJALAN DENGAN BIAYA TERENDAH。

Hyperbolic membangun perusahaan ini. Mereka tidak memiliki GPU, mereka adalah perangkat lunak, mereka jauh dalam tiga lapisan, tetapi mereka dibuat menjadi kalkulus utama inferensi。

Ketika penalaran menjadi sumber daya yang langka, siapa yang menangkap nilainya

IKUTI GPU: DARI $ 200 MILIAR SAMPAI $ 60 MILIAR

Cerebras IPO dan penalaran memeras

Nvidia menggambar ulang: penalaran menjadi tajuk utama

Peras telah tiba

Gudang ini: enam lantai, satu bengong

Hiperbolik: Satu-satunya perusahaan yang melintasi tiga lapisan

Vince, cermin ini

Mengapa ini penting sekarang

Artikel Terkait

Apakah SpaceX IPO bernilai $135 per saham

Ketika alasan menjadi sumber daya langka, yang menangkap nilai

Industri Watch: dari versi terbaru Bitget CFD, lihat tren dari "situasi" dan "de- rebracing" dari platform turunan terenkripsi

Pengamatan industri: dari versi terbaru Bitget CFD, tren dari "situasi" dan "de- rebracing" dari platform turunan terenkripsi

Produk

Hukum & Dukungan

Tautan Teman