Ketika alasan menjadi sumber daya langka, yang menangkap nilai
PERUSAHAAN YANG AKHIRNYA MENANG TIDAK AKAN MENJADI SATU DENGAN GPU TERBESAR. 。

Original by Frank Fu
Sumber: IOSG Ventures
Pada tahun 2023, David Cahn menyarankan bahwa lubang itu tidak pernah diisi di sisi pelatihan. Hal ini telah termasuk dalam penalaran, dan pasar hanya mulai faktor ke dalam harga dalam beberapa minggu terakhir. Masalah sebenarnya menjadi masalah berikutnya ketika Young Waida mengatur ulang keuangan sekitar "layanan token" dan Cerebras mendapat 20 kali lebih banyak. Ketika alasan menjadi sumber daya yang langka, nilai disimpan pada tingkat kalkulator berapa。
IKUTI GPU: DARI $200 MILIAR MENJADI $60 MILIAR
Pada tahun 2023, David Cahn dari Sequoia mengangkat isu yang menggantung di atas seluruh gedung AI, "masalah miliar dolar". Setiap dolar yang dihabiskan untuk GPU dan sekitar dolar lainnya dihabiskan untuk daya di pusat data, sehingga setiap tahun GPU CapEx berarti bahwa chip pada akhirnya harus menghasilkan sekitar $200 miliar pendapatan untuk memulihkan ibukota. Bahkan dengan asumsi yang sangat murah hati dari pendapatan AI, ia menemukan lubang lebih dari $12.5 miliar antara "masukan" dan "pembayaran pengguna akhir". Perhatian jelas: GPU sedang over- dibangun di depan permintaan nyata。
Setahun kemudian, kesenjangan telah melebar bukannya menjadi sempit. Dalam kelanjutan tahun 2024, Cahn mendefinisikannya kembali sebagai masalah sebesar "$60 miliar" dengan ekspansi produsen besar CapEx. Bentuk logika kosong yang akrab: pembangunan yang berlebihan menyebabkan oversupply, yang membakar modal。
kedua artikel ini menanyakan hal yang sama: siapa yang akan mengisi lubang ini? jawabannya tidak pernah muncul dalam buku di sisi "kereta". tampaknya di sisi inferensi, dan pasar baru saja mulai faktor ke harga dalam beberapa minggu terakhir。
Cerebras IPO dan penalaran menekan
Cerebras terdaftar pada hari Kamis. Kali ini IPO mendapat 20 kali overscripted, dan harganya hampir dua kali peningkatan akhir pada hari Rabu. Permintaan tidak datang dari taruhan pada pembunuh Nvidia berikutnya, tetapi dari hal yang sederhana: pasar mulai menyadari bahwa bottleneck nyata dalam AI adalah inferensi, bukan pelatihan。
Bakat Cerebras adalah struktur chip yang membuat penalaran sangat cepat. Bukan pelatihan, tapi alasan. Itulah yang mengubah Wall Street. Pasar berulang, itu mengembang dengan penggunaan. Setiap kali Claude menjawab pertanyaan, setiap kali antent melakukan misi, itu menguras komputasi. Pelatihan hanya terjadi sekali, dan alasan tidak pernah berhenti。
J.P. Morgan memperkirakan ukuran dari pasar referensi 10 sampai 50 kali ukuran pelatihan. Ketika mesin mulai melaksanakan misinya dari mesin lain, yaitu untuk memperluas dalam bentuk anatomi, permintaan referensi tidak lagi mengembang dengan jumlah pengguna, tetapi dengan kalkulus itu sendiri。
Nvidia menarik kembali: alasan menjadi judul
Jika Cerebras adalah kebangkitan pasar, maka musim terakhir Nvidia adalah konfirmasi dari puncak rantai. Pada konferensi keuangan terbaru, Jensen Huaang membuat pernyataan yang tidak terkatakan dengan jelas: permintaan AI berkembang dalam mode parabola. Alasan untuk hal ini adalah sederhana: Kecemasan AI telah tiba. Matherial telah pindah dari satu waktu penalaran ke penalaran logis, dan kemudian ke proses di mana ia akan menyebut alat sendiri, mengatur tugas. Huang bilang, "Tokens sekarang menguntungkan. Di era AI, kemampuan menghitung adalah pendapatan dan keuntungan。
ini membentuk kembali seluruh industri. pelatihan adalah biaya satu-waktu untuk membuat model, dan referensi adalah biaya berulang untuk menjalankannya, sementara botol saat ini dideduksi dan tidak terlatih。
Nvidia menulis penilaian ini ke dalam laporan keuangannya. Sekarang diungkapkan pada dua platform bukan satu: Pusat Data dan Pemasaran Edge. Sentres data (sekitar $75 miliar untuk musim saat ini, dibandingkan dengan + 92 per sen) lebih lanjut dibongkar ke Hyperscale (sekitar $38 miliar, relatif terhadap + 12 persen) dan ADIE, yaitu awan AI, industri dan perusahaan (sekitar $37 miliar, relatif terhadap + 31 per sen). Baris yang benar-benar baru adalah Edge Computing: $6.4 miliar, + 29 persen, meliputi terminal yang benar-benar dijalankan seperti PC, stasiun kerja, pangkalan AI- RAN, robot dan mobil。
Tepi masih memperhitungkan kurang dari 8 persen pendapatan total, tapi Nvidia telah mengangkatnya ke platform kedua bersama pusat data. Sinyal adalah bahwa inferensi dibagi menjadi dua front, pusat data claud inferensi, dan endpoint jera, dan AI adalah untuk melihat, bergerak dan bertindak di dunia fisik. Peta jalan mengikuti logika yang sama, Vera Rubin, dari kuartal ketiga tahun, bisa sampai 35 kali lebih besar dari kesimpulan Blackwell; Huang juga memberikan brand- baru $200 miliar TAM untuk CPU Vera, yang dirancang untuk beban agntic. Setiap perusahaan model garis depan diharapkan untuk sepenuhnya bergeser ke sana pada hari pertama。
ketika perusahaan nilai-tinggi di planet ini mengorganisir kembali pengungkapan keuangan mereka sekitar "layanan token", botol diselesaikan. sisa kertas ini berurusan dengan siapa menangkap nilai ketika referensi (daripada pelatihan) menjadi sumber daya yang langka。
Sebuah catatan scoping pertama. Di kedua front, kertas ini berurusan dengan CDU, pusat data sewaan yang menyediakan layanan token API eksternal. Endpoint mengacu pada chip lokal di dalam perangkat itu sendiri (Jetson, RTX, Drive, AI- RAN) yang sepenuhnya tanpa sewa GPS dan polimer. Di sini, lihatlah sebagai cara yang halus untuk memperbesar seluruh perekonomian, untuk mendukung bottlenecks, daripada pasar di mana Hyperbolic dan Venesia terletak, yang benar-benar di garis awan。
Pemerasan telah tiba
Anthropic adalah kenari di tambang batubara. Menggunakan lebih dari kapasitas pra- konfigurasi, keluhan Claude tentang menjadi "otak-bocor" di seluruh web, termasuk respon aliran terbatas, penalaran lambat, jendela konteks terkompresi. Solusinya adalah perhitungan telanjang: pada Mei 2026, Anthropic mengambil alih dari SpaceX seluruh pusat data Colossus 1, 220.000 + Nvidia GPU, 300 + MW, dan mendedikasikannya untuk menyimpulkan, bukan pelatihan。
Bagian ini kapasitas membuka serangkaian perubahan cap, masing-masing adalah sinyal. Pada 6 Mei, Anthropic menggandakan batas lima jam untuk Claude Code, menghapus batas waktu puncak dan secara signifikan meningkatkan batas API bagi Opus. Pada 13 Mei, batas mingguan untuk Claude Code dibesarkan oleh 50 persen (sampai 13 Juli). Selanjutnya, pada tanggal 15 Juni, ia melakukan kebalikan dari "Sponsible": untuk menggunakan Agen SDK, mode no- head claude-p, CI streaming baris air dari langganan datar dan menempatkan mereka dalam sebuah kredit diukur independen ($20- 200 per bulan pada harga API). Langkah terakhir ini menggabungkan seluruh argumen ke dalam sebuah aksi: busur memakan semut pada tingkat yang jauh lebih cepat daripada toleransi desain dari subscriptions datar, sehingga harus dihargai sesuai dengan asli "biaya berulang"。
pelatihan adalah pengeluaran modal satu kali. inferensi adalah biaya operasi berulang yang diperoleh dengan setiap pengguna baru dan setiap delegasi baru。
Gudang ini: enam lantai, satu botol
SETIAP APLIKASI AI BERADA DALAM RANTAI PASOKAN DIMULAI DENGAN TANAMAN KRISTAL TSMC DAN BERAKHIR DENGAN TITIK AKHIR API:


Kebanyakan perusahaan hanya memiliki satu dari mereka. Nvidia memiliki silikon, CoreWeave memiliki logam ketelanjangan, Bersama Al memiliki optimasi alasan, OpenRouter memiliki model rute API。
Kecuali satu。
Hiperbola: Satu-satunya perusahaan di tiga lapisan
Hiperbola meluncurkan pasar GPU nya pada bulan Juni 2025. Dalam beberapa bulan pertama, jumlah pengembang telah melampaui 200.000 +, menggunakan garis depan laboratorium AI, pencarian, dan konsumen besar-tingkat platform。
Yang menarik adalah strukturnya。
Hiperbola memiliki sebuah GPU tidak diselenggarakan. Setiap kartu berasal dari Neocloud dan pusat data, termasuk CoreWeave, Lab Lambda, Nebius dan operator kecil dengan kapasitas kosong. Kedengarannya seperti kelemahan, tapi itu parit。
Dengan duduk di antara pemasok GPU dan konsumen, Hiperbola dapat melihat data real-time yang tidak dapat dilihat orang lain. Dia tahu siapa yang membeli GPU dengan harga berapa, kapan. Ia melihatnya sebelum kelebihan pasokan terbuka, sebelum permintaan melonjak ke pasar。
Hari ini, parit itu sendiri adalah kumpulan multi- claud. Hiperbola menjahit kapasitas produksi puing-puing dari puluhan berdiri sendirian awan dan data centres menjadi kolam yang distandar unified yang memungkinkan pengembang untuk menyewa murah tersedia GPU di mana saja tanpa bernegosiasi dengan setiap operator atau mengelola tumpukan rekening. Semakin banyak awan itu mencapai, semakin banyak cairan itu, lebih berharga data itu. Di masa depan, tim ini mengeksplorasi bagaimana menggunakan data ini untuk memodelkan kurva harga GPU dan akhirnya berinvestasi di ibukota sendiri untuk pasokan dan permintaan halus dan untuk memainkan peran pasar dalam perhitungan fisik; namun, tujuan ini masih pada tahap awal, dan lapisan polimer yang benar-benar pulih sekarang。
Ini adalah roda:
- Akses ke awan lebih banyak, pasokan lebih bersama
- Lebih banyak persediaan, pasar lebih dalam dan data harga real-time
- Data yang lebih baik, sekarang jalan yang lebih cerdas, model harga lebih lama
- Lebih baik mobilitas dan harga, lebih banyak pengembang, lebih banyak awan untuk mengakses
Tidak ada perusahaan lain yang mencoba ini. Hyperbola adalah satu-satunya perusahaan yang berjalan di kedua GPU sewa, penyebaran dan model cover API。
Vince, cermin ini
Venesia adalah ekspresi paling jelas ekonomi pada tingkat aplikasi dan kontras berguna dengan lokasi hiperbola. Ini adalah aplikasi penalaran prioritas utama: satu set kompatibel OpenAI dari APIs, bersama dengan subscriptions berorientasi-konsumen (Free / Pro / Pro + / Max), mengarahkan permintaan ke sekitar 75 model, dimana sekitar dua pertiga adalah model open-source atau self-hosted (Llama, Mistrate, Qwen, DeepSeek), dan sisanya adalah faks tertutup-model sumber perbatasan. Intinya adalah, Vince tidak memiliki kalkulus berarti. Kolaborator GPU yang pernah dipublikasikan dan pemasok komputer rahasia (NEAR AI Cloud, Phala) menyewanya dan membayarnya melalui laboratorium depan, sehingga biaya sebenarnya adalah inferensi, bukan host SaaS。
Vince sungguh menjual privasi. Istilah "istimewa" bukan tentang mengubah komputasi publik menjadi properti pribadi, melainkan tentang menambahkan lapisan jaminan terhadap logika komersialisasi: bukan untuk menyimpan data, bukan untuk melatih, untuk meminta anonimitas, dan sebagian untuk lari ke TEE, sehingga operator tidak melihatnya. Faktor bawah adalah beban jalan, dan tambahan harga adalah lapisan kemasan privasi ini. Dan lapisan jaminan ini berlapis dan tidak merata: sebuah model open source yang berjalan di bawah kendali sendiri atau pada TEE GPU dapat dihitung dari akhir spektrum, tetapi permintaan anonim - melalui model sumber tertutup seperti Claude, GPT, privasi hanya strip identitas Anda, dan prompt asli Anda masih sedang diproses di akhir laboratorium depan. Jadi privasi terkuat hanya mencakup sumber terbuka, dan model garis depan adalah "anonim" bukan "rahasia nyata". Venesia 's Maori = harga langganan - bagian dari harga dibayar hilir untuk inferensi, yang lebih dari harga API telanjang, hampir seluruhnya didukung oleh harga Priceracy, yang mengapa tipis dan subjek untuk forwarning-melalui harga。
Desain token dikemas ini bagian dari permintaan. Venesia berjalan dengan dua token: VVVV (agunan dan akses platform) dan DIEM, yang merupakan kredit referensi, masing-masing DIEM sekitar $1 per hari. Biaya tersebut memicu pembelian yang dapat diprogram kembali VVVs (Pro / Pro + / Max, sekitar US $2 / 5 / 10, secara hormat), sementara emisi berkurang sesuai dengan jadwal tetap: 6M 5.5M VVVV per bulan, turun ke 3M pada 1 Juli. Pembelian adalah nyata, tetapi diskresi dan masih sederhana: pada bulan April dan Mei, sekitar US $10,3 juta hancur, dan pada bulan Juni, itu perlahan naik ke sekitar US $110 juta, baik di bawah $200.000 baris per bulan。
Permukaan dasar lebih sehat daripada judul. Sosok publik yang beredar sebesar US $70 juta ARR hampir pasti dapat diidentifikasi sebagai tambahan untuk biaya langganan; daerah yang dapat dipertahankan lebih dekat dengan US $6 juta untuk US $15 juta. Dalam konteks ini, pergerakan ini nyata: sekitar 13.000 alamat yang disimpan, sekitar 9,9 juta kunjungan situs per bulan (sekitar 330.000 kali sehari) dan subscriptions Pro baru hover sekitar baris sekitar 1400 per hari. Ini adalah bisnis yang nyata, tapi ekonomi bisnis tipis tunduk pada perhitungan yang telah diperoleh。
Itu sebabnya Hiperbola berada di atasnya. Jika Vince adalah pompa bensin, Hiperbola adalah kilang minyak. Venesia memiliki daya beli dari pasokan terbatas yang sama di mana semua orang bergantung; pasokan hiperbola yang segmen untuk mengumpulkan, standardize dan menjual ke Venesia dan semua pemain seperti itu. Sebagai permintaan bertambah, nilai diakumulasi tidak hanya untuk mengkonsumsinya aplikasi perhitungan, tetapi juga untuk mengumpulkan dan route- perhitungan dan menangkap akumulasi pembayaran biaya konsumsi untuk aplikasi ini。
Kenapa ini penting sekarang
Nvidia telah merestrukturisasi keuangan sekitar "layanan token". IPO Cerebras membuktikan bahwa pasar telah memahami bahwa akses adalah bottleneck. Anthropic berjalan sekitar untuk kapasitas, membuktikan itu masalah nyata. Agentik dan fisik AI akan memperbesar permintaan dengan beberapa perintah besarnya di seluruh awan dan sisi akhir。
Dan memiliki "masalah 60 miliar dolar" cincin dari sisi lain. Cahn 's logika kosong, yaitu, over- bangunan, kemudian kelebihan kapasitas, kemungkinan akan validasi akhirnya. Tapi kelebihan adalah hal terbaik untuk sebuah polymer ringan: ketika harga GPU turun dan pecahan persediaan tersebar di atas puluhan awan, pemain yang tidak memiliki perangkat keras dan yang mentransfer setiap beban tugas ke kartu termurah yang tersedia mendapatkan perbedaan, sedangkan operator yang memegang depresiasi GPU menanggung kerugian. Hiperbola melakukan lebih dari kosong。
PERUSAHAAN YANG PADA AKHIRNYA MENANG BUKANLAH SATU-SATUNYA YANG MEMILIKI GPU TERBESAR, NAMUN YANG DAPAT MEMBERITAHU DI MANA GPU BERADA DAN DENGAN HARGA BERAPA YANG TERSEDIA, DAN YANG MANA DARI SETIAP PEKERJAAN AKAN BERJALAN DENGAN BIAYA TERENDAH。
Hiperbola sedang membangun perusahaan ini. Mereka tidak memiliki GPU, mereka perangkat lunak, mereka jauh di tiga lapisan, tapi mereka dibuat ke kalkulus utama inferensi。
