2024年2月27日 星期二

黃仁勳和NVIDIA (下)

 黃仁勳和NVIDIA (下)

 

上篇談了2007年黃仁勳投入大量人力和資源創建CUDA平台. 目的就是為了讓GPU的運算能力可以被更廣泛地運用在除傳統PC GAMING以外的市場. 很自然,他開始鎖定在一些需要大量圖形處理產品的市場. 而當年最紅的產品是什麼? 沒錯, APPLE 2007年發表了第一代的iPhone. 也因此引爆了智慧型手機的時代.

 

於是不意外地,Nvidia2008年宣佈了其智慧型手機(或移動設備, 如平板)專用的晶片─Tegra. 當時老黃打的算盤是,MacBook已經取代IntelNVIDIA的晶片組了,雙方更進一歩推升到手機上也是很合理的. 於是開始大力向Apple推銷Tegra用於iPhone.

 

問題是Steve Jobs自己另有打算(後來證明,就是Apple自研晶片),於是Tegra很快就投向另一個科技巨頭─想挑戰iPhoneMicrosoft, 第一代Tegra就被用在Microsoft挑戰iPod Zune. 然後慢慢地被用在Others上,如小米、MotorolaAsusAcer….的手機.

 

然後呢? 你現在很少聽過用NVIDIA晶片的手機了. 很明顯的事後看來, 這是個失敗的方向,依2013年的市佔率,手機晶片市佔率前三分別是Qualcomm, SamsungApple….Tegra 被歸在Others, 市佔率約1%, 比聯發科還低. 所以不久後,NVIDIA就退出了手機/移動設備的市場了.

 

為什麼會這樣呢? 因為手機不像電腦這麼大. 所以你拆開手機的主機板, 只會看到一顆晶片, 這叫SOC (System on a chip). 但如果你把SOC的封裝打開來看,裡面同樣有很多晶片,如下圖就是iPhone 1 SOC.

 


基本上SOC有二大部份,一個是負責通訊的Baseband processor(BP),另一個就是像手機可以像電腦一樣處理各種事的Application Processor (AP). NVIDIA平台只能提供GPU的功能. 再加上Tegra是用電腦晶片改來的,架構比較笨重, 以及一開始沒有押寶Android... 簡單地說,就是很難用. 所以很自然被淘汰了.

 

不過老黃對此事一直耿耿於懷,於是曾在2020年提出用400億美元從Softbank收購晶片架構專利商ARM. 如果成功,這會是當時科技業最大的收購案. NVIDIA想藉此重回移動設備的市場. 不過本案因為有反壟斷的疑慮,最終也沒有成功.

 

手機市場失利後,老黃又看上了另一個市場─自動駕駛(Autopilot). 對方是他曾經的麻吉─Elon Musk.

 

還記得上一篇提過2016年時,黃仁勳曾把Nvidia打造的第一台超級電腦DGX-1交給OpenAi, 而當時交付簽收的人就是Elon Musk? 二人有很長時間都是麻吉,至少當時是.

 

2012Tesla發表Model S時,就宣佈要採用NvidiaTegra 3作為自動駕駛的計算晶片. 之後2016Tesla發表平價款Model 3時,也宣佈要採用Nvidia最新的GPU-Drive PX2, 而且此後,所有Tesla的車款核心都用Drive PX2 作為自動駕駛晶片. 並宣稱在Drive PX2運算力下,可以達到Level 4的自動駕駛. 未來只要有二片的Drive PX2, 就可以達到最高的完全無人的L5駕駛.

 

而也因為Tesla是全球電動車/自動駕駛的龍頭,一時之間,所有的電動車廠都想用Nvidia的晶片. nvidia又活起來了.

 

然後呢? 沒錯. 又又又又出4. 2018年在Tesla的開發者大會上,Elon Musk宣佈將降低對NVIDIA的依賴,2019年起部份車款將搭配Tesla自己研發由三星代工的FSD晶片. Musk還很驕傲地說自家研發的晶片比Nvidia的快7. 消息一出,除了引發黃仁勳的反擊外,更現實的是華爾街對NVIDIA的喝倒采,半年內NVIDIA股價跌掉一半.

 

然後呢? 又有一個熱門的玩意出來了,又又又救了NVIDIA, 那就是─加密貨幣和它引發的挖礦機。

 

2016年加密貨幣開始爆發, 由於加密貨幣的取得除了透過買賣,就是透過大量的運算力去挖礦,於是GPU就成為了利器.

 

加密貨幣初期被人罵聲連連,多數人都認為這玩意只是純炒作,不但沒有任何價值,而且耗費大量資源. 然而隨著比特幣、乙太幣….和一堆各式各樣幣紛紛狂漲,連黃仁勳都跳出來稱讚 加密貨幣擁有無限可能. NVIDIA和台積電成為了最大贏家(當時有家中國製造挖礦機的公司, 甚至一度成為台積電僅次APPLE的第二大客戶).

 

當時為了因應挖礦的需求,NVIDIA推出了數個專為挖礦專用的顯卡,這些顯卡為了加快速度,直接砍掉了遊戲用圖型處理功能. 甚至把原有遊戲專用的顯卡的產能都移到挖礦用顯卡, 這麼一來,立即引爆網路上那些忠誠支持NVIDIA顯卡的遊戲玩家怒火. 紛紛留言,NVIDIA只是個破壞環境的混蛋,他們根本不在乎那些死忠的遊戲玩家. 但不管如何,在挖礦的需求下,2021NVIDIA還是創下當時史上最高的銷售紀錄,股價也超過300美元/.

 

然後呢? 沒錯, 又又又又又出4. 首先是2021年底開始加密貨幣的價格開始大跌, 其次第二大加密貨幣─以乙坊又宣佈改變取得方法,不再以運算力取得貨幣,這讓大量NVIDIA挖礦卡頓時失去價值.除此之外,2022年還碰到駭客入侵,盗得NVIDIA 1TB如驅動程式、設計圖等相關資料. 最後是SEC(美國證交會)認為NVIDIA過去數季都把挖礦卡的銷售放入原本遊戲顯卡分類,誤導投資人而向NVIDIA起訴. 不意外地,這一年,NVIDIA股價跌了近65%.

 

然後呢? 奇蹟又又又又發生了. 2022年的11月,OpenAi 發表了ChatGPT.

引用黃仁勳的話說, 這是” iPhone moment of AI”.

 

還記得上一篇講的2012年的AlexNet 的類神經網路,以及2016NVIDIA交付給OpenAIDGX-1? 經過了這麼多年, AI終於爆發了. 而且誠如上篇說的, GPU來訓練AI的效率遠比CPU好上數十倍. 於是不意外地,GOOGLE, AMAZON, MICROSOFT….所有的科技大廠都爭相搶購NVIDIA的顯卡好投入AI這個具有龐大潛力的市場.

 

更更重要的是,因為市場上可用的AI人才都習慣於NVIDIACUDA平台, 所以即便有其他家的晶片/顯卡效能不輸NVIDIA. 多數工程師仍選擇NVIDIA. 簡單地說,CUDA的生態系成為了NVIDIA的護城河.

 

而也因為NVIDIAAI用的顯卡有近乎獨佔的地位(90%), 它知名的H100價格自然水漲船高. 喊到一張2.5~3萬美元,而市場估算其成本大概是3300美元. 而且交期已經排到二年後了.甚至NVIDIA還學起來Hermes, 要想H100還要搭配低階的A100. 甚至還有挖礦公司直接拿持有的H100當作抵押向投資機構再借23億美元出來.

https://technews.tw/2023/08/08/core-weaver-nvidia-h100-collacteral-debt-2-3b/

 

這麼瘋狂的需求和超高的毛利,當然就是造就了你今天看到的飆股. 我記得去年6月黃仁勳來台灣參加COMPUTEX時,他是兆元男如今不到一年,他已經變成二兆元男

 

接下來呢? 當然是各家晶片大廠紛紛宣佈要進軍AI晶片. INTELGaudi 3, AMDMI300-X, AMAZONTrainium2. MicrosoftMeta 則是和AMD合作(因為矽谷不喜歡看到壟斷).

 

總結以上,目前NVIDIA的最大優勢就是科技業對於AI的大量投入和急於發展,而不管是AI的人才或是所需的相關配套中,NVIDIA的顯卡和CUDA平台是多數人最熟悉也是最成熟的. 這也讓其他晶片廠即便運算效能不輸H100, 但配套上還是比不上.

 

NVIDIA也不是沒有隱憂. 它的挑戰並非全然來自AMD INTEL這些大廠的新產品. 而是AI還是個相對初期的市場. 目前CUDA的優勢來自於和目前主流的生成式AI (訓練大概只佔AI 晶片15%市場, 剩下85%用於資料中心和近端的計算)的高度相容. 但如果未來出現不同模式的AI, 或是突破目前不同的框架時, CUDA的現有優勢可能銳減.

 

不管如何,看完了這三篇黃仁勳和NVIDIA的故事. 你應該知道這種大起大落, 不停轉戰和不停戰鬥基本上就是過去30年這位CEO帶領下的風格. 這也是NVIDIA有辦法從一家最初的顯示卡供應商變成今天高端運算霸主的主因吧!

2024年2月17日 星期六

黃仁勳和NVIDIA (中)

 

黃仁勳和NVIDIA ()

 

上篇談了黃仁勳和NVIDIA20年的故事,這篇來說最近的10年發生了什麼.

 

看完上篇你是不是很好奇, CPUGPU的差別在哪裡? 事實上NVIDIA 有做個一個影片解釋過. 它說CPU就像一個無所不懂的博士,但也因為它無所不會,什麼事都要做,所以速度慢、耗率高. GPU就像小學生,只會做一件事, 所以速度快耗率低,但當你把1000個小學生聚在一起,並分配每個學生只做一件事時,它的效率卻會非常驚人.

 

當時NVIDIA 的影片中,是用類似砲彈投射機說明,CPU是啪.....啪一點一點地畫出一幅畫. GPU是利用群發,啪一聲整幅畫就畫好了.

 

是不是真的那麼簡單我是不知道, 但至少我這個唸文組的是以為自己看懂了.

https://www.youtube.com/watch?v=-P28LKWTzrI&ab_channel=NVIDIA

 

重新接回上篇,談到INTELNVIDIA和解.

 

如果你是黃仁勳,回顧自己和公司這20年來的路,你會想到什麼?

很簡單,就是做為配件廠的悲哀嘛!

 

主機賣不好,你要配合砍價. 主機賣太好,人家也會挾量叫你砍價. 更慘的是,如果主機賣的非常非常好,大廠就跳下去自己研發了,反正只要有量和不違反專利,晶圓代工廠都會樂意接單製造. 例如今天APPLE裡的晶片就是如此.

 

要跳脫這種困局,一種方式當然是讓你的技術達到對手都追不上. 但這種事說的容易,在矽谷滿地是資訊天才再加上NVIDIA當時又不是什麼大咖的前提下,做起來卻是天方夜譚. 於是老黃走向了另一條路,那就是建一個平台,透過這個平台建構起各式各樣的運用,讓大家都習慣用NVIDIA的平台去開發相關的運用,這其實就像APPLE STORE的概念,藉此綁住客戶. 於是NIVIDIA的平台─CUDA2006年因應而生.

 

CUDA的概念並不是黃仁勳想的,而是NVIDIA的技術長DAVID KIRK提出的.

在此之前,NVIDIA的晶片主要做為遊戲和電腦系統的影像處理用.簡單地說,NVIDIA交付晶片和驅動程式給客戶後,後端的運用程式開發都是客戶端自己去處理.

DAVID KIRK認為要走出困局,就是要自家的晶片可以被更廣泛的運用到更多和更高階的影像相關處理上,如電影特效、影像模擬、醫療. 但問題是使用這些電影特效和醫療的工程師,他們的專長是在既有應用程式”(Photoshop)上再去發揮,他們不會寫NVIDIA這種底層的開發程式. 所以最好的方法就是建一個CUDA(Compute Unified Device Architecture)的平台,把這些底層的開發程式都寫好了,讓這些應用工程師可以透過這個平台,用他們熟悉的程式語言,直接驅動NVIDIA晶片去做更多的運用..

 於是,NVIDIA 投入了大量的資金和人力在開發CUDA平台.

 

然後? 沒錯,杯具又發生了。2007年爆發了著名的 NVIDIA 晶片瑕疵事件.

 

2007-2008年有多家的N/B品牌, HP, DELL….都出現了在高溫環境下螢幕閃爍、或是開不了機的情況. 經過調查發現,這些電腦的共同特色都是裝了NVIDIA新一代的顯示晶片. 消費者後來發現NVIDIA早就知道可能會有這種情況,所以向NVIDIA發起集體訴訟. 就和早年三星手機爆炸一樣, 當時NVIDIA晶片被稱為核彈VGA

https://www.zdnet.com/article/nvidia-in-defective-chip-class-action-suit/

 

為什麼會如此呢? 因為NVIDIA 在原有晶片加入了CUDA平台, 所以原本的晶片變大了,可是相關的散熱卻沒解決好, 所以問題就出來了. 不意外的,這個NVIDIA大家看好並投入大量金額的產品,不僅沒有為公司帶來更好的效益,反而拖累了公司原有的產品. 而且不只是終端消費者,HP, DELL, APPLE這些大客戶都開始質疑NVIDIA. 高額的研發成本再加上銷售的銳減,再加上2008年的金融風暴, 不意外地NVIDIA出現了巨額的虧損, 股價自然也重挫. 我查一下, 2008-2010, NVIDIA的股價大概都在$2-4/股左右.

 

當時市場罵聲一片,大家都在質疑為什麼Nvidia要花大錢做一個沒有人要用的東西,甚至把原來的產品拖下水? 但殊不知,就是這個才15~16年前被人幹譙到沒力的平台,才成就了今天NVIDIA過兆的市值.

 

2012年一個小事意外地帶動了今天的NVIDIA. 一位加拿大的教授帶著二個學生靠著發明的AlexNet”類神經網路拿下ImageNet的冠軍.

 

什麼是類神經網路? 或是ImageNet有多了不起? 歹勢, 請自行Google, 因為文組的我也不太了解.

但總而言之,這玩意開啟了近代AI的熱潮.

 

這和NVIDIA有什麼關係呢? 你們可能知道AI是需要學習的(或被訓練).

例如,我們要教一台電腦了解什麼是”?

以前的做法就是下一堆定義, 例如大小約20-70公分,二個眼睛,四條腳, 有一根尾巴,面部有鬍鬚, 叫聲是喵

問題是,定義下的愈多答案愈精準沒錯,可是也會錯失很多對的,例如有隻只有三隻腳的貓,或是叫聲不是喵的, 電腦可能就會判定它不是貓.

相反的,定義太廣,就可能電腦會把狗或是老虎都認為是貓.

 

再回頭想想,你自己是怎麼知道那是一隻貓的?

當看到一個動物,你其實並不會去回想定義1, 定義2, 定義3….是什麼? 你知道那是一隻貓,那是因為你從小到大看過了很多貓,所以看到類似的,你自然就會猜那是貓.

 

AI的訓練也是如此,它就是讓電腦自己去網路上看幾百萬張貓的照片,自然電腦就知道什麼是貓了. 所以AI要愈強,就是要讓它不停地學習各種知識.

 

OK, 所以這位教授的團隊發現,如果使用傳統的CPU去訓練AlexNet可能花上數個月,但用Nvidia的晶片才二週,就可以練習電腦看1400萬張圖片. 結果消息一出,不意外地,Nvidia成為了場外的最大贏家. Google, Amazon, 各大實驗室和學校開始瘋狂訂購Nvidia的晶片. 也讓黃仁勳終於吐了一口鳥氣.

 

事後有人訪問黃仁勳是如何高瞻遠矚地看到ai的未來. 黃說,他說早期根本不知道市場有多大,但他賭的是加速運算(Accelerated Computing). 也就是人類未來對於高速運算的需求.

 

不管如何,NVIDIA又從谷底爬起來了. 這時黃仁勳再白痴也知道AI的未來需求了. 所以他開始佈局從平台再向下延伸到硬體.

 

2016年,黃仁勳把NVIDIA開發的第一台裝有8顆GPU超級電腦” DGX-1送到了當時還未如今天有名的OpenAI. 象徵NVIDIA正式跨足電腦伺服器以及AI市場. 而當年簽收這台電腦的,就是目前火紅的Elon Musk.

 

但如果你以為NVIDIA從此一飛沖天,那真的是too young too simple. 畢竟那是7年前,而Ai熱浪是這1年多的事. 當時這種東西都只是賣給學校和一些研究室. 甚至今天熱門的OpenAi 當年也只是個非營利機構.

 

接下來NVIDIA的路還有得講. 至少還有挖礦機、手機晶片和自動駕駛. 我本以為上下二篇就可以講完, 看來要到第三篇了.