校園創業與企業併購:AI產學合作新模式的典範 (林健正)ieee?。 Geoffrey Hinton、Ilya Sutskever 和 Alex Krizhevsky 隨後不久成立了 DNNResearch,並將公司連同 AlexNet 原始碼一起出售給了Google。
電腦視覺
在 1990 年至 2010 年期間,神經網路並不比其他機器學習方法(例如核子回歸、支援向量機、AdaBoost、結構化估計[18]等)表現更好。尤其是在電腦視覺領域,許多進步都來自手動特徵工程,例如 SIFT 特徵、SURF 特徵、HoG 特徵、視覺詞袋等。在電腦視覺領域,特徵可以直接從資料中學習的觀點曾是少數,但在 AlexNet[19] 之後,這一觀點逐漸佔據主導地位。
2011 年,Geoffrey Hinton 開始與同事探討「我需要做什麼才能讓你們相信神經網路是未來?」的問題。當時,對神經網路持懷疑態度的 Jitendra Malik 推薦了 PASCAL 視覺物件類挑戰賽。 Hinton 表示該挑戰賽的資料集太小,因此 Malik 向他推薦了 ImageNet 挑戰賽[20]。
ImageNet 資料集是 AlexNet 成功的核心,它由李飛飛及其同事於 2007 年開始創建。為了透過大規模資料推進視覺辨識技術的發展,李飛飛建構了一個遠超以往規模的資料集,最終包含 22,000 個類別的 1,400 多萬張標籤影像。這些圖像使用 Amazon Mechanical Turk 進行標記,並按照 WordNet 層次結構進行組織。 ImageNet 最初曾飽受質疑,但後來成為 ImageNet 大規模視覺辨識挑戰賽 (ILSVRC) 的基礎,並成為深度學習興起的關鍵資源。 [21]
Sutskever 和 Krizhevsky 都是研究生。 2011 年之前,Krizhevsky 已經編寫了 cuda-convnet 程序,用於在 CIFAR-10 資料集上使用單一 GPU 訓練小型 CNN。 Sutskever 說服了擅長使用 GPGPU 的 Krizhevsky 在 ImageNet 上訓練 CNN,並由 Hinton 擔任首席研究員。因此,Krizhevsky 擴展了 CUDA-ConvNet,使其能夠進行多 GPU 訓練。 AlexNet 在 Krizhevsky 父母家中的臥室裡,使用兩塊 Nvidia GTX 580 顯示卡進行訓練。 2012 年期間,Krizhevsky 對該網路進行了超參數優化,直到同年晚些時候贏得了 ImageNet 競賽。 Hinton 評論道:「Ilya 認為我們應該這樣做,Alex 成功了,而我獲得了諾貝爾獎。」[22] 在 2012 年歐洲電腦視覺大會上,AlexNet 獲獎後,研究員 Yann LeCun 將該模型描述為「電腦視覺歷史上一個毋庸置疑的轉折點」。 [21]
AlexNet 在 2012 年的成功得益於過去十年間逐漸成熟的三大技術的融合:大規模標記資料集、通用 GPU 運算以及改進的深度神經網路訓練方法。 ImageNet 的出現為在廣泛的物件類別上訓練深度模型提供了必要的資料。透過 Nvidia 的 CUDA 平台,GPU 程式設計的進步使得大型模式的實用訓練成為可能。這些因素加上演算法的改進,使得 AlexNet 在大規模視覺辨識基準測試中取得了優異的效能。 [21] 十多年後,李飛飛在 2024 年的一次訪談中回顧了這一重大意義:「那一刻對人工智慧世界具有重要的象徵意義,因為現代人工智慧的三大基本要素首次融合在一起。」[21]
雖然 AlexNet 和 LeNet 的設計和演算法基本上相同,但 AlexNet 的規模遠大於 LeNet,並且在速度更快的硬體上使用更大的資料集進行訓練。在過去的 20 年裡,數據和運算資源都變得廉價易得。 [19]
後續工作
AlexNet 的影響深遠,引發了後續大量關於使用 CNN 進行電腦視覺以及使用 GPU 加速深度學習的研究。截至 2025 年初,根據Google學術的數據,AlexNet 論文已被引用超過 17.2 萬次。 [23]
在本文發表時,尚無基於 GPU 的神經網路訓練和推理框架。 AlexNet 的程式碼庫採用 BSD 授權發布,並在隨後的幾年中被廣泛應用於神經網路研究。 [24][19]
在一個方向上,後續研究旨在訓練更深的 CNN,以在 ImageNet 資料集上實現更高的效能。此領域的研究包括 GoogLeNet (2014)、VGGNet (2014)、Highway Network (2015) 和 ResNet (2015)。另一個方向旨在以更低的成本重現 AlexNet 的性能。該領域的研究包括 SqueezeNet (2016)、MobileNet (2017) 和 EfficientNet (2019)。
Geoffrey Hinton、Ilya Sutskever 和 Alex Krizhevsky 隨後不久成立了 DNNResearch,並將公司連同 AlexNet 原始碼一起出售給了Google。 AlexNet 曾改進和重新實現,但截至 2012 年,其贏得 ImageNet 比賽時的原始版本已通過電腦歷史博物館根據 BSD-2 許可發布。 [25]
Computer vision
During the 1990–2010 period, neural networks were not better than other machine learning methods like kernel regression, support vector machines, AdaBoost, structured estimation,[18] among others. For computer vision in particular, much progress came from manual feature engineering, such as SIFT features, SURF features, HoG features, bags of visual words, etc. It was a minority position in computer vision that features can be learned directly from data, a position which became dominant after AlexNet.[19]
In 2011, Geoffrey Hinton started reaching out to colleagues about "What do I have to do to convince you that neural networks are the future?", and Jitendra Malik, a sceptic of neural networks, recommended the PASCAL Visual Object Classes challenge. Hinton said its dataset was too small, so Malik recommended to him the ImageNet challenge.[20]
The ImageNet dataset, which became central to AlexNet's success, was created by Fei-Fei Li and her collaborators beginning in 2007. Aiming to advance visual recognition through large-scale data, Li built a dataset far larger than earlier efforts, ultimately containing over 14 million labeled images across 22,000 categories. The images were labeled using Amazon Mechanical Turk and organized via the WordNet hierarchy. Initially met with skepticism, ImageNet later became the foundation of the ImageNet Large Scale Visual Recognition Challenge (ILSVRC) and a key resource in the rise of deep learning.[21]
Sutskever and Krizhevsky were both graduate students. Before 2011, Krizhevsky had already written cuda-convnet
to train small CNNs on CIFAR-10 with a single GPU. Sutskever convinced Krizhevsky, who could do GPGPU well, to train a CNN on ImageNet, with Hinton serving as principal investigator. So Krizhevsky extended cuda-convnet
for multi-GPU training. AlexNet was trained on 2 Nvidia GTX 580 in Krizhevsky's bedroom at his parents' house. During 2012, Krizhevsky performed hyperparameter optimization on the network until it won the ImageNet competition later the same year. Hinton commented that, "Ilya thought we should do it, Alex made it work, and I got the Nobel Prize".[22] At the 2012 European Conference on Computer Vision, following AlexNet's win, researcher Yann LeCun described the model as "an unequivocal turning point in the history of computer vision".[21]
AlexNet's success in 2012 was enabled by the convergence of three developments that had matured over the previous decade: large-scale labeled datasets, general-purpose GPU computing, and improved training methods for deep neural networks. The availability of ImageNet provided the data necessary for training deep models on a broad range of object categories. Advances in GPU programming through Nvidia's CUDA platform enabled practical training of large models. Together with algorithmic improvements, these factors enabled AlexNet to achieve high performance on large-scale visual recognition benchmarks.[21] Reflecting on its significance over a decade later, Fei-Fei Li stated in a 2024 interview: "That moment was pretty symbolic to the world of AI because three fundamental elements of modern AI converged for the first time".[21]
While AlexNet and LeNet share essentially the same design and algorithm, AlexNet is much larger than LeNet and was trained on a much larger dataset on much faster hardware. Over the period of 20 years, both data and compute became cheaply available.[19]
Subsequent work
AlexNet is highly influential, resulting in much subsequent work in using CNNs for computer vision and using GPUs to accelerate deep learning. As of early 2025, the AlexNet paper has been cited over 172,000 times according to Google Scholar.[23]
At the time of publication, there was no framework available for GPU-based neural network training and inference. The codebase for AlexNet was released under a BSD license, and had been commonly used in neural network research for several subsequent years.[24][19]
In one direction, subsequent works aimed to train increasingly deep CNNs that achieve increasingly higher performance on ImageNet. In this line of research are GoogLeNet (2014), VGGNet (2014), Highway network (2015), and ResNet (2015). Another direction aimed to reproduce the performance of AlexNet at a lower cost. In this line of research are SqueezeNet (2016), MobileNet (2017), EfficientNet (2019).
Geoffrey Hinton, Ilya Sutskever, and Alex Krizhevsky formed DNNResearch soon afterwards and sold the company, and the AlexNet source code along with it, to Google. There had been improvements and reimplementations for the AlexNet, but the original version as of 2012, at the time of its winning of ImageNet, had been released under BSD-2 license via Computer History Museum.[25]
林健正。校園創業與企業併購:AI產學合作新模式的典範
2012年的ImageNet競賽成為AI發展史上的分水嶺。Geoffrey Hinton與他的兩名研究生Alex Krizhevsky和Ilya Sutskever在多倫多大學電腦科學系共同開發的AlexNet,以壓倒性優勢贏得這場全球矚目的影像識別競賽。這個深度神經網路將錯誤率從傳統方法的75%大幅降低到15%,這樣的突破不僅震驚了學術界,更開啟了從理論研究走向商業應用的關鍵轉折點。
Krizhevsky後來回憶那段時光時說道:「結果出來後變得有點超現實,我們很快就開始收到併購邀約,收到很多郵件。」這個技術突破的影響力遠超三人當初的想像,它不僅證明了深度學習的巨大潛力,更為即將到來的AI革命奠定了技術基礎。在這個團隊中,Hinton作為「深度學習教父」提供理論指導和學術聲譽,Krizhevsky以其工程師本質解決技術難題,Sutskever則負責深度學習的理論創新和算法優化,三人的完美配合造就了這個歷史性突破。
戰略性創業:沒有產品的公司
AlexNet的成功帶來了前所未有的商業機會,但Hinton師生三人的應對方式卻展現了非凡的戰略眼光。2012年,他們共同創立了DNNresearch公司,這家公司從成立之初就展現出與傳統新創企業完全不同的特質。DNNresearch沒有任何商業化產品,不打算開發產品進入市場,整家公司只有三名員工,甚至沒有制定任何商業計劃。Hinton甚至詢問律師,如何讓這家只有三名員工、沒有產品、沒有歷史的新公司價值最大化。
這種看似「空殼」的公司設立模式,實際上反映了AI時代創新價值的根本轉變。在傳統產業中,公司的價值往往體現在有形資產、產品線或市場佔有率上。但在AI領域,核心價值正是人才本身以及他們掌握的前沿技術。DNNresearch的設立本質上是將學術突破轉化為商業資產的戰略載體,它的價值完全建立在團隊成員的才華和他們開創性的研究成果之上。
與此同時,Google也展現出對這個團隊潜力的敏銳嗅覺。在正式併購之前,Google通過「聚焦研究獎勵計劃」向Hinton及其研究團隊提供了60萬美元的研究經費,支持他們在神經網路方面的工作。這個舉動顯示了Google對潛在突破性技術的前瞻性投資策略。正如TechCrunch所報導的,Google通過獎勵計劃發現了DNNresearch的價值,意識到該團隊的工作可能對語音識別、語言處理和圖像識別領域產生重大影響後,決定單純的資助已經不夠。
史無前例的人才併購
2013年3月,Google以4400萬美元的價格收購了DNNresearch,這次併購在多個層面都開創了先例。首先,這是一次完全以人才為導向的併購,Google的核心目標是獲得該團隊在神經網路方面的研究能力以及背後的人才資源。這種併購模式徹底顛覆了傳統的技術收購邏輯,不再是為了獲得特定產品或服務,而是為了確保頂尖人才能夠為企業服務。
併購完成後,Google展現了其技術整合的高效能力。公司指派實習生Wojciech Zaremba重現Krizhevsky的論文成果,起初稱為WojNet,但在收購完成後,這個神經網路被正當地命名為AlexNet。這個快速的技術轉移過程顯示了企業在吸收學術成果方面的成熟機制。
更重要的是,併購後的工作安排體現了新型產學合作的靈活性。Hinton並沒有完全脫離學術界,而是計劃「將時間分配在大學研究和Google工作之間」。這種安排既保持了學術研究的獨立性和創新性,又讓企業能夠持續獲得頂尖人才的貢獻。Krizhevsky和Sutskever則選擇全職轉到Google,為他們提供了更大規模的資源和應用場景來發揮才能。
技術的快速產業化轉換
併購完成後,DNNresearch團隊的學術成果以驚人的速度轉化為Google的核心產品功能。在併購後短短六個月內,Google就構建並訓練了一個使用類似AlexNet方法的系統,大幅改進了照片搜索的精確度和易用性。這項技術被快速整合到Google Photos的圖像識別功能、Google+的照片搜索功能,以及語音識別系統的改進中,甚至延伸到Google的自動駕駛汽車項目。
這種快速的技術轉化能力顯示了現代科技巨頭在創新應用方面的優勢。相較於學術機構的資源限制,企業能夠提供大規模的運算資源、海量的數據以及實際的應用場景,讓原本停留在實驗室階段的技術迅速發揮實際價值。AlexNet從學術論文到全球數億用戶日常使用的產品功能,這個轉化過程的速度和規模在傳統產學合作模式下是不可能實現的。
人才流動成為產業發展的活水
併購後的幾年中,三位核心人物的發展軌跡完美詮釋了科技巨頭引發的人才併購如何促成人才流動,成為整個產業發展的活水。每個人的選擇都體現了AI人才生態系統的多元化和動態性,同時也展現了人才流動對產業創新的深遠影響。
Ilya Sutskever的職業軌跡最為引人注目。他在2013年加入Google Brain後,與團隊共同創造了序列到序列學習算法,並參與了TensorFlow和AlphaGo等重要項目的開發。然而,2015年底,他做出了離開Google的重要決定,成為新成立的OpenAI的聯合創始人和首席科學家。這個轉折點的意義極為深遠,因為正是在OpenAI,Sutskever主導了GPT系列模型的開發,最終催生了震撼世界的ChatGPT。如果沒有當初Google對DNNresearch的併購,以及隨後Sutskever在Google Brain的歷練,很難想像他能夠在OpenAI取得如此重要的突破。
Alex Krizhevsky的經歷則展現了另一種人才流動模式。他在Google工作了四年,參與了Google Photos和自動駕駛汽車等項目的開發。2017年9月,他因為對工作失去興趣而選擇離開Google,轉到專注於商業應用AI的Dessa公司。後來,他又轉型成為矽谷風險投資公司Two Bear Capital的合夥人。Krizhevsky的職業軌跡顯示了AI人才如何在學術研究、企業研發和投資領域之間流動,每一次轉換都為不同領域帶來了新的視角和機會。
Geoffrey Hinton的選擇更是體現了學者型人才在產學之間的靈活流動。他在Google工作了整整十年,始終保持著學術界和產業界的雙重身份。這種安排讓他既能夠享受企業級資源的支持,又能夠保持學術研究的獨立性。2023年5月,75歲的Hinton選擇離開Google,並公開表達了對AI技術潛在風險的擔憂。他的這個決定不僅引發了全球對AI安全的關注,也展現了頂尖學者如何通過自身的影響力來推動產業的健康發展。
人才併購的連鎖效應與產業生態
科技巨頭的人才併購策略產生了深遠的連鎖效應,重塑了整個AI產業的人才生態。Google對DNNresearch的成功收購不僅獲得了三位頂尖研究者,更重要的是建立了一個人才吸引和培養的良性循環。這些頂尖人才在企業環境中的工作經歷,使他們獲得了在學術機構難以取得的實戰經驗和資源支持,當他們後來流向其他機構或創立新的組織時,就成為了知識和經驗傳播的重要節點。
Sutskever在OpenAI的成功就是最好的例證。他在Google Brain的經歷不僅提升了他的技術能力,更讓他深刻理解了如何將學術研究轉化為實際應用。當他加入OpenAI時,這些寶貴的經驗成為了GPT系列模型開發的重要基礎。同樣地,Krizhevsky作為投資人,將他在學術界和產業界的豐富經驗帶到了創投領域,幫助新一代的AI創業者避免彎路,加速創新的商業化進程。
這種人才流動模式還催生了新的合作網絡和知識共享機制。曾經在同一團隊工作過的研究者們,即使分散到不同的機構,仍然保持著密切的學術交流和合作關係。這種非正式的知識網絡大大加速了AI技術的發展速度,讓創新成果能夠更快地在整個產業中傳播和應用。
產學合作新模式的典範意義
Hinton師生創業被Google併購的完整經過,構成了AI時代產學合作新模式的完美典範。這個案例展現了學術研究如何通過創新的轉化機制快速轉變為產業價值,同時也證明了人才在創新生態系統中的核心地位。
傳統的產學合作往往停留在技術授權或專利轉移的層面,企業與學術機構之間的關係相對疏離。但DNNresearch的案例展現了一種全新的合作模式:學術團隊通過設立新創公司作為轉化載體,既保持了研究的自主性,又為商業化創造了條件。當企業進行併購時,獲得的不僅是技術本身,更是整個研究團隊的創新能力和未來潛力。
這種模式的成功還在於它創造了一個多贏的格局。學術機構通過與企業的深度合作獲得了更多資源支持,企業通過人才併購獲得了持續的創新能力,而研究者個人則在學術影響力和商業價值之間找到了平衡點。更重要的是,這種合作模式促進了人才的流動和知識的傳播,為整個產業的發展注入了源源不斷的活力。
對於台灣推動「AI新十大建設」而言,這個案例提供了極為寶貴的啟示。台灣需要建立類似的創新轉化機制,鼓勵學術機構與企業建立更深層次的合作關係,同時創造有利於人才流動的制度環境。只有當優秀的研究者能夠在學術界、產業界和創業環境之間自由流動時,台灣才能在全球AI競賽中建立真正的競爭優勢,實現從「AI島」到「AI樞紐」的戰略轉型。
沒有留言:
張貼留言