毫無疑問,數(shù)據(jù)是這個時代的新能源。
數(shù)據(jù)提高預測的精準度,決定了推薦機制,成為每個企業(yè)升級或調(diào)整戰(zhàn)略的基礎(chǔ)依據(jù)。
日常數(shù)據(jù)可分為由程序生成的結(jié)構(gòu)化數(shù)據(jù),與視頻圖像文字等非結(jié)構(gòu)化數(shù)據(jù)。其中,非結(jié)構(gòu)化數(shù)據(jù)占九成企業(yè)全部數(shù)據(jù)量的 55% 以上,如何管理和使用好這些數(shù)據(jù)是所有企業(yè)面臨的挑戰(zhàn)。
這里存在一個引人深思的“倒掛”現(xiàn)象,人工智能工程師將近 90% 的時間和精力并不是在做真正的產(chǎn)品化業(yè)務,而是在做基本的數(shù)據(jù)挖掘、清洗標注和管理工作。就像原油需要提煉和加工才能進入工業(yè)生產(chǎn)流程,數(shù)據(jù)同樣需要一系列處理才能進入人工智能生產(chǎn)流程。
這正是 Graviti 想解決的問題。作為一家 AI 數(shù)據(jù) SaaS 提供商,Graviti 希望實現(xiàn)以數(shù)據(jù)管理為核心,服務于數(shù)據(jù)獲取、加工和使用的全數(shù)據(jù)旅程,通過提供更加高效、便捷和安全的軟件產(chǎn)品,幫助 AI 開發(fā)者和 AI 應用公司更加專注于 AI 本身。公司成立后便獲得真格基金參與的種子輪投資。
創(chuàng)始人崔運凱曾任 Uber 無人駕駛部門的 Tech Lead Manager,是該部門最早期一批員工。對科技的熱忱讓他相信,人工智能基礎(chǔ)軟件是構(gòu)建人工智能生態(tài)中,不可或缺的那一部分。
本期對話欄目中,真格基金投資總監(jiān)尹樂和 Graviti 創(chuàng)始人崔運凱將討論以下話題:
- Uber 的工作經(jīng)歷,對創(chuàng)業(yè)有什么影響?從工程師到創(chuàng)業(yè)者,思考方式有哪些區(qū)別?
- 數(shù)據(jù)處理的難點在哪里?
- SaaS 服務和數(shù)據(jù)標注的主要區(qū)別是什么?
- 如何讓 AI 變得觸手可及?
01
“Uber的工作經(jīng)歷
讓我提前5年看到AI落地痛點”
Uber 的文化強調(diào)要做規(guī)則挑戰(zhàn)者、顛覆者,從里面走出了不少優(yōu)秀的創(chuàng)業(yè)者。
作為 Uber 無人駕駛部門的早期員工,崔運凱接觸了大量復雜的非結(jié)構(gòu)化數(shù)據(jù)處理問題。決定創(chuàng)業(yè)時,他很快地選擇了投身數(shù)據(jù) SaaS 軟件行業(yè)。
為什么是數(shù)據(jù) SaaS 軟件行業(yè)?從工程師到組織者,Uber 的經(jīng)歷對崔運凱的創(chuàng)業(yè)有什么影響?
尹樂:你最早在Uber負責的是無人駕駛業(yè)務,為什么決定從數(shù)據(jù)基礎(chǔ)軟件切入創(chuàng)業(yè)?
崔運凱:我在 Uber 時主要做無人駕駛技術(shù)的研發(fā),需要處理大量數(shù)據(jù)。在Uber,灌滿 100PB(1PB=1024TB)的數(shù)據(jù)池可能只需要幾個月的時間,這是硅谷其他以處理結(jié)構(gòu)化數(shù)據(jù)為主的公司不可能遇到的。所以相當于提前 5-6 年看到了 AI 落地面臨的問題, 這個認知是遠超其他企業(yè)的。
當時,Uber 除了在印度有很大的數(shù)據(jù)生產(chǎn)團隊外,還將部分數(shù)據(jù)的需求外包給位于西雅圖的一家創(chuàng)業(yè)公司。除了要承受昂貴的價格(當時的定價是 1 張圖片 5 美金),冗長的等待時間(5000 張圖片大概需要做 4 個月),還要解決數(shù)據(jù)的對接、跨境分發(fā)、檢索、整理及真值數(shù)據(jù)的保存和使用等一系列難題。
但無人駕駛訓練至少要億級圖片,相當于把之前要解決的問題難度又放大了數(shù)萬倍。
2018 年我離開 Uber 回國,加入了一家做高精度地圖的公司,為了高精度地圖的研發(fā)需要收集海量的數(shù)據(jù)和訓練大量的模型。為了管理和使用這些數(shù)據(jù),我們聊了七八家國內(nèi)知名的云服務商,沒有一家可以提供滿足我們需求的軟件平臺。
為了獲取真值,我們找了 12 家數(shù)據(jù)標注公司,只有 2 家說可以滿足我們的需求,最便宜的也要 12 元一張圖片,結(jié)果做出來一張能用的圖片都沒有。
這時我們就意識到,無論是國內(nèi)還是國外,人工智能的整個 工具鏈都非常 早期和不完善,仍然是大片的市場空白。 如果我們再做一家人工智能公司,還會遇到同樣的工具問題,還是得花很大代價把這些問題再解決一遍。與其這樣,我們不如專門做一家解決開發(fā)者痛點的公司,讓開發(fā)者能更好地把時間集中在解決業(yè)務問題上。
尹樂:剛剛你提到在 Uber 的工作經(jīng)歷, Uber 的文化強調(diào)要做規(guī)則挑戰(zhàn)者、顛覆者,里面也走出了不少優(yōu)秀的創(chuàng)業(yè)者。除了幫助你發(fā)現(xiàn)行業(yè)機會,Uber 對你這次創(chuàng)業(yè)還有其他影響嗎?
崔運凱: 還有兩個比較大的影響:
第一是怎么做一個由文化驅(qū)動快速迭代的組織。
Uber 把文化深入到了組織架構(gòu)和激勵機制當中。Graviti 在這點上和 Uber 很接近,我們特別希望把文化做成一種烙印。招聘時,Graviti 對于文化和技術(shù)的考察各占 50%,就是希望找到最契合的一群人共同成長。
我認為對于早期創(chuàng)業(yè)者,盡早確立公司文化,并以此為基礎(chǔ)花足夠的時間在招聘上是非常重要的。我們寧愿緩慢地擴張,去招到最有潛力、最合適的人,這樣的團隊在跑起來后才沒有人會掉隊,不會出問題。
第二是讓我從一個 Engineer 變成了 Engineering Manager。
Uber 對新晉升的管理人員提供了很多培訓項目,讓第一次做管理者的人可以快速成長為相應領(lǐng)域的領(lǐng)袖。當真正決定創(chuàng)辦一家公司的時候,容易產(chǎn)生對未知的恐懼,而管理者的思維方式和訓練幫助我很好地適應了角色的轉(zhuǎn)變。
這也是創(chuàng)業(yè)早期很關(guān)鍵的一點,不只盯著自己擅長的部分,而是要從全盤考慮認清自己的不足,根據(jù)不足去找最合適的人補齊短板。 像我在銷售和產(chǎn)品上有知識性缺失,我就一定要找到最優(yōu)秀的產(chǎn)品負責人、銷售負責人,所有人長板的集合才決定著公司發(fā)展的上限。
02
人工智能的核心是數(shù)據(jù)
由于人工智能應用開發(fā)需要的數(shù)據(jù)體量龐大,這種對于系統(tǒng)設(shè)計的挑戰(zhàn)是前所未有的,如何高效調(diào)度大量的算力和存儲,利用大規(guī)模分布式并行化技術(shù),將是支撐人工智能進一步落地的核心。
很多人對 Graviti 的產(chǎn)品和業(yè)務模式有誤解。實際上,數(shù)據(jù)標注只是 Graviti 數(shù)據(jù)核心戰(zhàn)略的一部分。數(shù)據(jù)的痛點是連貫的,從獲取、管理、加工到使用的完整數(shù)據(jù)旅程需要突破性的創(chuàng)新方案來支撐,所以行業(yè)真正需要的是一站式的解決方案。
Graviti 對此是如何應對的?疫情之下,公司的行業(yè)布局和戰(zhàn)略計劃有何調(diào)整?
尹樂:數(shù)據(jù)對于 AI 來講是一個非常核心的訓練來源。大眾可能不太了解,數(shù)據(jù)的處理難度到底有多大?到底是難在哪里?
崔運凱: 最近我們內(nèi)部在講,設(shè)計產(chǎn)品的時候要有并行化思維的意識。
舉個例子,我們經(jīng)常處理的 Excel 表格大概為 100KB,你可以在你的個人電腦上打開處理。
但人工智能要處理的問題是什么樣的?人工智能就是剛剛我說的問題乘以 100 萬倍,甚至是 10 億倍。100KB 的數(shù)據(jù)乘以 100 萬大概是 95GB,現(xiàn)在任何個人電腦都無法打開 95GB 的文件,因為一般電腦的運行內(nèi)存只有 8GB-16GB。
人工智能處理的實際上是億萬量級的生活問題,走到這個數(shù)量級別上,許多問題都變得極具挑戰(zhàn)性。
比如像上面的問題,在一個機器上解決不了,怎樣才能用分布式的方法解決?你用 1000 臺機器去解決一個問題,機器一多,不同的機器就容易出現(xiàn)死機、斷電等不同的問題,怎么能讓軟件強大到可以處理這些不確定性還可以流暢地把問題解決掉?這是我們需要突破的難點,也是我們提供服務的價值所在。
尹樂:沒錯,人工智能解決的是高數(shù)量級的問題,再小的差異也會被極度放大,這就更考驗系統(tǒng)設(shè)計架構(gòu)的合理性?,F(xiàn)在很多人提到 Graviti,可能下意識會覺得是一家數(shù)據(jù)標注公司,對于這種說法你怎么看?SaaS 服務和數(shù)據(jù)標注的主要區(qū)別是什么?
崔運凱: 我能理解為什么別人容易把我們定義成標注公司,因為我們做的是非結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)軟件,標注是其中很重要又最容易理解的一個環(huán)節(jié)。但數(shù)據(jù)的痛點是連貫的,不僅僅是標注問題,所以我們提供的是一站式的解決方案。
Graviti 的產(chǎn)品分為兩大部分,第一個部分是面向開發(fā)者和人工智能工程師的 SaaS 工具。
大家猜一猜,支持一個 10 人算法團隊高效運轉(zhuǎn)需要多少資源?
至少要三個軟件工程師提供工具開發(fā)和運維服務,百萬元左右的深度學習訓練機器,百人左右的標注團隊,和上百 TB 到 PB 級的共享存儲空間。這些加起來往往需要企業(yè)千萬級的前置成本和百萬級的維護費用。即便這些都具備了,算法工程師還是需要將大量的時間花在找數(shù)據(jù),清洗數(shù)據(jù),管理權(quán)限和可視化上。
而我們的 SaaS 工具就是通過軟件和云來解決這些痛點:從幫助獲取和管理數(shù)據(jù),到最后輸出模型,以及過程中團隊的協(xié)作??梢宰尮?0 前置成本啟動人工智能應用開發(fā),費用跟隨團隊的擴張而增加、收縮而減少,還可以節(jié)省大量的算法工程師的時間,讓他們真正專注在重要的事情上。
我們發(fā)現(xiàn)整個人工智能開發(fā)的過程就是數(shù)據(jù)流轉(zhuǎn)的過程,非結(jié)構(gòu)化是其中的一個關(guān)鍵痛點,所以我們也提供標注服務去解決非結(jié)構(gòu)化數(shù)據(jù)的問題。
和其他標注公司不一樣的是,我們的數(shù)據(jù)標注服務是一鍵式的。國內(nèi)的標注公司通常是先聯(lián)系 BPO(商務流程外包Business Process Outsourcing),在線下的微信群里對接需求,發(fā)數(shù)據(jù)文檔,他再去聯(lián)系標注員,而很多標注員可能是第一次接觸這樣的任務,也沒有特別適用的工具。
但是在我們的體系里,所有對接都是在軟件中交互完成,分發(fā)程序有一套算法,會自動找到最合適的標注員,通過發(fā)現(xiàn)任務、自主登錄、接受培訓考試去完成這樣的工作。整個過程都是自動化的,效率和準確率都有很大的提升。
尹樂:所以 Graviti 提供的數(shù)據(jù)軟件是真正切中開發(fā)者痛點的。說到這里,現(xiàn)在 Graviti 內(nèi)部開始實施項目、人員、數(shù)據(jù)全面自動化的管理,為什么?自動化管理是 AI 行業(yè)里的普遍現(xiàn)象嗎?
崔運凱: 肯定不是普遍現(xiàn)象,其實是困擾大家很久的問題。自動化過程涉及到各個任務節(jié)點的處理,并不是業(yè)界都有這樣的經(jīng)驗或者業(yè)務需求。這對整個系統(tǒng)設(shè)計、架構(gòu)設(shè)計有很高的要求和挑戰(zhàn),我們見過和了解這樣的系統(tǒng),所以知道如何設(shè)計與使用是最好的。
Graviti 的特別之處在于,我們從一開始就用了大量的全自動化工具,來實現(xiàn)輔助工作流程的進行。
我們會利用開源工具進行個性化改造,也會設(shè)計工作工具,通過不斷求最優(yōu)解優(yōu)化工作效率。 正是因為這套工具,疫情對我們的工作效率幾乎沒有影響,因為一切都是在系統(tǒng)中進行,溝通和協(xié)調(diào)成本是非常低的。
這個事情業(yè)界能做的人不多,所以我們也會逐步開源我們自己的工具,幫助更多的人。
尹樂:疫情有影響我們的行業(yè)布局和戰(zhàn)略調(diào)整嗎?我知道你們的業(yè)務領(lǐng)域最近從汽?拓展到了互聯(lián)?視頻、新零售、醫(yī)療健康、智能制造等,未來在布局上還會有什么嘗試?
崔運凱: 疫情驗證了一些趨勢,讓我們看到物理世界的數(shù)字化和線上化,看到靈活用工、云服務的可接受度和現(xiàn)實效益,也看到了更多領(lǐng)域增長的機會。
確實,我們原來的一些工作計劃被打亂了,比如我們接觸比較多的汽車行業(yè),客戶受到影響,預算肯定也會受到影響。但這反向也讓我們思考如何及時做出調(diào)整、適應整個大方向的發(fā)展,在行業(yè)布局上我們已經(jīng)從汽車拓展到了很多其他的領(lǐng)域,包括視頻、零售、醫(yī)療。
Graviti 本身的技術(shù)能力就可以服務不同種類的客戶。我們會針對客戶的業(yè)務情況做咨詢,很多客戶是做不到明確架構(gòu)需求的,這時候就需要有人來從專業(yè)角度做梳理和設(shè)計,這也是我們服務的獨特性所在。
03
如何讓AI觸手可及?
任何技術(shù)都需要普及化才能造福大眾。人工智能新生態(tài)的形成同樣需要各個成員的參與,才能服務到每一個人。
尹樂:隨著人工智能行業(yè)的逐漸成熟,Graviti 的成長與發(fā)展會越來越快。Graviti 的 slogan 是叫做“讓 AI 觸手可及”,你怎么理解這句話?在實際操作過程中,怎么去落地這句話呢?
崔運凱: “讓 AI 觸手可及”是我們公司的愿景。希望通過我們提供的服務,讓開發(fā)者更快地完成AI應用的開發(fā)。
只有更多的人進入到這個領(lǐng)域,去解決不同的問題,有更多的活躍度,我們才能建立一個更好的社區(qū),社區(qū)中的人都可以去做新的嘗試和應用,然后幫助其他人。那時候, AI 就可以服務到每一個人。
在未來, AI 的各個工具一定是會對外開放的,我們也會在一定的時間 點考慮 開源部分我們的產(chǎn)品或去 做開放 平臺,通過 API 讓更多的人參與到產(chǎn)品的開發(fā)。 我們是一個非常開放的心態(tài),希望和合作伙伴朋友們一起去營造新生態(tài)。
尹樂:沒錯,我也會覺得開源已經(jīng)成為了一個新的趨勢,在未來帶來的益處肯定是無可估量的,也能更快地讓技術(shù)大眾化、普及化。最后請運凱再分享下你眼中人工智能行業(yè)的未來會是什么樣的?
崔運凱: 實際上我一直認為人工智能分為兩個部分。
第一個部分是對人類知識的積累,這是一個結(jié)構(gòu)化的過程,讓更多人把自己的知識體現(xiàn)出來。 Graviti 是堅信知識積累過程的一家企業(yè),所以在做系統(tǒng)架構(gòu)的時候,也會充分考慮到主動學習、遷移學習的價值,讓我們的系統(tǒng)變得越來越聰明。
第二個部分是用這些知識去解決一些實際的問題, 比如怎么更好地組織知識,甚至以一些我們不理解的方式去學習這些知識,再把這些抽象的概念給解釋表達出來。
我相信人工智能永遠是個工具,而工具是要解決實際問題的,所以不能本末倒置。
免責聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點,亦不代表本網(wǎng)站贊同其觀點或證實其內(nèi)容的真實性。如稿件版權(quán)單位或個人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。
互聯(lián)網(wǎng)新聞信息服務許可證10120230012 信息網(wǎng)絡傳播視聽節(jié)目許可證0121673 增值電信業(yè)務經(jīng)營許可證京B2-20171219 廣播電視節(jié)目制作經(jīng)營許可證(京)字第10250號
關(guān)于我們 中宏網(wǎng)動態(tài) 廣告服務 中宏網(wǎng)版權(quán)所有 京ICP備2023030128號-1 舉報電話:010-63359623
Copyright ? 2016-2024 by qmsqmyp.com. all rights reserved 運營管理:國家發(fā)展和改革委員會宏觀經(jīng)濟雜志社