德国一级毛片,综合网婷婷,中国美女一级毛片,欧美区一区二,婷婷色六月,欧美日韩在线播放成人,久热国产在线视频

    字節(jié)跳動楊震原:抖音如何用好機器學習

    來源: 阿爾法工場 作者:佚名

    摘要: (原標題:字節(jié)跳動楊震原:抖音如何用好機器學習)導語:“數(shù)字化時代,問題可以定量評估,機器學習可以圍繞目標做更智能、高效的優(yōu)化。”4月18日,火山引擎發(fā)布自研DPU等系列云產品,

     ?。ㄔ瓨祟}:字節(jié)跳動楊震原:抖音如何用好機器學習)

      導語:“數(shù)字化時代,問題可以定量評估,機器學習可以圍繞目標做更智能、高效的優(yōu)化。” 4月18日,火山引擎發(fā)布自研DPU等系列云產品,并推出新版機器學習平臺,支持企業(yè)客戶更好地訓練AI大模型。字節(jié)跳動副總裁楊震原以《抖音的機器學習實踐》為主題,分享了他對機器學習的理解。

      楊震原認為,機器學習系統(tǒng)的核心競爭力,在于每次實驗都能很快、很便宜。算法工程師能聚焦在自己的工作上,用很低成本不斷去試錯,這樣才能實現(xiàn)業(yè)務的敏捷迭代和創(chuàng)新。

      他表示:“火山引擎機器學習平臺是內外統(tǒng)一的,火山引擎客戶和抖音用的是同樣的平臺。我希望公司內部打磨的這些技術能夠服務更多的客戶,支持大家做智能化的創(chuàng)新。”

      以下為楊震原演講全文:

      上午好!大家知道,抖音等業(yè)務是火山引擎的內部客戶,都跑在火山引擎的云上。今天我會分享下公司內部業(yè)務的一些實踐經驗:火山引擎是怎樣支持抖音用好機器學習的。

      首先說說為什么要聊機器學習,什么場景、什么情況下要用機器學習系統(tǒng)?用機器學習會有什么樣的挑戰(zhàn)?我們是怎么解決這些挑戰(zhàn)的?

      用機器學習的前提是 問題可以定量評估 我認為機器學習很重要的一點,是把問題數(shù)字化。先數(shù)字化,然后讓這個問題可以定量評估。當問題可以定量評估的時候,接下來就可以智能化,進一步用一些機器學習的方法來優(yōu)化。

      之前有些朋友問我,說“震原,能不能幫我搞一個模型?”我問他想用這個模型干什么?他其實自己并沒有想清楚。 我想通過幾個例子來具體說明下機器學習的用法。 比如效果廣告,對于商家來講,是不是能用合理的錢找到客戶?對平臺來講,有一個廣告位,是不是能夠把最適合的廣告放到這個位置上?這個問題怎么評估呢?很簡單,我們看轉化率就可以了,所以它的目標可以很清晰地定義出來。 能夠清晰定義目標,就可以做A/B實驗,可以判斷什么方法更好,進而可以用機器學習進一步去優(yōu)化。最后往往就會發(fā)現(xiàn),用人工的方法,比如圈選用戶這些方法做效果廣告,很難干得過用機器學習。 再比如,優(yōu)惠券發(fā)放。同樣的錢應該發(fā)給哪些用戶,能給平臺帶來更長期的留存?這也是可以被精確定量和評估的問題。這樣的問題,我們就可以思考用什么樣的算法,用什么樣的機器學習去優(yōu)化。 運力調度,這是大家很熟悉的網(wǎng)約車領域,也是可以定量評估的,可以通過成單率評估。如果匹配得不好,我就不能把司機和乘客有效匹配起來。自動駕駛就不多說了,這個領域想評估效果,實際上的維度更多,比如說安全性、時間、舒適度等等。

      講了這么多,核心的問題是要能夠把問題定義清楚,先數(shù)字化,再去做智能化。

      機器學習的兩大挑戰(zhàn) : 復雜和昂貴 我們用機器學習做智能化,會有什么樣的問題呢?主要說兩個問題,第一個是復雜,第二個是貴。 為什么說復雜?因為機器學習軟件棧很深,它需要有平臺,有PyTorch平臺,有TensorFlow,還有很多的平臺。也涉及到框架、操作系統(tǒng),還有底層的硬件。 大家最近出門,都問對方有多少張GPU卡,你如果沒有,都不好意思跟人家打招呼。但其實很多人并不知道用這些卡的效率到底是什么樣子。所以機器學習的軟件棧是很深的,是挺復雜的一件事情,每個環(huán)節(jié)都要做對、做好。 再說說很貴的問題。人力貴,一個非常優(yōu)秀的算法工程師很貴,也不是那么容易就能找到。除了人才昂貴,數(shù)據(jù)也很貴,高質量的數(shù)據(jù)成本很高。硬件就不說了,高性能GPU的價格大家都知道。 所以,機器學習是一件既復雜又昂貴的事情。那抖音是怎么處理這個既復雜又昂貴的事情,更好地使用機器學習助力業(yè)務發(fā)展的呢?

      好用的機器學習, 要又快又便宜 先簡單介紹一下我們的平臺,我們最主要的兩個平臺,一個是推薦廣告平臺,還有一個是通用平臺,包括CV(計算機視覺)、NLP(自然語言處理)平臺等等。 推薦平臺,每周會有上萬個模型在上面訓練,因為我們有很多產品,不同場景都會頻繁訓練模型。CV/NLP平臺,模型訓練的數(shù)字會更大,每周有大約20萬個模型的訓練規(guī)模。而且這兩個平臺上日常還跑著大量的在線服務。 舉個例子。比如,抖音的推薦系統(tǒng)有很多模型,其中某個模型需要用15個月的樣本來訓練,也就是說在15個月的時間里不斷構筑訓練數(shù)據(jù),這個數(shù)據(jù)量是非常大的。 但是在我們的機器學習平臺上,我們只需要5個小時,就可以完成這個模型的訓練,核算下來成本只要5000塊人民幣。對于一個算法工程師來講,他早晨做這個模型訓練,下午就到線上做AB實驗了,極大提高了產品迭代效率。 機器學習做得好不好,我覺得可以用這個三角形來表示,其中最重要的是算法。算法在效果上做到領先,就能對業(yè)務產生很大的價值。支撐算法效果的需求,有兩件事,一個是硬件ROI,一個是人力ROI。 硬件ROI指的是單位模型的成本。在市場競爭里,別人花一萬塊錢做一個模型,你如果花一萬塊能做十個同類的模型,這場仗就穩(wěn)了。 人力ROI,是說招一個厲害的算法工程師進來,他能否發(fā)揮最大潛能,主要看系統(tǒng)能否支持他足夠容易、足夠敏捷地去嘗試新的想法。 如何提高硬件ROI?潮汐、混部,這是我們常用的一些方法。本質上一句話,就是如何提高設備利用率,這也是云原生的一個基本思想。 我們把不同任務混合在一起,互相錯峰,通過智能調度,把它們的利用率都跑得很高,這樣可以極大地提升資源的利用率,去壓縮每個實驗的成本。 在硬件成本以外,還有很重要的一點,就是機器學習的這套基礎設施是不是足夠易用。 開個玩笑:很多做數(shù)學的人,不喜歡你搞計算機科學,尤其做深度學習,說你們這幫人就在這里“煉丹”,經常不能解釋你這個東西為什么好,你為什么需要不斷做實驗?但是我們從實用的角度來講,必須得不斷做實驗,不斷去嘗試,這個領域很多新的發(fā)現(xiàn),都是不斷嘗試做出來的。 如何讓每次嘗試更快、更便宜,這就是核心競爭力。想一勞永逸,一把做出一個非常完美的模型,這是很難實現(xiàn)的。

      火遍抖音的爆款特效, 一位算法工程師一周完成 火山引擎要做的,就是把平臺的工作做好。大家可以看到,數(shù)據(jù)處理的整個過程、模型訓練、評估到上線,再到AB測試,全平臺有統(tǒng)一的集成。 算法工程師不需要反反復復去溝通各種環(huán)節(jié),串聯(lián)各種業(yè)務,他可以更聚焦在自己的工作上。 再看個例子,這是一個很有意思的特效(抖音AI繪畫),估計很多朋友都用過。大概是在去年年底,這個特效特別火。大家猜猜,做這個特效對抖音來講投入了多少人力? 可能很多人都想不到,算法工程師就投入了一個人,他在平臺上寫了一些調研的代碼,大概用了一個星期就完成了模型的訓練,經過一些調教之后就發(fā)布到線上了。 當時產品預估可能有200QPS的峰值流量,上線我們按照2000QPS來做的,沒想到上線幾個小時就打滿了。我們很快做了大量擴容,很短時間內容量再擴大10倍,到支持20000QPS。 可以看到整個過程,參與的人數(shù)是非常少的,同時擴容效率也非常高。很多人說模型訓練的開銷大,其實從長期來看,推理的開銷會顯著大于訓練。 AI繪畫這個模型,在火山引擎平臺推理的效率大概比原生Pytorch 模型快5倍。上線之后又做了一些針對性的優(yōu)化,還可以更快,大概快10倍,提高了一個數(shù)量級。 有了這樣的平臺支持,工程師就可以快速嘗試各種想法,不管是跟進進展,還是開拓創(chuàng)新,都可以做得很快。 最后,大家能夠看到,在抖音、今日頭條、懂車帝這樣一些APP上,開屏會顯示:火山引擎提供計算服務。 我們所講的機器學習平臺是內外統(tǒng)一的,火山引擎客戶和抖音用的是同樣的平臺。我希望公司內部打磨的這些技術能夠服務更多的客戶,支持大家做智能化的創(chuàng)新。謝謝大家。

    關鍵詞:

    模型,訓練,工程師

    審核:yj115 編輯:yj127

    免責聲明:

    1:凡本網(wǎng)注明“來源:***”的作品,均是轉載自其他平臺,本網(wǎng)贏家財富網(wǎng) m.xfjyyzc.com 轉載文章為個人學習、研究或者欣賞傳播信息之目的,并不意味著贊同其觀點或其內容的真實性已得到證實。全部作品僅代表作者本人的觀點,不代表本網(wǎng)站贏家財富網(wǎng)的觀點、看法及立場,文責作者自負。如因作品內容、版權和其他問題請與本站管理員聯(lián)系,請在30日內進行,我們收到通知后會在3個工作日內及時進行處理。

    2:本網(wǎng)站刊載的各類文章、廣告、訪問者在本網(wǎng)站發(fā)表的觀點,以鏈接形式推薦的其他網(wǎng)站內容,僅為提供更多信息供用戶參考使用或為學習交流的方便(本網(wǎng)有權刪除)。所提供的數(shù)據(jù)僅供參考,使用者務請核實,風險自負。

    版權屬于贏家財富網(wǎng),轉載請注明出處
    查看更多
    • 內參
    • 股票
    • 贏家觀點
    • 娛樂
    • 原創(chuàng)

    銀行行業(yè)延續(xù)多頭趨勢耐心等待時間窗,旗下龍頭股江蘇銀行、工商銀行、農業(yè)銀行一覽

    銀行行業(yè)今日上漲79.68點,漲幅達1.95%,以穿頭破腳大陽線收盤于4173.2點。根據(jù)贏家江恩五星工具可知銀行行業(yè)為5顆紅星,相比昨日增加1個星。銀行板塊目前處于贏家江恩多...

    無人零售概念構筑江恩底分型,旗下龍頭股票都有哪些

    無人零售概念今日下跌11.28點,跌幅達1.01%,以上下影小陰線收盤于1106.25點。根據(jù)贏家江恩五星工具可知無人零售概念為2顆紅星,相比昨日保持一致。無人零售板塊目前處于...

    當天三沙概念在漲幅排行榜排名第4,海峽股份、海馬汽車等股領漲

    當天三沙概念大幅上漲2.77%,主力資金凈流入4.2億元,在行業(yè)概念漲幅排行榜中排名第4,概念下所屬股票漲幅前三名,分別是:海峽股份漲幅10.03%、海馬汽車漲幅10.02%、海...

    上交所發(fā)聲!大力支持綠色融資!

    10月16日,上海證券交易所黨委委員、副總經理苑多然在參加2025可持續(xù)全球領導者大會時,發(fā)表題為《創(chuàng)新賦能資本市場可持續(xù)發(fā)展》的主題演講。苑多然介紹,下一步,上交所...

    早知道:2025年10月16號熱點題材

    上證指數(shù)目前處于贏家江恩多頭主線形態(tài),短期頂分型下跌延續(xù)中出現(xiàn)重心上移形態(tài),依據(jù)贏家江恩價格工具得出:當前支撐位:3868.77點、3785.0809點,當前阻力位:3967.94...

    早知道:2025年10月15號熱點題材

    上證指數(shù)目前處于贏家江恩多頭主線形態(tài),短期發(fā)出頂分型信號,依據(jù)贏家江恩價格工具得出:當前支撐位:3779.4107點、3731.69點,當前阻力位:3868.77點,由贏家江恩時間...

    如何提高產品附加值,產品附加值的作用是什么

     產品的附加值是指通過勞動、人工加工和營銷等整個環(huán)節(jié)形成的原材料的增值,那么,如何提高產品附加值呢?

    中國最貴的十大股票,中國最貴的股票第一名家喻戶曉

    中國最貴的十大股票,中國最貴的股票第一名家喻戶曉。第一個是家喻戶曉的貴州茅臺,第二個是長春新高中,第三個是卓勝微

    股票軟件《贏家江恩證券分析系統(tǒng)》

    深圳市| 湄潭县| 张掖市| 正安县| 玉屏| 乳山市| 北流市| 古浪县| 太仆寺旗| 芦山县| 辽阳市| 稻城县| 通道| 江川县| 潜山县| 海南省| 桃源县| 武陟县| 望都县| 思南县| 彭泽县| 望江县| 鄂托克前旗| 平山县| 阿拉善左旗| 城口县| 仪陇县| 峨山| 乐山市| 汉源县| 大荔县| 涡阳县| 林西县| 馆陶县| 江城| 东宁县| 澄城县| 太康县| 都昌县| 新巴尔虎左旗| 仙游县|