請問machine learning的工作內容 - 海外工作
By Belly
at 2014-09-19T13:41
at 2014-09-19T13:41
Table of Contents
工作完來回一下好了~
我不知道各種業界怎樣~我就說我待過的公司跟teams
先說背景,不才小時候愛玩ML比賽,正值ML還不太紅的200x年,
贏了一些獎,覺得自己很厲害~
後來去學校發了些paper,自我覺得超強。
就衝去hackathon然後試試看startup,結果很慘。
只好join Google休息一下,繼續作machine learning,
做了兩年,幫公司賺了不少錢可是paper都發不出來,來點坐領乾薪的魯蛇分享。
先講玩比賽的時候:
比賽的時候我都只會一招,就是把feature expand很大,
然後用liblinear跑一次。
基本上那時候我是相信,只要有一個好的feature engineering tool
人生就無敵了。
我當時就寫了個這個:
http://www.csie.ntu.edu.tw/~b95028/software/lib-gundam/
然後我就去念博班:
唸了博班發現,很多paper都亂寫,model超漂亮,跑出來超overfit。
用一個paper的model跑另一個paper的data很常就會GG。
最後發現最強的還都只有liblinear跟隨機森林。
於是我就生氣了,想說去hackathon或是開開startup
初出茅廬:
當時做了一些health data,然後show說自己可以predict acc多高,覺得超屌。
我就去跟別人present,可是別人都看不懂。
這時候才知道業界很多人重視的一件事情「可解釋性」。
你有一個好model,如果不能解釋哪個feature強,在很多領域是無用的。
(像health他們好像就很注重,病的causality關係之類的。
像你可以predict一個人會生病,不過他想要知道哪個feature讓他生病的。
這種東西很多時候是model很難去數理上含括的。)
在Google:
基本上我現在都還是一直在用liblinear。
我遇到的很多不是純粹learning for accuracy的問題。
很多時候像stability很重要(e.g. 當有missing features,你的model是不是
不會go crazy)
有時候生data很重要,data生不好,很容易target leak,不小心train出來accuracy就
100%,還以為自己要得Turing Award了。
有時候prediction速度很重要,如果query很多,要怎樣才能快速serve。
我覺得其實很多work都會越作越general,但是多數是從domain example開始作。
就像可能你今天作text classification很猛,可是你可能想要improve。
你第一件事情大概還是去看data,看看是不是哪些字常常會是noise,
還是sentence的parser不好。那就會從中改善,最後也會越作越general。
最後可能就會有很好得方法可以給你在很多問題上都有
10%的accuracy gain然後改變世界。
但是其實人生大部分的事情是不能generalized的,就像愛情(?)。
所以大部分的事情都只是pointwise fix,例如說:cross兩個feature。
通常這種pointwise fix,都只會給你1%的accuracy gain。
所以這時候我就要來亂引用了,有人說過
「1% gain是engineering,10% gain是research。 」
最後,公司還是要賺錢的,所以也很難一直給你時間想好玩得新演算法去try。
我現在的mode就是邊做engineering邊做research,
也期望有一天能發個ICML Best Paper,
但是大部分的時間其實都還是找個新feature然後重跑liblinear。
對了,liblinear真的很強。請愛用liblinear!
※ 引述《milc (milc)》之銘言:
: 大家好
: 不好意思想請問一下關於ML的工作內容,
: 我是在coursera上Andrew Ng的ML影片課程自學,
: 之前也僅用過Weka取些features來做一些文件分類工作,
: 之後找工作想做這一方面的, 但是不知道業界工作內容,
: 想請問一下各位先進,
: 一般工作是用既有的ML方法套用來解決我們所面對的問題?
: 還是大部分都要提出新的演算法了?
: 另外請問找ML工作前有沒有什麼要再加強與自學的建議?
: 謝謝大家(如果我提出的問題太過無知請原諒)
--
我不知道各種業界怎樣~我就說我待過的公司跟teams
先說背景,不才小時候愛玩ML比賽,正值ML還不太紅的200x年,
贏了一些獎,覺得自己很厲害~
後來去學校發了些paper,自我覺得超強。
就衝去hackathon然後試試看startup,結果很慘。
只好join Google休息一下,繼續作machine learning,
做了兩年,幫公司賺了不少錢可是paper都發不出來,來點坐領乾薪的魯蛇分享。
先講玩比賽的時候:
比賽的時候我都只會一招,就是把feature expand很大,
然後用liblinear跑一次。
基本上那時候我是相信,只要有一個好的feature engineering tool
人生就無敵了。
我當時就寫了個這個:
http://www.csie.ntu.edu.tw/~b95028/software/lib-gundam/
然後我就去念博班:
唸了博班發現,很多paper都亂寫,model超漂亮,跑出來超overfit。
用一個paper的model跑另一個paper的data很常就會GG。
最後發現最強的還都只有liblinear跟隨機森林。
於是我就生氣了,想說去hackathon或是開開startup
初出茅廬:
當時做了一些health data,然後show說自己可以predict acc多高,覺得超屌。
我就去跟別人present,可是別人都看不懂。
這時候才知道業界很多人重視的一件事情「可解釋性」。
你有一個好model,如果不能解釋哪個feature強,在很多領域是無用的。
(像health他們好像就很注重,病的causality關係之類的。
像你可以predict一個人會生病,不過他想要知道哪個feature讓他生病的。
這種東西很多時候是model很難去數理上含括的。)
在Google:
基本上我現在都還是一直在用liblinear。
我遇到的很多不是純粹learning for accuracy的問題。
很多時候像stability很重要(e.g. 當有missing features,你的model是不是
不會go crazy)
有時候生data很重要,data生不好,很容易target leak,不小心train出來accuracy就
100%,還以為自己要得Turing Award了。
有時候prediction速度很重要,如果query很多,要怎樣才能快速serve。
我覺得其實很多work都會越作越general,但是多數是從domain example開始作。
就像可能你今天作text classification很猛,可是你可能想要improve。
你第一件事情大概還是去看data,看看是不是哪些字常常會是noise,
還是sentence的parser不好。那就會從中改善,最後也會越作越general。
最後可能就會有很好得方法可以給你在很多問題上都有
10%的accuracy gain然後改變世界。
但是其實人生大部分的事情是不能generalized的,就像愛情(?)。
所以大部分的事情都只是pointwise fix,例如說:cross兩個feature。
通常這種pointwise fix,都只會給你1%的accuracy gain。
所以這時候我就要來亂引用了,有人說過
「1% gain是engineering,10% gain是research。 」
最後,公司還是要賺錢的,所以也很難一直給你時間想好玩得新演算法去try。
我現在的mode就是邊做engineering邊做research,
也期望有一天能發個ICML Best Paper,
但是大部分的時間其實都還是找個新feature然後重跑liblinear。
對了,liblinear真的很強。請愛用liblinear!
※ 引述《milc (milc)》之銘言:
: 大家好
: 不好意思想請問一下關於ML的工作內容,
: 我是在coursera上Andrew Ng的ML影片課程自學,
: 之前也僅用過Weka取些features來做一些文件分類工作,
: 之後找工作想做這一方面的, 但是不知道業界工作內容,
: 想請問一下各位先進,
: 一般工作是用既有的ML方法套用來解決我們所面對的問題?
: 還是大部分都要提出新的演算法了?
: 另外請問找ML工作前有沒有什麼要再加強與自學的建議?
: 謝謝大家(如果我提出的問題太過無知請原諒)
--
Tags:
海外工作
All Comments
By Emma
at 2014-09-23T00:09
at 2014-09-23T00:09
By Mary
at 2014-09-27T06:51
at 2014-09-27T06:51
By Yedda
at 2014-09-28T14:31
at 2014-09-28T14:31
By Yuri
at 2014-10-02T10:11
at 2014-10-02T10:11
By Charlie
at 2014-10-04T15:40
at 2014-10-04T15:40
By Edith
at 2014-10-04T18:16
at 2014-10-04T18:16
By Irma
at 2014-10-09T11:06
at 2014-10-09T11:06
By Skylar DavisLinda
at 2014-10-12T19:05
at 2014-10-12T19:05
By Ida
at 2014-10-15T11:21
at 2014-10-15T11:21
By Tracy
at 2014-10-18T05:35
at 2014-10-18T05:35
By Blanche
at 2014-10-19T21:23
at 2014-10-19T21:23
By Tracy
at 2014-10-20T14:47
at 2014-10-20T14:47
By Brianna
at 2014-10-21T14:05
at 2014-10-21T14:05
Related Posts
綠卡海外資產是否課稅
By Tracy
at 2014-09-17T12:00
at 2014-09-17T12:00
有人在做Drop ship生意嗎
By Anthony
at 2014-09-14T02:45
at 2014-09-14T02:45
想尋找測量工作
By Quintina
at 2014-09-12T01:53
at 2014-09-12T01:53
Photolithography Process Development E
By Dorothy
at 2014-09-12T01:13
at 2014-09-12T01:13
想到美工作應考慮哪些問題
By Gilbert
at 2014-09-10T05:13
at 2014-09-10T05:13