キャリア

アメリカ人データサイエンティストと話して思ったこと

今回はアメリカ人のデータサイエンティストと話をして感じたことを共有したいと思いました!。日本人の職人気質的な思考と、アメリカのプロフェッショナル思考が比較出来る面白い話かと思いますので、是非お読みください。

シェアハウスに来客が来た

運営者
運営者
先日、僕が住んでるシェアハウスにですね、アメリカ人のデータサイエンティストが遊びに来たんですよ。大手のデータサイエンティストなんですけど。
のがっち
のがっち
某大手?
運営者
運営者
某大手、凄い方なんですよ。データ解析の話をしている時にですね。
のがっち
のがっち
はい。
運営者
運営者
データ解析って基本的には、8割ぐらいは頂いたデータをこねこねして、データを整形するところが一番大きな仕事なんですよ。
のがっち
のがっち
そうらしいね。
運営者
運営者
ステップでいうと、まずはデータをもらいますと。そのデータのカラムというか、その列の定義ですね。この列はどういう意味ですか?っていうのを一個一個全部確認していきますと。
のがっち
のがっち
顧客データとかだったら、名前があって性別があってみたいな。
運営者
運営者
そうそう。…というのを確認していって、欠損値とかも多いので。
のがっち
のがっち
多いよね。
運営者
運営者
欠損値どうやって埋めるか?削ってしまうか?っていうのをお客さんと一緒に考えていきながら決めていきますと。
のがっち
のがっち
うん。
運営者
運営者
それができたら、データを成形していきますと。
のがっち
のがっち
整形とはなんですか?
運営者
運営者
最終的にはですね、データをあるアルゴリズムにかけて値を予測するのか、それとも分類するのか、ってことをするんですけども、そこにアルゴリズムにかける形にデータを変えなきゃいけないですよ。
のがっち
のがっち
あー、アルゴリズムが読み取ってくれる形にする必要がありますと。
運営者
運営者
そうそう。
のがっち
のがっち
例えばだけど、あれだよね、性別が男女あるんだけども、男女っていうのはコンピューターには認識しないと。だから男は0にして、女は1にするとか。
運営者
運営者
そうそう
のがっち
のがっち
はい。
運営者
運営者
きれいなデータだったらデータ整形ってすぐ終わるんですけど、基本的に日本企業が持っているデータっていうのはあまりきれいじゃないことが多い。
のがっち
のがっち
残念ながら。
運営者
運営者
多いんですよ、これがほんとに。元々のデータベースの設計がめちゃくちゃだったりとか。
のがっち
のがっち
まぁ、原因が色々あるんでしょうね。入力ミスとかあるんじゃないですか?
運営者
運営者
そうですね、入力データも使う場合もあるんで。そういう可能性もありますね。もともとデータ解析をして意思決定をするっていう文化が日本にはないじゃないですか。
のがっち
のがっち
あーなるほど。データ解析をして意思決定をするっていうのが最近出てきたってことですよね。
運営者
運営者
そうなんです。
のがっち
のがっち
これまではそんな遵守してなかったし、ってことなんですかね。
運営者
運営者
なので、データサイエンティストの8割の仕事は前処理にかかっていると言われてます。
のがっち
のがっち
その前処理っているのはさっき言ったデータの整形が8割だと。分析をしてそ解釈するのは2割だと。
運営者
運営者
そうです。
のがっち
のがっち
それはもう楽しいところは2割しかないですね。
運営者
運営者
そうなんですよ。だからちまちまデータをいじいじして正しい形に直して、どのアルゴリズムを使うか?とかアルゴリズムを使った結果の解釈をするというところが、一番付加価値が出せるところなんですけど、そこの仕事は2割しかないんですよ、と。
のがっち
のがっち
それは工程においては2割しかないんだけども?使っている時間がも2割?
運営者
運営者
そうです。
のがっち
のがっち
価値があるのは、分析結果の解釈のところなのに、そうでない時間が多いんだね。
運営者
運営者
そう。ただですね、僕が感じてきたところ、このデータの前処理こそ職人芸だと。
のがっち
のがっち
職人芸と言いますか。
運営者
運営者
だって、アルゴリズムに食わせる形にデータをこねこねする、っていうところが他の人にはできないわけですから。
のがっち
のがっち
データサイエンティストじゃない人にはできない?
運営者
運営者
そうですね。なので、まさにここで僕らしか持っていない知見があり…
のがっち
のがっち
でもさっきせいやさ、後半の「アルゴリズムを使ってどう解釈するか」にこそ価値があるって言ったじゃないですか?
運営者
運営者
そうなんですよ、そうなんですけど実際、前処理に使っている時間が8割ですし、前処理っていうのはデータサイエンティストにしかなかなかできない、っていう現状がある。…となると、その前処理こそ職人芸じゃないですけど、価値があるものなのかなっって僕は思ってたりしたんですよ。
のがっち
のがっち
なるほど。前処理こそ、その人の腕の見せ所だと。
運営者
運営者
…で、そのアメリカのデータサイエンティストと話をしたら、彼は全く違う見解を持っていたんですね。
のがっち
のがっち
ほう、アメリカは違うと。
運営者
運営者
彼は、この前処理にデータサイエンティストが時間をかけるのはなんて悲しい世の中だと。
のがっち
のがっち
なるほど。
運営者
運営者
凄いアルゴリズムを理解している人が、データの整形なんてそんなことに時間を使うなんてもったいない、って言ったんですね。
のがっち
のがっち
へー。
運営者
運営者
これ聞いたときに、アメリカ人ってそう考えるんだ、って衝撃を受けたんですよ。
のがっち
のがっち
ほうほう。でも、せいやさっきさ、その後半のアルゴリズムをどうやって使うかとか、結果の解釈に付加価値があるって言ったたでしょ。
運営者
運営者
はい、言いました。
のがっち
のがっち
だからせいやはアメリカ人に近いってことじゃん。
運営者
運営者
いや、もちろんね、最終的な求められてるところはどういうアルゴリズムをくわして、どういう解釈をしてとか、っていうところなんですけど、前処理のところってデータサイエンティストしかできないわけじゃないですか。
のがっち
のがっち
ってことは基本的には全部そうなんでしょ?全工程が。
運営者
運営者
はい。なんで、職人芸でそこも大事なんだろうって思ってたわけですよ。もちろん、価値をだすのは2割のところなんだけど、8割の前処理のところも大事なんだろうと思っていたわけですよ。で、それをアメリカ人は、もうそんな仕事に時間を費やすなんてホントにかわいそうだと、言い切ったわけですよ。そんな時間があるんだったら、大事な2割のところに集中した方がいいよねと。
のがっち
のがっち
でも前処理しないと解析出来ないでしょ。
運営者
運営者
アメリカには前処理専門会社ってのがあるらしいんですよ。
のがっち
のがっち
へー、そこしかやんないんだ。
運営者
運営者
そこに投げちゃって、整形されたデータをもらってどのアルゴリズム使おうかなーっていうところにデータサイエンティストが時間を使って、っていうのを聞いて凄い衝撃だったんですよ。分析結果の解釈のところ、そこにこそ時間を使おう
のがっち
のがっち
だから前処理は外注すると。これは日本には無いのかね?
運営者
運営者
日本にはたぶんまだ無いと思います。だからアメリカ人って仕事を切り分けるのが上手いんだろうな、と思ったんですよ。
のがっち
のがっち
分業体制みたいなのがね、進むんですかね。
運営者
運営者
だと思います。

 

やっぱ日本人て職人的なところがある

運営者
運営者
やっぱり日本人て職人気質なところがあると思うんですよね。
のがっち
のがっち
まぁ、職人芸って言われるし、もてはやされるしね。
運営者
運営者
ここで前処理ところ、意味のないところなんですが…
のがっち
のがっち
意味はあるでしょ?
運営者
運営者
意味はあります(笑)、意味はありますが、データサイエンティストが最も価値を出すところではないところ。
のがっち
のがっち
最も価値を出すのは、あくまでもアルゴリズムの選定と解釈だもんね。
運営者
運営者
その最も価値を出すところではないんだけども、そこにもこう職人芸が光るとか、前処理力をもっていると尊敬したりとか、っていうところが僕の気持ちの中にあったんですけど。そんなふうに言い切られると…まあ確かにデータサイエンティストの価値って、そこじゃないよなぁって改めて気付いたというか。
のがっち
のがっち
ちなみに前処理ってさ、アルゴリズムの知識とかいらないよね。
運営者
運営者
いらないんですよ。
のがっち
のがっち
さっき言った男を0にして女を1にするとかさ、そんな話でしょ。
運営者
運営者
そうです。だから言わば、プログラミング力。
のがっち
のがっち
結果の解釈はまた違う能力だもんね。ランダムフォレストっていうアルゴリズムはこういう仕組みだから今回使うのにふさわしいし、結果がこうだから次はこういうアクションを取ろうとか。
運営者
運営者
そうそう。
のがっち
のがっち
これデータ解析の知識ないと使えないもんね。
運営者
運営者
そう。比較優位論ってあるじゃないですか?
のがっち
のがっち
よくありますね、経済学にね。農業してる国は農業してろと。
運営者
運営者
そうそう。
のがっち
のがっち
工業やった方がいい国は、工業やれと。
運営者
運営者
そうそう。それ一番生産性が上がるんだと。そういう考え方をアメリカ人ってスッてできるんだろうな、と思いました。
のがっち
のがっち
なるほど。これあれですかね。むこうの方が経済学的な教育がされているんですかね。
運営者
運営者
どうなんですかね。
のがっち
のがっち
自然とそうなるんですかね。
運営者
運営者
でもなんか、日本には前処理専門の会社っていうのはまだないと思うし、できてくるのかなというのもまだちょっとそんな気配はまだないと思うんですが。。
のがっち
のがっち
まあ、一つにはね。なんかやっぱ日本はさ、まだジョブローテーションとかをしてさ、ジェネラリスト思考があったりするけど、むこうは違うよねとかさ。
運営者
運営者
プロフェッショナルですよね。…で実際に、データサイエンティストも前処理の部分の仕事をしないで外注をして、アルゴリズムの選定と結果の解釈っていうところに仕事を集中させれば、4倍の仕事ができるわけですから。
のがっち
のがっち
そうね。元々2割しか使えてなかったところがね。
運営者
運営者
だから、もっと稼げるんですよ。
のがっち
のがっち
たくさん案件を取ってこれるしね、正直。
運営者
運営者
あとは外注させて、データ帰ってきて、それをアルゴリズムにかけて結果の解釈してっていう、案件をバーッと回せるわけですからね。
のがっち
のがっち
なるほど。
運営者
運営者
だからやっぱこう、その方が稼げるんだよな、っていう。当たり前のことなんだけど、それがこう言われて気付くみたいな。
のがっち
のがっち
作れば?前処理の会社。
運営者
運営者
なるほど。
のがっち
のがっち
儲かるんじゃない?
運営者
運営者
確かにね。前処理だったら、ホントに…僕ね、一番最初の会社入って、データ解析の会社転職してやらされたのは、前処理なんですよ。
のがっち
のがっち
はいはい。
運営者
運営者
アルゴリズムの知識もいらないですし。
のがっち
のがっち
極論だけどさ、バイトにできる?ちゃんと教えれば。
運営者
運営者
うーん。ちゃんと教えればできるとおもいますよ。「こうして」っていう指示がちゃんと明確にあれば。
のがっち
のがっち
マニュアルとかさえ作っちゃえば、行ける気がするんだけど。ただ時給は上げる、もちろん。コンビニは1,000円だけどもこっちのバイトは1,800円にしよう。それでも社員雇うより安いでしょ。
運営者
運営者
安い安い、全然安い。データサイエンティストの給料高いですからね。給料というか…
のがっち
のがっち
発注料高いもんね。
運営者
運営者
発注料が高いですもんね。
のがっち
のがっち
高い発注料の中には、実は8割はデータの前処理なんだから、実はもっとここって削減できるよね、みたいなことでしょ。
運営者
運営者
っていうのはあると思いますね。
のがっち
のがっち
作ろう。
運営者
運営者
作りますか。ほんとにね、それは言われてハッと気付きましたね。そここそがデータサイエンティストの腕の見せ所だみたいなことも思っちゃったりしてたんですけど。前処理力があると…
のがっち
のがっち
美しい前処理力。
運営者
運営者
美しい前処理力、そして素早い前処理…っていうのがね。話してて気づいたところです。
のがっち
のがっち
じゃあ、結論としては、アメリカはやっぱ進んでるなと。
運営者
運営者
進んでるっていうか、なんだろね。やっぱ結果を出すってところにちゃんとフォーカスして、仕事をするっていう思考をもともと持ってるのかなぁ~。なんなんだろね。僕らも結果を出すってところにフォーカスしてるはずなんだけど、でもどうしてもやっぱり過程にも目を向けてしまうっていう性質があるのかなぁと。
のがっち
のがっち
向こうの方がよりアウトプットにフォーカスしていると。
運営者
運営者
なのかなと思いましたね。どう思います?
のがっち
のがっち
そういうことなんじゃないですか。結論としては、ブロックチェーンにおいてもデータ分析においても、やっぱアメリカは日本の3歩ぐらい先を行ってるなと、いうことじゃないですか?
運営者
運営者
そういう結論になっちゃんですかね。
のがっち
のがっち
なっちゃんじゃないですか、そういう話を聞くと。無いんでしょ、日本には前処理専門会社なんて。
運営者
運営者
そうね、ちょっと探してみてこれで有ったらアレなんですけど。
のがっち
のがっち
有ったら最悪、恥ずかしい。別にアメリカと同じだった、使ってないだけじゃんみたいな。
運営者
運営者
僕らは使ってないですからね、前処理の会社ね。泊まりに来たデータサイエンティストのアメリカ人は使ってるという話だったんだよね。
のがっち
のがっち
この放送が終わったら、一回探そう。
運営者
運営者
なかったら作るって、のがっち。
のがっち
のがっち
そうね、意外といけるかもしれない。
運営者
運営者
全然、マジで行けると思うよ。だってすげぇ高いし。データサイエンティストに発注するとね。月額マジで高いから。
のがっち
のがっち
高いのは知ってる。だからあれだよね、全員にいいことになるわけでしょ。クライアントにとっても多分安くなる。
運営者
運営者
安くなる。
のがっち
のがっち
実際の分析会社はもっといろんな案件が取れると。これいま人員が50人しかいないからパツパツだったけど、仕事の前処理を全部外注するから、この50人でも4倍仕事ができるみたいな。
運営者
運営者
そうだね。
のがっち
のがっち
だから単価が減っても案件が取れるからハッピーだと。前処理会社は頑張ると。
運営者
運営者
仕事が貰えて頑張ると。
のがっち
のがっち
いいじゃん。
運営者
運営者
三方好しじゃないですか。
のがっち
のがっち
いけんじゃない?
運営者
運営者
ちょっと考えますか笑

 

ABOUT ME
北爪 聖也
ダメ営業マンからデータサイエンティストへキャリアチェンジ。 技術とビジネスサイドの橋渡しが出来るため、ダメ営業マンの経験も役に立ちました。 広告代理店ADKにて3年勤務→データ分析受託の会社DATUM STUDIOにて1.2年勤務後、独立。
【30分で作る予測モデル】のYouTube動画はこちら

予測モデルを作るとはどういうことか!
全体像を解説した動画を公開しています。データを確認し、前処理し、予測モデルを作るまでの一連の動作が気になる方はこちらからどうぞ!

また株式会社piponでは医薬業界の企業様向けにDXの成功事例を集めた医薬DX事例集をe-bookとしてご提供しております。

ご興味ある方がいらっしゃいましたらこちらのフォームよりご連絡頂けると嬉しいです。