ทำความรู้จักกับ Big Data ผ่านหนังสือ Dataclysm - Love, Sex, Race and Identity

By TITIPATA

ชอบฟังเพลงอินดี้และอัลเทอร์เนทีฟ เวลาว่างชอบเขียนโปรแกรมและเล่นเกม

อารัมภบท

ในช่วงที่ผ่านมา เราได้ยินคนพูดถึง Big Data กันมากขึ้นเรื่อยๆ ทั้งในสื่อ สิ่งพิมพ์ และอีกหลายๆ ช่องทาง โดยส่วนมากเราจะได้ยินเรื่องของบริษัทใหญ่ๆ เช่น Facebook หรือ Instagram ที่เก็บข้อมูลของพวกเราเพื่อเอาไปใช้แนะนำโฆษณาบน Facebook เป็นต้น ซึ่งการโฆษณาออนไลน์เหล่านี้เริ่มมีให้เห็นมากขึ้นเรื่อยๆ ตัวอย่างของ Facebook การโฆษณาออนไลน์ทำเงินให้บริษัทโดยเฉลี่ย $10 ต่อหนึ่งผู้ใช้งานเลยทีเดียว นอกจากบริษัทใหญ่ๆ ที่เก็บข้อมูลของลูกค้าแล้ว บริษัทเล็กๆ ก็เก็บข้อมูลของคนธรรมดาอย่างพวกเราและเอาไปใช้โฆษณาเช่นกัน ตั้งแต่การจัดรูปแบบเพจหรือนำเสนอสินค้าที่คิดว่าเราจะชอบขึ้นไว้ก่อนที่หน้าเพจ เพิ่มความน่าจะเป็นของการกดซื้อสินค้าโดยผู้ใช้งานบนเว็บไซต์นั่นเอง

สำหรับผู้อ่านบางคนอาจคิดไม่ถึงว่า โห เว็บไซต์พวกนี้จะทำเงินได้เยอะขนาดนี้เลยเชียวหรอ แต่เราแค่ลองนึกง่ายๆ ดูว่าประชากรในสหรัฐอเมริกา ณ ที่นี้ไม่ว่าจะจน รวย จะเป็นกลุ่มผิวสี เอเชียน ลาติโน่ หรือฮิสปานิก กว่า 87% มีสิทธิเข้าถึงอินเทอร์เน็ต เราลองยกตัวอย่างให้เห็นภาพชัดกว่าเดิมเล็กน้อย ประชากรหนึ่งคนจากสามคนในสหรัฐใช้ Facebook ทุกวัน (อาจจะเยอะกว่านี้ด้วยซ้ำสำหรับคนไทย) … ถึงแม้ว่าเราอาจจะไม่ได้สนใจการตลาดออนไลน์เหล่านี้ ซึ่งก็ไม่แปลกเพราะผู้เขียนเองก็ไม่ได้กดซื้อของออนไลน์ในชีวิตประจำวัน แต่มีคนอีกมากที่ซื้อผลิตภัณฑ์เพราะเห็นโฆษณาหรือได้รับแรงบันดาลใจจากโซเชียลมีเดียเหล่านี้

สำหรับรีวิวนี้ เราอยากจะแชร์ประสบการณ์ของ Big Data แต่ว่าในอีกมุมมองนึงจากการอ่านหนังสือ เราจะมารีวิวหนังสือที่ผู้เขียนพึ่งอ่านไป หนังสือเล่มนี้มีชื่อว่า Dataclysm: Love, Sex, Race and Identity เขียนโดย Christian Rudder (เราจะเรียกว่า ‘คริส’ ในบล็อกนี้) ซึ่งเป็นหนึ่งในผู้ก่อตั้งเว็บไซต์และแอปพลิเคชั่น OkCupid ซึ่งเป็น online dating site แรกๆ ของอเมริกา OkCupid เป็นเดทติ้งแอปพลิเคชั่นคล้ายๆ กับแอปที่วัยรุ่นสมัยนี้อาจจะเคยเห็นหน้าค่าตากัน เช่น Tinder, Match หรือ Coffee meets Bagels เป็นต้น

หน้าตาหนังสือเป็นประมาณนี้

จากโลกออนไลน์สู่โลกออฟไลน์

หนังสือเล่มนี้มีความเจ๋งตรงที่คริสได้เล่าประสบการณ์ของเค้าระหว่างทำงานและวิเคราะห์ data ที่ OkCupid เค้าพูดถึง data ที่เค้าเก็บและประมาณผลมาจากผู้ใช้งานกว่า 55 ล้านคนจาก OkCupid นอกจากนั้นยังรวมถึง Facebook และ Twitter ด้วย เค้าอธิบายไว้ได้อย่างเข้าใจง่ายทั้งการเล่าเรื่อง,ภาษาเขียน และกราฟ ซึ่งเราจะเห็นในหัวข้อย่อยถัดๆ ไป

เราคิดว่าการอ่านหนังสือเล่มนี้จะเป็นประโยชน์สำหรับคนที่ทำงานเกี่ยวกับ Big Data และสำหรับคนที่อยากจะประมวลผล data เหล่านี้และถ่ายทอดให้คนทั่วไปเข้าใจได้ง่าย ผู้เขียนคงจะไม่ได้รีวิวหนังสือทั้งเล่ม แต่จะยกตัวอย่างประสบการณ์ของคริสว่าเค้าได้อินไซด์อะไรจาก data ที่เก็บมาบ้างผ่านหนังสือเล่มนี้

คำเตือน เราต้องบอกไว้ก่อนว่า data เหล่านี้มาจากกลุ่มผู้ใช้งานในสหรัฐอเมริกา ซึ่งอาจจะไม่ตรงกับความรู้สึกของผู้อ่านในสังคมไทยไปทั้งหมด

1. สเปคของผู้ชายและผู้หญิงแต่ละวัยผ่านออนไลน์เดทติ้ง

OkCupid หรือแม้กระทั่ง Tinder เปิดให้ผู้ใช้งาน swipe (yes/no) หรือ rate เพศตรงข้ามที่เราเจอบนแอปได้ คำถามที่เค้ามีอย่างแรกเลยก็ เห้ย ผู้หญิงแต่ละวัยนี่จะชอบผู้ชายประมาณอายุเท่าไหร่นะ แล้วผู้ชายแต่ละวัยหล่ะ… จะชอบผู้หญิงอายุเท่าไหร่ ในที่นี้คริสได้พลอตกราฟออกมาดูว่า ผู้หญิงและผู้ชายในแต่ละช่วงวัยชอบเพศตรงข้ามในอายุประมาณเท่าไหร่บ้าง

เรามาลองดูพลอตซ้ายกันก่อน แกนตั้งในที่นี้คืออายุของผู้หญิงและแกนนอนคือตัวเลขอายุของผู้ชายที่ผู้หญิงคิดว่าดูดีที่สุด เราจะเห็นว่าผู้หญิงชอบผู้ชายที่โตกว่าเล็กน้อย ยกตัวอย่างเช่น ผู้หญิงอายุ 20 ปีคิดว่าผู้ชายอายุ 23 ดูดีที่สุด หรือ หญิงอายุ 28 ปีคิดว่าผู้ชายอายุ 29 ดูดีที่สุด ผู้หญิงยังชอบผู้ชายที่อายุโตกว่าเล็กน้อยจนกระทั่งอายุของผู้ชายถึงประมาณ 35-40 ปี ผู้หญิงไม่ค่อยชอบผู้ชายที่อายุมากกว่านั้นแล้ว แม้ว่าเธอจะอายุถึง 45-50 ปีก็ตาม

ลองดูพลอตด้านขวาบ้าง สำหรับผู้ชายนั้น แม้ว่าจะวัยแก่หรือวัยเด็ก ก็ยังชอบผู้หญิงที่มีอายุยี่สิบต้นๆ (20 ถึง 22 ปี) “I get older, they stay the same age” ฉะนั้นสำหรับผู้หญิงแล้วช่วงอายุ 20 ต้นๆคือช่วงทองของพวกเธอนั่นเอง

ข้อคิดที่ได้จากพลอตนี้แน่นอนว่านี่คือเหตุของ market imbalance เพราะเหล่าเฒ่าทั้งหลายเข้า dating app เหล่านี้เพื่อไปเรตหรือหาแต่เด็กๆอายุยี่สิบต้นๆ แต่ผู้หญิงที่มีอายุเข้าไปหาผู้ชายที่มีอายุรุ่นราวคราวเดียวกันเป็นส่วนมากนั่นเอง

2. ความแปรปรวน (ของคะแนนที่ผู้ชายเรตผู้หญิง) คือจุดขาย

สำหรับคนที่เล่นหุ้น เราชอบหุ้นที่มีความแปรปรวนน้อย ในที่นี้แปลว่า แม้ว่าหุ้นสองตัวที่เราถือจะมีราคาขึ้นเท่าๆ กันระหว่างช่วงต้นเดือนและปลายเดือน เราอยากจะถือหุ้นที่มีความแปรปรวนน้อยกว่า พูดง่ายๆ คือเราอยากให้มันราคาค่อยๆ ขึ้นแบบไม่ตก ดีกว่าราคาแกว่งไปมาแบบคาดการณ์ไม่ได้นั้นเอง

แต่สำหรับผู้หญิงแล้ว คนที่มีเรตติ้งแปรปรวนสูงกว่าคนอื่นจากแอป OkCupid (เช่นผู้ชายส่วนมากเรตด้วยคะแนนต่ำ แต่บางส่วนเรตด้วยคะแนนสูง) แม้ว่าเรตติ้งเฉลี่ยของเธออาจจะต่ำกว่าคนทั่วไป แต่ผู้หญิงกลุ่มนี้กลับมีโอกาสที่จะได้รับข้อความจากเพศตรงข้ามมากกว่าคนที่มีเรตติ้งเฉลี่ยทางหน้าตาสูงกว่า ซึ่งโอกาสที่จะสานต่อไปถึงความสัมพันธ์ในอนาคตก็มีมากกว่าตามไปด้วย

ลองนึกดูง่ายๆ จากฝั่งผู้ชายก็ได้ ผู้ชายพวกนี้จะมองว่าสาวๆ เหล่านี้มีความแตกต่างจากสาวๆ ทั่วไป

“เห้ย เราว่าเธอเจ๋งมากอ่ะ แม้ว่าเธอจะดูฮิป บ้าๆ บอๆ ผู้ชายส่วนมากอาจจะไม่ชอบเธอ แต่เราชอบเธอนะ”

3. ก็อปปี้-เพสต์ ข้อความยาวๆ ใช้ได้ผลจริง

สำหรับคุณผู้หญิงทั้งหลายที่ได้ match จาก Tinder หรือ OkCupid คุณอาจจะได้ข้อความจากผู้ชายทักมาสั้นๆ เช่น ‘ฮัลโหล’ ‘สวัสดีครับ’ ‘คุณชื่ออะไรครับ’ แบบสั้นๆ ผู้หญิงส่วนมากคงเบื่อกับการที่ต้องตอบคำถามพวกนี้ซ้ำๆ จนไม่ตอบเลย แต่ถ้าได้ข้อความแบบเฉพาะกว่าเดิมหน่อย เช่น ‘เห้ย เราชอบดูหนังเรื่องนี้เหมือนกันเลย เราพึ่งไปคอนเสิร์ตโมเดิร์นด้อกมาด้วยแหละ เราเห็นเธอน่าจะชอบเหมือนกัน ไว้ลองไปคอนเสิร์ต Tattoo Colour ด้วยกันน่าจะดี’ ข้อความแบบเฉพาะเจาะจงทำให้ดูมีเรื่องราวและทำให้พวกเธออยากตอบมากขึ้น แม้ว่าผู้หญิงส่วนนึงอาจจะคิดว่าข้อความนี่มันอะไรยาวเหยียด เราไม่ได้ชอบโมเดิร์นด้อกซะหน่อยนี่นา แต่ที่ไหนได้ คริสพบว่าจริงๆ แล้วผู้ชายเหล่านี้ไม่ได้ส่งข้อความให้เธอคนเดียว แต่เป็นสคริปที่ใช้ส่งให้ผู้หญิงเหมือนๆ กันถึง 50 คน เราจะมาดูกันว่าเค้าค้นพบได้อย่างไรว่าหนุ่มๆ พวกนี้ก็อปปี้-เพสต์ข้อความ

คริสได้พลอตจำนวนของ keystroke (จำนวนครั้งที่กดคีย์บอร์ด) พร้อมกับจำนวนคำที่ผู้ชายพิมพ์ให้เหล่าสาวๆ เช่นถ้าเราพิมพ์ 6 ครั้งก็จะได้คำว่า ‘สวัสดี’ นั่นเอง คริสค้นพบว่ามีข้อความประมาณ 25% ที่มีความยาวของจำนวนคำมากกว่าจำนวนครั้งที่หนุ่มๆ พวกนี้พิมพ์ลงไปจริงๆ แปลว่าพวกผู้ชายพวกนี้พิมพ์ข้อความไว้แล้วนั่นเอง สิ่งที่พวกเค้าทำคือแค่ก็อปปี้-เพสต์ ข้อความที่พิมพ์ไว้แล้ว และส่งหว่านแหไปให้ผู้หญิงหลายๆ คนที่เค้าได้ match นั่นเอง

คริสพบว่าการก็อปปี้ข้อความให้สาวๆ นั้นมีประสิทธิภาพประมาณ 75% ของการพิมพ์ข้อความด้วยตัวเองซึ่งถือว่าไม่แย่เลยทีเดียว สำหรับหนุ่มๆ นั่นแปลว่า ถ้าเราส่งเทมเพลตแมสเสจแทนที่จะพิมพ์ให้สาวๆ คนต่อคน เราก็ยังมีโอกาสที่เธอจะตอบอยู่โดยใช้เวลาพิมพ์น้อยลงนั่นเอง… เน้นปริมาณ ไม่เน้นคุณภาพ

4. คู่รักที่เรารู้จักเพื่อนเธอ เธอรู้จักเพื่อนเรา เราแฮงค์เอ้าท์ด้วยกัน ดีจริงหรือไม่?

คำตอบสั้นๆ จากคำถามด้านบนคือ จริงๆ แล้วคู่รักที่มีกลุ่มเพื่อนคาบเกี่ยวกัน มีโอกาสเลิกรากันสูงกว่าคู่รักที่มีกลุ่มเพื่อนคนละกลุ่มมากกว่าซะด้วยซ้ำ

จากการวิเคราะห์ mutual friends network ของคู่รักวัยรุ่นบน Facebook คริสพบว่าคู่รักที่สองคนอยู่ในกลุ่มเพื่อนของฝั่งผู้ชายและผู้หญิงที่ใกล้ชิดกันบน Facebook มีโอกาสเลิกราสูงกว่าแบบที่กลุ่มเพื่อนสองกลุ่มไม่ได้รู้จักกันมากแต่รู้จักผ่านทั้งสองคนมากกว่า 50 เปอร์เซ็นต์เลยทีเดียว

Impression ของเพศตรงข้ามในโลกออนไลน์มาจากภาพโปรไฟล์เป็นหลักนั่นเอง เมื่อประมาณสามปีที่แล้ว OkCupid จึงได้ทำการทดลอง ลบภาพโปรไฟล์ ของคนทั้งหมดบนไซต์โดยใช้ชื่อแคมเปญว่า “Love is blind day” เพื่อทดสอบว่าหน้าตาบนโลกออนไลน์จะมีผลต่อ impression ที่เค้าเจอกันในโลกความจริงหรือไม่ โดยที่ OkCupid จะบอกสถานที่ให้คู่หนุ่มสาวที่ได้ match ซึ่งกันและกันที่ไม่เคยเห็นหน้ากันก่อนออกมาเจอกันในสถานที่ใกล้เคียง

คริสค้นพบว่า ถึงแม้ว่าเรตติ้งบนเว็บไซต์ของสองฝ่ายจะต่ำหรือสูงนั้น ไม่ได้มีผลต่อ impression ที่มีต่อกันเลยในโลกแห่งความจริง นั่นแปลว่าแม้ผู้ชายจะได้เรตติ้งเพียง 1 ดาวหรือ 5 ดาวจากฝั่งผู้หญิง ความประทับใจที่สองคนจะมีต่อกันเมื่อเจอกันในโลกแห่งความจริงมีถึงประมาณ 75-80 เปอร์เซ็นต์

ถ้าเราหยุดแชทและเปิดโอกาสออกมาเจอกัน เราอาจจะชอบกันก็ได้ :)

ทิ้งท้าย

สำหรับใครที่สนใจรายละเอียดเต็มๆ ก็ไปหาอ่านกันได้จากหนังสือ Dataclysm ซึ่งเราคิดว่าเป็นหนังสือที่ดีมากๆ สำหรับคนที่อยากจะได้แนวคิด มุมมองใหม่ๆ จากการเก็บและวิเคราะห์ data ส่วนช่องทางการซื้อก็สามารถหาได้จาก Amazon หรือ Kinokuniya ส่วนถ้าใครอ่านแล้วไม่อยากซื้อหนังสือก็สามารถหาอ่านเพิ่มเติมจากบล็อกของ OkCupid ได้ที่ OkCupid Blog นะครับ

ทำความรู้จักกับ Big Data ผ่านหนังสือ Dataclysm - Love, Sex, Race and Identity

February 22, 2017

By TITIPATA

By TITIPATA

อารัมภบท

จากโลกออนไลน์สู่โลกออฟไลน์

1. สเปคของผู้ชายและผู้หญิงแต่ละวัยผ่านออนไลน์เดทติ้ง

2. ความแปรปรวน (ของคะแนนที่ผู้ชายเรตผู้หญิง) คือจุดขาย

3. ก็อปปี้-เพสต์ ข้อความยาวๆ ใช้ได้ผลจริง

4. คู่รักที่เรารู้จักเพื่อนเธอ เธอรู้จักเพื่อนเรา เราแฮงค์เอ้าท์ด้วยกัน ดีจริงหรือไม่?

5. Love is blind day, impression ของคนสองคนไม่เกี่ยวกับหน้าตาในจอ

ทิ้งท้าย

The making of ระบบค้นหาเพลงที่แจ้งจัดเก็บค่าลิขสิทธิ์

จาก Reinforcement Learning จนมาเป็น Deep Reinforcement Learning (ฉบับพกพา)

[Python] profiler ด้วย line_profiler

By TITIPATA

อารัมภบท

จากโลกออนไลน์สู่โลกออฟไลน์

1. สเปคของผู้ชายและผู้หญิงแต่ละวัยผ่านออนไลน์เดทติ้ง

2. ความแปรปรวน (ของคะแนนที่ผู้ชายเรตผู้หญิง) คือจุดขาย

3. ก็อปปี้-เพสต์​ ข้อความยาวๆ ใช้ได้ผลจริง

4. คู่รักที่เรารู้จักเพื่อนเธอ เธอรู้จักเพื่อนเรา เราแฮงค์เอ้าท์ด้วยกัน ดีจริงหรือไม่?

5. Love is blind day, impression ของคนสองคนไม่เกี่ยวกับหน้าตาในจอ

ทิ้งท้าย

The making of ระบบค้นหาเพลงที่แจ้งจัดเก็บค่าลิขสิทธิ์

จาก Reinforcement Learning จนมาเป็น Deep Reinforcement Learning (ฉบับพกพา)

[Python] profiler ด้วย line_profiler

3. ก็อปปี้-เพสต์ ข้อความยาวๆ ใช้ได้ผลจริง