reede, november 24, 2006

Auhindadest - Netflix redux

Vaatamata lubadustele minu magistritöö (PDF) hindamisele mitte kulutada rohkem kui 6 nädalat ootan ma jätkuvalt Lundist vastust. Tõenäoliselt peab nendega järgmisel nädalal uuesti ühendust võtma ja meelde tuletama, et mind huvitab ka targemate hinnang tehtud tööle.

Tegelikult ajas mõtted magistritööle tagasi Netflixi auhind, millest vähem kui kuu tagasi kirjutasin. Peamiseks tingimuseks auhinna väljamaksmisel oli 10% parem tulemus kui olemas oleval algorütmil. Netflix on üles pannud ka liidritabeli, kust selgub, et osalejaid on:
16016 contestants on 12939 teams from 121 different countries. We have received 2422 valid submissions from 865 different teams; 76 submissions in the last 24 hours.
Sealjuures edetabelit juhib WXYZ Consulting, kelle parim tulemus on 5,77% parem Netflixi enda süsteemist ja enda kodulehel on kirjutavad nad, et neil on veel hulgaliselt ideid, kuidas enda tulemust parandada.

Muide, kui esindatud on 121 erinevat riiki umbes 194-st olemas olevast ja jättes sealt välja enamuse Aafrikast ja veel mitmed arenguriigid ning miniriigid (Tuvalu, Monaco, Vatikan) on tõenäosus, et sellest võtab osa ka mõni Eesti meeskond päris suur. Kui kellelgi on konkreetset informatsiooni eestlaste osalemise kohta, siis olen sellest huvitatud. Ja tõenäoliselt ei ole ma ainus.

Samas ei ole Netflixi auhind jäänud kriitikata. Mina ise vahendan tegelikult Frekonomics'i blogis loetut, mille kommentaaridest võib leida päris huvitavaid tähelepanekuid nagu näiteks:
They really should change the prediction sample data at periodic intervals or have more of them. At some point people are just data mining on the prediction set, albeit very slowly since they need to wait for Netflix to give them back the score.
või märksa põhjalikum ja argumenteeritum:
The contestants are essentially trying to perform cluster analysis in a high-dimensional space with extremely sparse data and no geometric structure. The currently person in 1st place is an assistant professor named Yi Zhang (founder of WXYZConsulting.com) whose whole life’s research work is centered around the problem of “Collaborative Filtering” (which is precisely the problem that Netflix is attempting to solve with this $1 million prize). Yi Zhang, with a PhD thesis in predicting movie ratings for websites and access to the massive research supercomputers at her university, is only able to attain a 5.77% improvement over Netflix. 5.77% is a far cry from the 10% needed to win the $1 million.

It is highly unlikely that anyone will ever reach the 10%, because there is a hard physical limit to the amount of structure in the dataset. This means that it is unlikely that Netflix will ever pay out $1 million to anyone (and I’m sure they knew that from day one). What is far more likely is that someone like Yi Zhang will recieve $50,000 in exchange for writing a performance optimized algorithm that will improve Netflix’s system by somewhere between 6 and 8%.
Samas võis suht sarnast juttu (a la ei ole tehniliselt võimalik) lugeda ka WinXP tööle saamise kohta Mac'idel, kuid ei läinud mööda rohkem kui poolteist kuud, kui lahendus oli olemas. Tõsi, tegu oli märksa konkreetsema ülesandega ja tegu ei olnud inimeste eelistuste ennustamisega, kuid Netflixi auhind on ka ligi sada (!) korda suurem ning lisaks jagatakse veel 50 000 dollarilisi progressi auhindu iga aasta lõpus.

Ma olen siiski optimistlik, et auhind võidetakse, kuid alust kahtlusteks annab samuti Freakonomics'i blogi kommentaaridest leitud viide graafikule, mis kujutab progressi novembri alguse seisuga:
Allikas: http://www.dicarlolaw.com/hist_20061105.png

Mida sellest kõigest järeldada? Auhinnad, mille olemas olust on teadlikud paljud ning mis vajavad mingeid konkreetseid oskuseid või teadmisi võivad asendada väga edukalt arendusmeeskonda või R&D laborit. Sellel on loomulikult ka omad negatiivsed tagajärjed, kuid see on eraldi pikem jutt.

Ma ei usugi, et Netflix oleks leidnud praeguse esikoha omanikud ja saanud neile tööd pakkuda ilma olulisi väljaminekuid tegemata enne kui üldse midagi oleks tegema hakatud - alustades värbamiskuludega ja lõpetades uutele töötajatele neile sobiliku riistvara soetamisega. Iga üks võib ise välja arvutada, palju see maksma oleks läinud.

Praegu on aga kulutused tehtud ainult auhinna välja kuulutamisele - nende veebilehel, kust see on läbi blogide, uudistegruppide ja foorumite levinud nendeni, kellel on motivatsiooni ja aega Netflixi püstitatud ülesandega tegeleda. Sisuliselt on miljoni dollari võitmise võimalus kaasanud kümmekond tuhat inimest üle terve maailma Netflixi arendusmeeskonda. Tasuta.

Oskuslikult koostatud auhind, mida on osavalt publitseeritud õigustab ennast peaaegu alati. Keda huvitab auhindade teoreetilisem käsitlus, siis ma ei viidanud postituse alguses enda magistritööle päris ilma asjata. Kui ei midagi muud, siis leiate sealt vähemalt viiteid auhindade majandusteoreetilisele käsitlusele.