Sari la conținut

Cariera mea în baze de date

Până în prezent am creat peste 100 baze de date despre imobiliare, geografie, maşini, produse electronice, etc. Sute de firme folosesc baze de date „Made by Teoalida” iar asta îmi oferă o responsabilitate uriaşă de a oferi actualizări constante. Puteţi să îmi daţi idei de noi baze de date, dar să nu vă aşteptaţi să dau curs tuturor solicitărilor. Prioritizez proiectele în funcţie de numărul de clienţi interesaţi.

Scriu această pagină pentru cei curioşi bazele de date au ajuns „meseria” mea principală:

Pasiunea mea pentru scris, colecţionat şi analizat date a început în perioada când eram la grădiniţă, înainte să avem calculator. Tata a cumpărat calculator în 1995 şi spre sfârşitul lui 1996 mi-a dat voie să îl folosesc şi eu (aveam 7 ani), m-a învăţat să lucrez în Microsoft Word, dar eu mi-am băgat nasul şi prin Excel, PowerPoint, etc.

Din 2003 folosesc Excel mai mult ca Word, pentru a creea tabele cu date adunate de exemplu din revistele auto, dar de abia în 2012 (aveam 23 ani) am descoperit că pot face o afacere din vânzarea de date, sunt firme dispuse să dea sute de dolari pe o bază de date completă, precisă şi actualizată frecvent.

Veniturile realizate din baze de date în 2015 au depăşit de 10 ori veniturile din arhitectură, unde în 90% din cazuri nu reuşeam să conving clienţii să plătească serviciile.

Primele lucrări

Activitatea mea de data analysis a început pe la 7 ani, părinţii aveau o bibliotecă lungă de 5 metri şi nu prea modificau poziţia cărţilor, eu am făcut pe caiet un tabel în care am scris numărul de cărţi pe fiecare raft, iar pe la 8-9 ani am făcut un tabel Word în care am scris creioanele mele colorate şi lungimea fiecăruia.

Primele documente scrise pe calculator erau ficţionale, Bilo îm Baie şi Puii mei, modificându-le continuu fără vreun final, plus aventuri umoristice sub formă de dialoguri, unele aventuri fiind inspirate din evenimente REALE petrecute la şcoală, cu copii obraznici.

Cum scrisul meu de mână era doar cu litere de tipar majuscule, am făcut aşa şi pe calculator. Tata mi-a impus reguli cum să scrii CORECT un document: textul principal de 12pt sau 14pt aliniat la ambele margini, titluri de 16-20pt bold şi subliniate, aliniate la centru. Eu am adăugat un sistem de numerotate al titlurilor (capitolelor) iar cum Bilo îm Baie avea capitole pe 5 nivele, unele titluri erau gen „1.2.3.4.5. titlu”, făcând documentul foarte inestetic.

Tata mi-a zis că lucrările neterminate nu au nici o valoare, m-a încurajat să termin lucrările ca el să le facă la imprimantă (nu am înţeles niciodată ce valoare avea printrarea, atâta timp cât nu publicam nici o carte), deşi eu voiam să public cărţi, părinţii nu m-au ajutat, ba chiar s-au opus oricărei activitate care mi-ar fi adus popularitate.

Din acest motiv, în 1998 (la 9 ani) am început să scriu documente care le puteam „termina” şi printa: Geografia României, lista oraşelor din România, lista drumurilor naţionale şi căilor ferate, forme de relief, lista ţărilor din lume cu suprafaţa şi populaţia, etc. În 1999 am început să scriu despre fotbal şi despre industria auto. Începând cu 2000 am scris un fel de jurnal cu evenimente reale din viaţa mea, iar din 2002 şi un jurnal al viselor.

Începând cu 2004 am făcut în Excel un tabel cu melodiile mp3 pe care le-am download-at în calculator pentru a da fiecărei melodii o notă (rating) de la 0 la 16 şi a face topul celor mai buni artişti, albume, şi genuri muzicale, folosind formule matematice, care arăta preferinţele mele muzicale în stilul unui data scientist.

Alte lucrări erau despre jocuri, de exemplu lista obiectelor din The Sims (scris 2003 în Word), arborele misiunilor din Grand Theft Auto, tabel cu vehiculele din joc, masurând viteza maximă a fiecăruia (scris 2004 în Excel).

După conectatea la internet în 2005 am abandonat majoritatea lucrărilor mele, ca de exemplu cele de geografie, fiindcă existau liste mai detaliate pe Wikipedia. Dar am continuat bazele de date despre maşini care nu aveau echivalent pe internet.

Stilul de scriere

În 1999 am început să scriu cu diacritice, iar în 2000 cu litere mici (anterior scriam pe calculator doar cu majuscule, ca pe caiete). Pentru diacritice am configurat în Word 10 combinaţii de taste: Alt+A = ă, Alt+Shift+A = Ă, Alt+Ctrl+Shift+A = Â, ş.a.m.d.

Uitandu-mă prin fişierele avute în calculator, în special Readme.txt de la diverse programe şi jocuri MS-DOS, în 1998 am devenit fascinat de Notepad, datorită fontului Fixedsys, făcusem câteva lucrări unde titlurile erau marcate cu linii de egaluri ==== cât toată lăţimea ecranului. O perioadă din 2001-2004 chiar voiam să inpun fonturi monospace Courier New pe toate lucrările mele.

În 2003 am renunţat la indicaţiile tatălui ca cele despre mărimea fontului, am reformatat documentele Word şi optimizat pentru vizualizare pe ecran (în loc de printare). Am trecut la font de 10pt, titluri de 20pt, subtitluri de 15pt, titlurile având font alb pe un fundal colorat pe toată lăţimea paginii. Lucrările în Excel de asemenea aveau capul tabelului cu text alb pe fundal albastru, încă din 2001, apoi din 2003 coloram fiecare coloană sau grup de coloane în culorile curcubeului, iar în 2004 m-am întors de la font Courier New la Arial.

În 2009 mi-am făcut primul site web, pe care mi-am publicat munca în pagini scrise asemănător cu documentele Word, text aliniat la ambele margini şi titluri cu fundal de altă culoare. Au existat câteva persoane care mi-au criticat site-ul, spunând că pare a fi făcut de un tipograf şi nu de un webdesigner.

În 2015 am introdus un nou stil în documentele Word, eliminând fundalul închis la culoare la titluri şi înlocuindu-l cu linii orizontale, asemănător cu fişierele TXT din era MS-DOS-ului.

Bazele de date cu maşini mi-au dominat viaţa

Pasiune mea pentru maşini a început în 1999, iar din 2003 compun tabele în Excel cu date tehnice ale tuturor maşinilor într-un format standard. Deşi ambele talente, desenul şi compus date, au originea în copilărie, eu fiind dintr-o familie de ingineri am încercat să câştig bani din servicii de desen AutoCAD şi arhitectură, nu am avut prieteni în sectorul IT care mi-ar fi putut spune că bazele de date sunt o mină de aur.

Am publicat lucrările despre maşini pe site-ul meu în 2011 cu intenţia de a le oferi gratuit altor pasionati de automobile, dar în 2012 mi-am dat seama că pagina este vizitată de mari firme din industria auto, asigurări, tuning, piese auto, web designeri şi programatori de aplicaţii de mobil, dispuşi să dea sute de dolari pe o bază de date completă, corectă şi actualizată frecvent.

Unii din aceşti programatori au cunoştiinţe ZERO despre industria auto, iar văzând site-ul meu găzduit gratuit şi cu design slab, ieşeau de pe site fără a mă mai contacta şi a îmi spune cine sunt şi ce vor. O greşeală a fost că în fiecare fişier Excel, prima foaie era un articol despre mine, asemănător cu revistele auto în care prima pagină e un editorial. Clienţii nu se uitau şi pe restul foilor unde ar fi văzut adevăratele date de care erau interesaţi, probabil navigau pe multe site-uri.

După un an mi-am dat seama ce fel de oameni îmi vizitează site-ul, Am căutat pe Google „car database” pentru prima dată văzând că mai sunt şi alte site-uri care vindeau baze de date cu maşini, însă pline de greşeli şi neactualizate de ani de zile. Am făcut multe schimbări, atât în baza de date, cât şi în design-ul site-ului, printre care mutarea pe un domeniu .com plătit şi platformă WordPress cu un plugin de magazin online unde lumea să facă plata iar „produsul” (fişierul Excel) să fie livrat automat printr-un email cu link de download, doar aşa în 2013 am avut vânzări semnificative.

Dar cum a început pasiunea pentru bazele de date auto

În primăvara anului 1999 mi-a venit ideea să scriu cu creionul pe hârtie o listă cu mărcile de maşini. Vreo 40 mărci mi-au venit în minte, cu tot cu ţara de origine, maşini pe care le vedeam pe stradă în drumul meu zilnic de la părinţi către şcoală şi apoi către bunici. Apoi am luat ziarul RAID şi m-am uitat la „alte mărci” şi am adăugat maşini mai rare, japoneze şi americane. Apoi le-am arătat parinţilor lista cu ~60 mărci să îmi zică dacă le-am scris bine. Atunci tata mi-a zis şi de alte mărci care nu le vedeam pe şoselele României (Ferrari, Lamborghini).

Lista mea avea multe greşeli, credeam că Mercedes (cea mai de lux marcă în România anilor ’90) e americană, că ARO are provenienţă Land Rover (de fapt primul model ARO a fost o copie a maşinii ruseşti GAZ)., dar fiindcă idioţii de la ziarul RAID nu făcuse categorie „Vânzări Daewoo” cum făceau pentru alte mărci Europene, anunţurile de vânzare cu Tico, Cielo, Espero, Nubira, Leganza erau puse la „Vânzări alte mărci” şi nu spuneau şi numele mărcii, am crezut că România are ~10 mărci de maşini, nu ştiam că ele sunt modele Daewoo (ştiam de Daewoo doar ca marcă de electrocasnice).

La scurt timp, un vecin ne-a dat Auto Catalog 1997, atunci mi-am dat seama că în lume sunt vreo 160 mărci de maşini. Atunci am aflat pentru prima dată că Daewoo produce şi maşini, cele enumerate mai sus fiind modele Daewoo şi nu mărci.

În vacanţa pe litoral din 1999 am cumpărat Auto Catalog 1999 (care de fapt apăruse în toamna lui 1998) iar când m-am întors acasă am început să scriu pe calculator despre maşini. Documente Word de exemplu lista mărcilor de maşini cu ţara de origine, şi tabele Excel în care băgam datele de la câteva zeci de modele de maşiini, alese aleator, calculând puterea şi cuplul per litru, etc.

Cum Dacia 1300-1310 se producea de 30 ani fără schimbări majore, la fel şi Oltcit şi ARO, nu ştiam că în lumea civilizată modele de maşini sunt înlocuite la aproximativ 6-10 ani. Am aflat asta prin 2000, motiv pentru care am început să scriu în Notepad liste de modele şi caroserii pentru fiecare marcă, indicând clasa şi anii producţiei. Ulterior am combinat fişierele TXT într-un singur fişier Modele.DOC şi am făcut şi un fişier Modele.XLS un fel de grafic cu bare orizontale care indică succesiunea modelelor.

În 2011 le-am publicat pe site sub numele Car Models List (DOC) şi Car Models Timeline (XLS), oferindu-le la download gratuit că nu credeam că cineva va da bani pe un tabel fără date tehnice, ca ulterior să aflu că clienţii sunt dispuşi să dea bani pe un tabel care conţine doar numele mărcilor şi modelelor, fără date tehnice, cu condiţia să fie Excel. În decembrie 2012 am făcut o versiune Car Models List în XLS.

Car Models List Car Models Timeline

În decembrie 2000 am început să scriu o enciclopedie auto detaliată în Word, documente pentru fiecare marcă în parte, adunând date din toate revistele care îmi picau în mâini. Fiecare model avea 2-8 pagini Word cu text de 12pt, în 2001 am scris vreo 70 modele iar în 2002 alte 80 modele. Fiindcă tata îmi făcea foile la imprimantă şi le puneam într-un biblioraft asemănător cu revistele Arborele Lumii, scriam doar modelele ieşite din producţie pentru a nu fi nevoit să le printez iar când apar modificări. În primăvara 2003 am abandonat proiectul pentru că lua prea mult efort şi rezultatul era un dezastru, neavând un format standard pentru toate maşinile.

În primăvara 2003 m-am gândit să fac un tabel Excel într-un format standard pentru toate maşinile care se vând în Europa: un rând pentru fiecare versiune de motorizare. Numit Tipuri.xls, am scris 100 rânduri (tipuri), în noiembrie 2003 am decis coloanele tabelului: caroserie, număr de uşi, poziţia motorului, tracţiune, cilindri, capacitate cilindrică, putere, cuplu, acceleraţie, viteză maximă, consum mediu. Între decembrie 2003 şi aprilie 2004 am adăugat în Excel 2800 rânduri (tipuri de maşini), produse de la mijlocul anilor 1990 până în prezent. În prezent vând tabelul sub numele Car Models & Engines Database.

Alt proiect se numea Caroserii+, ideea era să fac la imprimantă ca nişte cărţi de joc sau cărţi de vizită, pe o parte poza maşinii, pe cealaltă parte date tehnice, lungime, laţime, înălţime, apatament, lista de motorizări. Pentru ca datele să încapă pe o cărţi de 9×6 cm, 8 cărţi pe pagină A4, fiecare tip de caroserie era scris individual, ceea ce însemna că Renault Mégane 1 din 1995-2004, având 5 tipuri de caroserii înainte de facelift şi alte 6 după facelift, ar fi trebuit să aibă 11 foi.

Am abandonat ideea cu cărţile de joc şi am scris toate cele 11 caroserii una după alta, iar sub ele lista de motorizări pentru toate, dar şi ideea asta am abandonat-o după ce am scris câteva mărci de maşini Europene. Am făcut şi o versiune Caroserii+.xls în care am scris lungimea, lăţimea, înălţimea, apatamentul, modelele de maşini fiind sortate pe clasă, de la vechi la noi, scopul lui era vizualizarea evoluţiei maşinilor care cresc în dimensiuni cu fiecare model succesiv.

În 2012 am adăugat modelele japoneze şi americane care se vănd în Europa, şi vindeam cele 2 fişiere DOC şi XLS la pachet, ca în 2013 să le vând separat sub numele Car Models Encyclopedia (DOC, 360 pagini) şi Car Models Database (XLS, peste 2000 rânduri), ca apoi să îmi dau seama că clienţii nu dau bani pe documente Word cum dau bani pe tabele Excel, abandonând Car Models Encyclopedia. Printre clienţi se numără producători de huse auto sau firme de transport auto care taxează în funcţie de dimensiunea maşinii.

Car Models Database

Revista Auto Motor şi Sport a încetat publicarea Auto Catalog-ului în România în 2009, fiind nevoit să cumpăr de pe eBay.de versiunea germană a catalogului. Am putut face asta în 2012 datorită vânzărilor de baze de date. Am cumpărat succesiv, până în 2014 când m-am ales cu colecţia completă Auto Katalog 1970-2014 (45 reviste), vizibilă în poza de mai jos.

Auto Katalog

Am extins Car Models & Engines Database adăugând noile modele de maşini, dar şi extinzând istoria către anii 1970, iar în 2014-2015 am refăcut-o cu 40 coloane, introducând manual toate datele din AutoKatalog, ca în acest video. Estimez să fi petrecut 1000 ore de muncă.

Ghinion, AutoKatalog nu s-a mai publicat nici în Germania dupa 2014. Am reuşit să continui proiectul extrăgând date de pe un site german cu un program automat de web scraping şi aranjându-le într-un format asemănător cu datele pe care le luam din revista AutoKatalog.

Alte baze de date

În 2005 am compus în Excel statistica blocurilor şi apartamentelor din Ploieşti, extinsă în 2007-2008 către oraşele din jurul Ploieştiului, inclusiv Bucureşti şi Târgoviste. Fiecare rând din tabel fiind un model de bloc, indicând numărul de etaje şi apartamente, înmulţit cu numărul de exemplare din acel bloc, pentru calcularea numărului de blocuri şi apartamente din fiecare cartier şi apoi oraş. Tabelul nu conţinea rânduri pentru blocuri individuale.

În 2009-2011 am compus în Excel baza de date a blocurilor din Singapore, de data asta fiecare bloc individual avea un rând. Fiindcă nu mă puteam decide asupra unui format standard pentru toate cartierele, fiecare cartier avea alt format, am abandonat proiectul după 2 ani timp în care făcusem doar jumătate din cele aproximativ 10.000 blocuri din Singapore.

Văzând succesul vânzărilor de baze de date cu maşini, în 2012 am publicat şi tabelul incomplet al blocurilor din Singapore invitând lumea să mă contacteze şi să explice ce ar avea nevoie, iar în 2014 mi-am făcut o idee despre ce vrea lumea, am îmbunătăţit tabelul şi l-am pus la vânzare. Prima vânzare am făcut-o în Mai 2015. Clienţii sunt agenţii imobiliare, asigurări de locuinţe, telecomunicaţii, curierat, etc.

HDB Database, block number, street address, postal code, lease commemnce date, number of units breakdown by flat type, upgrading programmes

Tot în 2014 am publicat pe site baza de date cu oraşele lumii (bazată pe Encarta Encyclopedia) şi cea cu sistemul solar.

În ianuarie 2018 am făcut un tabel similar pentru cele aproximativ 1800 blocuri din Ploieşti, cu câte un rând pentru fiecare bloc. Din toamna 2019 am început extinderea proiectului la restul judeţului Prahova, iar în 2020 la judeţele vecine.

Experienta personală îmi permite să ghicesc anul construirii oricărui bloc din România (cu aproximaţie +/- 5 ani) doar uitându-mă la poza din satelit, pentru numărul de etaje şi apartamente mă uit pe Google Streetview. Ofer datele la vizualizare gratuită pe Google Maps. Un proiect unic în România.

Lista blocurilor din Ploiesti

Web scraping a făcut revoluţia în viaţa mea

În August 2015 am descoperit programele care copiază automat date de pe site-uri, mai exact www.import.io, o procedură numită „web scraping„. Import.io era la vremea respectivă un program gratuit fără limite, dar în Aprilie 2016 au introdus planuri pentru conturile noi: gratuit cu limită la 50.000 pagini pe lună şi $249/lună cu limită la 50.000 pagini/lună, dacă iniţial mi-au zis că eu voi putea folosi contul nelimitat, în Septembrie 2016 mi-au blocat contul iar limita a fost redusă la 500 pagini/lună pentru conturile gratuite şi 5.000 pagini/lună pentru $249/lună.

În Noiembrie 2015 m-am asociat cu un prieten programator din Pakistan pentru a îmi face scrapere pentru site-uri prea complicate pentru import.io. Faptul că import.io mi-a blocat contul i-a dat lui ideea să facă propriul program de scraping. În prezent oferim amândoi servicii de scraping cu propriile programe scrise în VB.NET, C#, Python, etc.

Ca să vă faceţi o idee cât câştigăm: îmi ia 30 minute să studiez site-ul, să scriu codurile care indică ce date să extragă, apoi rulez programul care are o viteză medie de 1 pagină/secundă, dacă site-ul respectiv are câteva mii de pagini, treaba ar dura 1-2 ore şi clienţii dau cu uşurinţă 100 dolari. Adică $50/oră de muncă, de 10 ori veniturile părinţilor mei dacă împart salariul lor lunar la numărul de ore petrecute la birou. Am avut clienţi care m-au plătit şi 500 dolari pentru o bază de date cu sute de mii de rânduri, la care am fost nevoit să rulez programul de scraping câteva zile. Ca să nu mai zic de faptul că pot rula mai multe scrapere în paralel, iar o bază de date odată făcută, o pot vinde la mai multe persoane.

Veniturile din servicii de web scraping şi vânzarea de baze de date m-au făcut să renunţ la meseria anterioară: arhitectura, unde era nevoie să muncesc de 10 ori mai mult pentru aceeaşi sumă de bani, iar fiecare proiect de casă fiind personalizat pe dorinţele clientului, şansele să îl pot revinde altor clienţi erau minime.

Am făcut noi baze de date cu maşinile care se vând în America (2014, ajutat de alt programator din Singapore), în India (august 2015), în Orientul Mijlociu (mai 2016), în Australia (iunie 2017), motociclete (2016), condominium-urile din Singapore (octombrie 2015), zgârie-nori din toată lumea (decembrie 2015), telefoane mobile (august 2016), etc.

Notă: anterior evitam copierea datelor de pe site-uri, fiindcă nu credeam că cineva va fi dispus să dea MIE bani pe o bază de date care nu e compilaţia MEA originală ci este copiată de pe un site. M-am înşelat, pe majoritatea clienţilor nu îi interesează originalitatea, ei plătesc de fapt servicul de a extrage datele din site către un format Excel / CSV pe care să îl integreze în propriul site.

În teorie, extragerea datelor de pe site-uri, fie cu copy-paste, fie cu programe automate de scraping, poate fi o încălcare a drepturilor de autor (în special când extragi datele pentru a le folosi în propriul site care va face concurenţă), dar ţinând cont de câte programe, jocuri, muzică şi filme se piratează pe internet, şansele să fiu eu dat în judecată pentru că am copiat datele de pe site-uri sunt foarte mici. În cazul site-urilor care scriu în „termeni şi condiţii” că reproducerea datelor în scopul comercializării e interzisă, evit să public baza de date la vânzare pe site.

Mulţi clienţi îmi cer în mod specific (şi mă plătesc) să extrag datele de pe anumite site-uri în ciuda termenilor care interzic acest lucru. Dacă refuzam aceşti clienţi comentând încâlcarea drepturilor de autor, ei s-ar fi dus la alt freelancer care nu comentează şi ei obţineau datele oricum.

Etichete:

Lasă un comentariu

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *