Puterea motoarelor de căutare și rolul acestora în transformarea jurnalismului

Puterea motoarelor de căutare
Puterea motoarelor de căutare – comandă lucrări de licență

Articolul „ Puterea motoarelor de căutare și rolul acestora în transformarea jurnalismului ” este parte a unei lucrări de licență.

Nu găsești ce cauți? Comandă lucrări de licență, referate, studii de caz sau orice alt proiect științific!

Structura bazată pe linkuri a internetului este foarte relevantă pentru modul în care lucrează motoarele de căutare. Acestea interpretează conectivitatea (alături de alţi indicatori) ca un indicator al popularităţii şi utilităţii în cadrul algoritmilor de căutare şi ierarhizare. Motoarele de căutare constituie o sursă puternică de acces şi accesabilitate în cadrul mediului online.

Ceea ce urmează reprezintă o scurtă descriere a funcţiunilor acestora pentru a scoate în evidenţă gradul în care este preconfigurat accesul la internet prin intermediul motoarelor de căutare şi tehnicile lor de a determina importantă şi relevanta informaţiilor[1]. Următorii indici pot fi combinaţi în diferite moduri şi sunt folosiţi de motoarele de căutare datorită algoritmilor de căutare speciali[2].

Tabelul 3.1: Indicii de importantă

Similaritatea interogărilor

O interogare conduce procesul de crawling şi importanţa unei pagini este definită de similaritatea textuală între pagina şi interogare

Totalul hiperlegăturilor

Valoarea importanţei unei pagini este reprezentată de numărul de linkuri către această pagină care apare în întregul internet.

Rangul paginii

Acest indice defineşte importanţa unei pagini ca fiind suma valorilor linkurilor către aceasta pagină. De exemplu un link de le pagina Yahoo. Valorează mai mult decât un link de la o pagină a unei persoane.

Indicele de locaţie

Importanta paginii este reprezentată de locaţia sa nu de conţinutul ei. De exemplu URL-urile care se termină cu „.com” sunt considerate mai utile decât cele cu alte finaluri.

Sursa: Cho, Garcia-Molina, şi Page, 2008.

Acest tabel oferă o scurtă descriere a modului în care motoarele de căutare listează şi ierarhizează documentele şi cât de selectiv este acest proces. Aceasta nu este o reflexie obiectivă a internetului şi a documentelor sale. Acesta este unul din principalele motive pentru care paginile web nu sunt „egale”. Posibilitatea de a fi găsit de un motor de căutare sau de un utilizator este variază foarte mult. Dar a fi găsit pe internet este foarte important pentru a supravieţui economic. Din această cauză găsirea informaţiei şi încercările de a „păcăli” algoritmii de căutare au condus la o întrega „industrie a căutărilor” cu nenumărate unelte şi aplicaţii pentru a îmbunătăţii poziţia oferită de motorul de căutare. Vânzarea acestor poziţii agravează aceste probleme. Astăzi este o practică obişnuită cumpărarea unei poziţii în vârful ierarhizărilor generate de motoarele de căutare fără modificarea conţinutului[3] documentelor. Fiecare motor de căutare major pune la dispoziție un număr de oferte pentru astfel de poziții.

Datorită acestor chestiuni, interconectivitatea nu este doar o funcţiune tehnică, ci o unealtă strategică ce are consecinţe importante pentru accesul la informaţie, modurile de comunicare, şi forma conţinuturilor. Paginile Web sunt create şi planificate. Drept urmare, legătura cu o altă pagină este şi o decizie de comunicare, care dă mediului online o natură comunicativă specială[4]. Acest lucru pare să ducă la o piaţă de tipul „câştigătorul ia totul” sau la un fenomen de tipul „bogaţii se îmbogăţesc”, ceea ce însema că majoritatea traficului web are loc doar între câteva situri[5].

Efectele potenţiale ale clasificării conţinutului

În lumea întreagă au loc încercări pentru reglementarea accesului la internet şi pentru controlul conţinutului acestuia. Încercările de „cenzură de zi cu zi” care pot fi cauzate de industria mediului online şi clasificarea conţinutului acestuia sunt mai puţin palpabile.

Un sistem general pentru clasificarea conţinutului paginilor web este reprezentat de Platforma pentru Selecţia Conţinutului Internetului, dezvoltată de World Wide Web Consortium (http://www.w3.org). Aceasta a fost creată iniţial pentru a controla ceea ce accesează copiii pe internet. Creatorii de pagini web descriu conţinutul paginilor lor folosind categoriile de filtrare. (ex. Limbă, violență, nuditate şi conţinut sexual) ale PSCI şi îşi clasifica voluntar paginile cu sistemul de clasificare conform cu PSCI, care le asigura etichetarea conţinutului şi care sunt integrate în codurile HTML ale paginii. PSCI este deja încorporat în Netscape Navigator şi Microsoft Internet Explorer, şi este folosit de acestea în cazul în care este activat, când se citeşte descrierea paginii. Acest lucru permite filtrarea paginilor pentru e împiedica un utilizator web să vizualizeze anumite situri şi conţinuturi.

Dacă motoarele de căutare ar clasifica şi eticheta doar situri[6], utilizatorul aproape nu ar avea vreo şansă de a depăşi aceste măsuri. Şi mai important este faptul că sistemele de clasificare şi filtrare ar putea facilita cenzura guvernamentală. Anumiţi critici şi grupuri de cetăţeni privesc motoarele de căutare ca fiind „cea mai eficientă tehnologie de cenzură care a fost vreodată creată”[7] şi care duce la un mediu online care este mai reglementat şi mai mainstream.

Constrângerile economice

Distincţia dintre influenţele de natură economică şi cele de natură tehnologică asupra mediului online, nu poate fi decât una analitică din cauză că aceste procese relaţionează foarte mult şi adesea sunt integrate simultan. Dar, există nişte indicatori mai degrabă economici decât tehnologici, care ilustrează într-un sens de bază diviziunea digitală de nivel doi. Voi pune accentul pe exemple care leagă jurnalismul şi economia deoarece acest lucru reprezintă o conjuncţie logică a conţinutului şi afacerilor. Acest lucru afectează profesional jurnalismul şi impactul său asupra societăţii.

Sinergiile intermedia

Digitalizarea tuturor datelor a fost adesea definită că factorul declanşator pentru diferite forme de concentrare a media în termeni de procese tehnice, funcţionale, economice, de reglementare şi receptive[8]. Digitalizarea conţinutului reprezintă un interes economic ridicat pentru că oferă moduri adiţionale de distribuire a informaţiei şi noi forme de diversificare a produselor, lucru ce permite o abordare diferenţiată a grupurilor tintă aflate într-o segmentare crescândă[9].

Distribuirea adiţională a conţinutului prin intermediul mass mediei online, poate fi folosit pentru marketing intermedia pentru a ajunge la un public nou, şi pentru transferul de credibilitate[10] din „mediul mamă” corespondent către brandurile media online. Drept concluzie, această capacitate crescută pune presiuni asupra utilizărilor multiple ale conţinutului şi a altor resurse, care solicită simultan un grad ridicat de standardizare şi procesare. Cu toate acestea, punerea la dispoziţie pentru accesare prin intermediul reţelelor de calculatoare a întregului conţinut media nu a devenit încă obiectivul principal.

Conţinutul este pus la dispoziţie mai degrabă prin diferite tipuri de media. Drept urmare conţinutul este din nou rediferențiat, pentru a putea folosi diferitelor tipuri de strategii şi preferinţe ale utilizării media, şi pentru a transforma toate tipurile de media în surse de venit.

Aceasta convergenţă a diferitelor variante de media asigură supravieţuirea structurilor specifice şi aduce performanta anumitor tipuri de media. Producerea şi distribuirea produsului media poate pe termen lung poate avea doar o natură economică într-un astfel de proces de producţie sinergic.

„Legea lui Riepl”, frecvent citată în comunitatea ştiinţifică germană devine relevantă în acest context. Un nou tip de mediu tinde mai degrabă să complementeze decât să înlocuiască media tradiţională. Dar tipurile de media sunt convergente în termeni de organizare şi procese de producţie. Această presupunere constituie una dintre explicaţiile pentru faptul că media tradiţională nu dispare. Prin formarea conglomeratelor media, fuziunilor şi alianţelor între jucători şi ramuri care înainte nu aveau nicio legătură sunt create oferte şi concurența intermedia este compensata parţial prin concentrarea pe diagonală.

Pe măsură ce internetul evoluează într-un mediu de masă apar şi structuri similare în lumea off line. Actorii media care lucrează în dezvoltarea pieţei internetului sunt aceeaşi din lumea off line. Prin urmare, este inevitabil că distribuţia mass media să fie legată de factori economici şi de noţiuni de profitabilitate. În ciuda individualizării conţinutului media există o revalorizare limitată a publicului. Publicul este privit economic drept „grup țintă”, clienţii devenind parte din lanţuri de valoare adăugată.[11]

Aspecte tehnice

 

Internetul este o imensă bibliotecă. Deschizând browserul, putem afla informaţii despre aproape orice subiect. Trebuie numai să ştim unde să le găsim sau cum să le căutăm.

Sintagma motor de căutare defineşte atât motoarele de căutare automate, cât şi indexurile sau directoarele alcătuite de oameni.

Primele, cum ar fi HotBot sau Google, scrutează Internetul cu ajutorul unor programe speciale numite crawler-e sau spider-e, alcătuind în mod automat o arhivă de pagini care constituie obiectul căutării.

Directoarele, pe de altă parte, sunt create de oameni, nu de programe. Fie că proprietarii de pagini Web trimit o descriere a site-urilor, fie editorii trec în revistă site-urile, le evaluează şi le cataloghează.

Din ce în ce mai întâlnite astăzi sunt motoarele de căutare hibrid. Acestea îmbină cele două tipuri de motor de căutare. De obicei, un motor hibrid va favoriza una dintre cele două metode de listare a paginilor Web[12]. Spre exemplu, Yahoo funcţionează mai degrabă ca un index, deşi prezintă şi rezultate bazate pe scrutarea automată a Internetului.

Găsirea informaţiilor cu ajutorul motoarelor de căutare nu este un lucru atât de uşor precum ar părea. La prima vedere, lucrurile sunt simple. Însă simpla tastare a unui cuvânt-cheie nu ne garantează găsirea cu uşurinţă a informaţiilor pe care le dorim.

Să spunem că am dori să găsim, pe Internet, o definiţie a jurnalismului online. Introducând cuvintele „jurnalism online” în rubrica de căutare a motorului Google, am obţinut 208 listări – cu alte cuvinte, 208 pagini dintre cele scrutate de motorul de căutare în întreg Internetul au în

Componenţă cuvintele „jurnalism” şi „online”. Nota bene: nici una dintre primele 30 de pagini listate nu era despre jurnalism online, deşi câteva erau cotidiene sau alte periodice online.

Atunci când am tastat varianta în limba engleză a sintagmei, şi anume „online journalism”, Google a listat în jur de 441 de mii de pagini Web. O primă lecţie pe care o extragem de aici: trebuie să fim cât se poate de clari şi de precişi, dacă vrem să găsim ceea ce căutăm. Un pont: dacă puneţi fraza dorită între ghilimele, motorul de căutare va afişa numai paginile în care se găsesc cuvintele respective, grupate în formula dorită. Adică, dacă introducem jurnalism online, motorul va căuta toate paginile care au în componenţă cele două cuvinte; dar dacă scriem „jurnalism online”, motorul va găsi doar acele pagini care conţin sintagma jurnalism online ca atare. În cazul căutării noastre, serviciul Google a afişat doar două pagini, ambele nerelevante. După ce am pus şi varianta în limba engleză între ghilimele, numărul paginilor afişate s-a redus de la 441 de mii la doar 17.600, o cifră încă mult prea mare. Aşa că am tastat „definition of online journalism”. Motorul de căutare a găsit opt pagini considerate relevante, dintre care una, aparţinând unui jurnalist online independent, conţinea următoarea definiţie: Jurnalismul online este utilizarea Internetului ca mediu pentru jurnalism.

Dacă doriţi să fiţi siguri că motorul de căutare va afişa pagini conţinând toţi termenii pe care i-aţi specificat, puteţi folosi semnul +. De exemplu, dacă doriţi informaţii despre Victor Ponta şi Traian Băsescu în aceeaşi pagină, scrieţi + ponta + băsescu. Anumite motoare de căutare, printre care şi Google, afişează paginile conţinând toate elementele căutate fără să fie nevoie de tastarea semnului +, însă altele afişează toate paginile ce au în componenţă unul dintre cuvintele specificate.

Se poate întâmpla să doriţi să obţineţi doar acele pagini care menţionează numele lui Victor Ponta, dar nu şi pe cel al lui Traian Băsescu. În acest caz, puteţi folosi semnul astfel: ponta – băsescu. Aceasta va indica motorului de căutare să elimine toate paginile care menţionează şi numele Băsescu.

Ghilimelele şi semnele + şi – pot fi folosite şi în combinaţie. Spre exemplu, casă fiţi siguri că motorul de căutare va găsi doar paginile cu Victor Ponta şi Traian Băsescu, nu şi cele cu Vladimir Ponta şi Ioana Băsescu, puteţi scrie, în rubrica destinată căutării, + „vicotr  ponta” + „traian băsescu”. Dacă sunteţi în căutarea unui articol despre artiştii Dan Bitman şi Cristi Minculescu, care să nu facă referire şi la formaţiile în care cântă cei doi, puteţi tasta: + bitman – holograf + minculescu – iris.

Criterii de căutare şi afişare a rezultatelor

Există şi alte facilităţi de căutare, diferite de la un motor de căutare la altul. Un site extrem de util, care explică pe larg modul în care funcţionează diferitele indexuri şi motoare de căutare, este http:// searchenginewatch.com.

Există sute de indexuri şi motoare de căutare pe Internet. Fiecare motor foloseşte un algoritm propriu de căutare şi listare a păgânilor. Aceasta înseamnă că tastarea aceluiaşi termen în două motoare de căutare diferite va avea, probabil, rezultate diferite. Foarte importantă este ierarhizarea paginilor: cele considerate a fi cele mai relevante pentru căutare vor fi afişate în capul listei. Însă unele motoare calculează relevanţa, spre exemplu, numărând de câte ori apare termenul căutat în textul paginii, altele iau în consideraţie numărul de linkuri către pagina respectivă, iar altele iau ca referinţă numărul de linkuri dinspre pagina afişată spre altele.

În ultimul timp, odată cu adâncirea crizei industriei Internet, din ce în ce mai multe motoare mari de căutare au început să afişeze în capul listei acele site-uri care îşi cumpără această favoare. Această practică face ca relevanţa rezultatelor căutării să fie pusă sub semnul întrebării. În octombrie 2012[13] singurul motor important de căutare care nu practică acest lucru era Google. Alte motoare de căutare importante sunt Yahoo, Lycos, Excite, AltaVista, HotBot, GoTo, Ask Jeeves etc.


[1] Junghoo Cho, Hector Garcia-Molina, and Lawrence Page, 2008. „Efficient crawling through URL ordering,” Proceedings of the Seventh International World Wide Web Conference, Brisbane, at http://www7.scu.edu.au/programme/fullpapers/1919/com1919.htm, accesat la 19.12.2012

[2] Mai multe detalii la adresa: http://www.searchenginewatch.com/webmasters/work.html și la adresa: http://www.searchenginewatch.com/webmasters/rank.html, accesat pe 17.12.2012.

[3] Marti Hearst, 2009, „When information technology ‘goes social’,” IEEE Intelligent Systems (January/February), pp. 10-15.

[4] Michele H. Jackson, 2007. „Assessing the Structure of Communication on the World Wide Web,” Journal of Computer-Mediated Communication, volume 3, at http://www.ascusc.org/jcmc/ vol3/issue1/jackson.html#abstract, accesat în data de 19.12.2012.

[5] Lada A. Adamic and Bernardo A. Huberman, 2010. „The Nature of markets in the World Wide Web,” Quarterly Journal of Electronic Commerce, volume 1, pp. 5-12

[6] Alexander Gruhler, 2008. „PICS – eine moderne Version der Zensur? Das technische Konzept eines umstrittenen Kontrollinstruments und seine Auswirkungen auf die Netzwelt,” Telepolis, at http://www.heise.de/tp/deutsch/inhalt/te/1464/1.html, accesat în 20.12.2012.

[7] Simson Garfinkel at http://hotwired.lycos.com/packet/garfinkel/97/05/index2a.html, accesat în 22.12.2012.

[8] Gabriele Siegert, 2011. Medien Marken Management: Relevanz, Spezifika und Implikationen einer medienökonomischen Profilierungsstrategie. München: Fischer Verlag.

[9] Jürgen Heinrich, 1999. Medienöl. Opladen: Westdeutscher Verlag.

[10] Bertram Scheufele, 2009. „Mediendiskurs, Medienpräsenz und das World Wide Web: Wie ‘traditionelle’ Medien die Einschätzung der Glaubwürdigkeit und andere Vorstellungen von World Wide Web und Online-Kommunikation prägen können,” în: Patrick Rössler (editor). Glaubwürdigkeit im Internet: Fragestellungen, Modelle, empirische Befunde. München: Fischer Verlag, pp. 68-88.

[11] Mihai Coman, Manual de jurnalism, ed. Polirom, București, 2009, p. 453.

[12] Mihai Coman, Manual de jurnalism, ed. Polirom, București, 2009, p. 454.