cliw 2015-2016 (6/13) (re)găsirea resurselor web. de la motoare de căutare și seo la date...

198
Dr. Sabin Buragawww.purl.org/net/busaco Dezvoltarea aplicațiilor Web la nivel de client (re)găsirea resurselor Web de la motoare de căutare și SEO la date structurate

Upload: sabin-buraga

Post on 20-Mar-2017

533 views

Category:

Software


1 download

TRANSCRIPT

Page 1: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Dezvoltarea aplicațiilor Webla nivel de client

(re)găsirea resurselor Web

de la motoare de căutare și SEO la date structurate

Page 2: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

“A well-defined problem is half solved.”

Michael Osborne

Page 3: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Cum prezentăm conținutulaltor clienți – diferiți de cei umani?

Page 4: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Am putea recurge la extragerea automatăa datelor expuse pe Web?

Page 5: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Roboți

programe ce traversează automat Web-ul,cu scopul de a extrage date

spiders, crawlers, Web bots

Page 6: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Roboți

programe ce traversează automat Web-ul,cu scopul de a extrage date

robot Web navigator Web

Page 7: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Roboți

pornind de la un URI, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumite

acțiuni privitoare la reprezentarea unei resurse și,recursiv, din toate documentele desemnate de

legăturile existente în cadrul reprezentării

Page 8: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Roboți

pornind de la un URI, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumite

acțiuni privitoare la reprezentarea unei resurse și,recursiv, din toate documentele desemnate de

legăturile existente în cadrul reprezentării

acțiuni: extragere, copiere, sumarizare,agregare de conținut, monitorizare etc.

Page 9: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: pericole

Operarea în foc rapid (rapid-fire)

trafic de rețea

supraîncărcarea serverelor Webdenial of service

Page 10: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: pericole

Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare

Page 11: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: pericole

Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare

necesitatea specificării timpului de revizitare a situluide către robotul Web

<meta name="Revisit-After" content="30 Days" />

Page 12: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: pericole

Exploatarea (ne)controlată de către utilizatori

atacuri „brute”

Page 13: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: pericole

Intrarea în „găurile negre”

Page 14: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: pericole

Accesarea unor date nerelevante

Page 15: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

uzual, va fi folosit câmpul User-Agent

din antetul unei cereri HTTP

Page 16: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

19539 de roboți Web – statistica din 2013Alexa (7004), Bing/MSN (100), Facebook (60),

Googlebot (6085), Twitter (84) + neidentificați (374730) conform www.botsvsbrowsers.com

search engines51%

scrapers8%

hacking tools7%

spammers1%

others33%

Page 17: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

roboți personali(e.g., motoare experimentale, software de oglindire)

BackRub (pre-Google)wget – http://www.gnu.org/software/wget/

etc.

Page 18: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

roboți ai motoarelor de căutare majore

Baiduspider – www.baidu.com/search/spider.html

bingbot – www.bing.com/bingbot.htm

Googlebot – www.google.com/bot.html

Slurp – http://help.yahoo.com/help/us/ysearch/slurp

YandexBot – yandex.com/bots

Page 19: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

roboți specializați(e.g., validarea codului HTML, scurtarea lungimii

URL-urilor, scanare de vulnerabilități, statistici,…)

exemplificări: citeseerxbot,Page2RSS, extensii Nagios, W3C Validator

Page 20: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

66.249.65.173 - - [09/Nov/2015:11:26:31 +0200] "GET /~introp/ HTTP/1.1" 304 - "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

93.158.178.188 - - [09/Nov/2015:11:25:08 +0200] "GET /~adria/...pdf HTTP/1.1" 200 198738 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

66.249.65.70 - - [09/Nov/2015:11:22:06 +0200] "GET /~busaco/teach/courses/cliw/ HTTP/1.1" 200 2120 "-" "Mozilla/5.0 (iPhone; …Safari/600.1.4 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

180.76.5.101 - - [09/Nov/2015:11:22:02 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

98.137.206.250 - - [09/Nov/2015:11:21:07 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"

157.55.39.73 - - [09/Nov/2015:11:20:43 +0200] "GET /~webdata/…/OCT.pdf HTTP/1.1" 403220 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

208.115.111.71 - - [09/Nov/2015:11:20:42 +0200] "GET /%7Eorar/ HTTP/1.1" 200 12705 "-" "Mozilla/5.0 (DotBot/1.1; http://www.opensiteexplorer.org/dotbot, [email protected])"

63.249.66.212 - - [09/Nov/2015:11:14:55 +0200] "GET /~croitoru/ag/ HTTP/1.1" 200 2575 "-" "Mozilla/4.0 (compatible; MSIE 6.0; http://www.changedetection.com/bot.html)"

66.249.65.70 - - [09/Nov/2015:11:12:47 +0200] "GET /~busaco/paint/leaf/leaf-9.jpg HTTP/1.1" 304 - "-" "Googlebot-Image/1.0"

157.55.39.177 - - [09/Nov/2015:11:11:53 +0200] "GET /~lrc/ HTTP/1.1" 200 1914 "-" "msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)"

136.243.9.23 - - [09/Nov/2015:09:40:35 +0200] "GET /~busaco/ HTTP/1.0" 200 1907 "-" "Mozilla/5.0 (… James BOT - WebCrawler http://cognitiveseo.com/bot.html"

cereri HTTP efectuate de diverși roboți Web(menționate în fișierul de jurnalizare Apache)

Page 21: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Cum putem „instrui” roboții Websă nu viziteze anumite zone ale sitului?

Page 22: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Orice robot trebuie să respectestandardul de excludere

Page 23: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Orice robot trebuie să respectestandardul de excludere

fișierul robots.txt

http://www.robotstxt.org/robotstxt.html

Page 24: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Orice robot trebuie să respectestandardul de excludere

fișierul robots.txt

# /robots.txt pentru http://www.info.uaic.ro User-agent: * # toți roboții Crawl-delay: 20 # 20 sec. între cereriDisallow: /tmp/ # date temporareDisallow: /xwiki/bin/xmlrpc/ # director privat

Page 25: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

de studiat câteva exemple reale de fișiere robots.txt:http://www.amazon.com/robots.txt

http://facebook.com/robots.txt

http://www.emag.ro/robots.txt

http://www.google.com/robots.txt

User-agent: *

Disallow: /user/*

Disallow: /addtocart*

Disallow: /proces_comanda

Disallow: /cart$

Disallow: /checkout

Disallow: /imagini/*

Disallow: /images/*

Disallow: /compare/*

Disallow: /mesaje

Disallow: /cat-*/pid-*/ord-*/p-*

Disallow: /adauga-review

Disallow: /adauga-intrebare

Disallow: /header-cart

Disallow: /header-wl

Disallow: /product_get_recommandations/*

Disallow: /widgets/track.json

Disallow: /get_back_to_search_url

Disallow: /search-tools/*

Disallow: /ajax_live_products

Disallow: /box_user_history

Disallow: /gr_box_bottom_landing/*

Disallow: /site_ajax_ads

User-agent: 008

Disallow: /

Page 26: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Orice robot trebuie să respectestandardul de excludere

evitarea indexării conținutului:

<meta name="robots" content="noindex, nofollow" />

Page 27: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Ce activități realizează un motor de căutare?

Page 28: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Scop:localizarea resurselor existente pe Web

Page 29: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Tipuri de căutări – maniera tradițională:

pe bază de indecși (crawling & indexing)

Lycos – 1994AltaVista – 1995

Page 30: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Tipuri de căutări – maniera tradițională:

pe baza ierarhiilor de termeni(servicii de tip catalog – topic directory, taxonomii)

Yahoo! – Yet Another Hierarchical Officious Oracle1994

Page 31: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Tipuri de căutări – maniera tradițională:

hibrideindecși + taxonomiiportal Web

Excite – 1994

Page 32: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Tipuri de căutări – maniera tradițională:

pe baza legăturilor hipertext(hyperlink analysis)

Google – 1996

Page 33: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Tipuri de căutări – maniera modernă:

pe baza datelor structurate(determinare și extragere de meta-date și concepte)

Microsoft Satori Entity EngineGoogle Knowledge Graph/Vault

Page 34: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Un motor de căutare trebuie să satisfacănevoia de informații a utilizatorului

(user information-seeking)

Page 35: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Preluarea + indexarea resurselor se pot realiza:

automat – via roboți Webmanual – recurgând la experți umani

hibrid

Page 36: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Preluarea și indexarea resurselor

strategii:natura datelor/relațiilor (data/relation mining)

detectarea subiectului conținutului (topic distillation)

meta-date – date descriind date (e.g., doar însemnări ca replici la alte mesaje)

căutare socială (tag-uri, anturaj, aplicații Web sociale)

context (e.g., localizare geografică, timp, dispozitiv)

profil al utilizatorului (e.g., istoric al căutărilor, preferințe lingvistice)

Page 37: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Caracteristici ale unui motor de căutare ideal

scop

căutarea oricărei resurse existente

Page 38: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Caracteristici ale unui motor de căutare ideal

viteză

rezultatele să fie disponibile imediat

direcție de interes major: real-time Web search

Page 39: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Caracteristici ale unui motor de căutare ideal

disponibilitate

actualizarea permanentă(orice modificare să fie indexată „instantaneu”)

Page 40: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Caracteristici ale unui motor de căutare ideal

recall

găsirea tuturor resurselor relevantepentru o cerere dată

Page 41: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Caracteristici ale unui motor de căutare ideal

precizie

rezultatul conține doar documente relevante

Page 42: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Caracteristici ale unui motor de căutare ideal

ranking

cele mai relevante documentesunt plasate primele

Page 43: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Care sunt principalele componenteale unui motor de căutare?

Page 44: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Robot Webextrage informații

Index (catalog)stochează – în mod persistent – (meta)date

despre resursele existente pe Web

Mecanism de evaluare (ranking)pe baza cererii utilizatorului, oferă răspunsuri

Page 45: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Diferențele dintre motoarele de căutare actualesunt date de fiecare componentă în parte

Page 46: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

structura generică a unui motor de căutare(Chakrabarti, 2003)

Page 47: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Activitatea generală a unui robot (crawler) simplu:

F = mulțimea de URL-uri de start (frontiera)cât-timp F este nevidăextrage un URL u din Fpreia pagina (resursa Web) p cu adresa udacă p este relevantăstochează p în indexpentru-fiecare legătură v din p

dacă v nu este în index și v nu aparține lui Fși v ar putea fi vizitată

adaugă v la F

Page 48: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Bazată pe învățare

data mining

(de exemplu, reinforcement learning)

vezi materia „Învățare automată”

Page 49: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Conținutul ce trebuie indexat nu e doar textual

hiper-informația:INFORMATION = HYPERINFO + TEXTINFO

dependența de legături

ordonarea legăturilor(alegerea unor criterii vizând importanța)

Page 50: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Robotul/motorul de căutare decide momentulrevizitării resursei care urmează a fi reindexată

sau doar verificată

Page 51: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Aspect de interes:

rezoluția adreselor Web(nume de domeniiadrese IP)

DNS caching, pre-fetching & resolution

Page 52: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Aspect de interes:

realizarea cererilor concurente

Page 53: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Aspect de interes:

extragerea legăturilor

e.g., normalizarea URI-urilor:www.InfoIasi.Ro:80www.info.uaic.ro

Page 54: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Aspect de interes:

eliminarea adreselor deja vizitate

evitarea „găurilor negre”

Page 55: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Aspect de interes:

monitorizarea accesărilor

load monitoring + managing(evitarea supra-solicitării serverelor Web)

Page 56: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Aspect de interes:

strategii de revizitare/reîmprospătarea conținutului resurselor Web

Page 57: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

optimizarea regăsirii

Page 58: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

optimizarea regăsirii

modele non-relaționale de stocare – „mișcarea” NoSQL

printre primele abordări: BigTable (Chang et al., 2006)http://labs.google.com/papers/bigtable.html

Page 59: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

arhivarea datelor indexate

e.g., recurgerea la algoritmul de compresie bzip2(cazul Google)

Page 60: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Cum se realizează indexarea?

Page 61: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: indexarea

Utilizarea nu doar a datelor propriu-zise(conținutului textual), ci și a meta-datelor

e.g., limbă, cuvinte-cheie, autor, format,data ultimei actualizări,…

Page 62: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: indexarea

Indexare bazată pe cuvinte-cheierelevanță, plasament, meta-date,

data mining, procesarea limbajului natural,...

versus

indexare semantică – bazată pe conceptesocial tagging (folksonomy),

microformate, microdate HTML5, Web semantic (RDF, RDFa),...

Page 63: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: indexarea

O importanță mare o au: maniera de structurare a informației și„relația” unei pagini cu altele înrudite

Page 64: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Cererile sunt formulate via o interfață Web

Page 65: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Cererile sunt formulate via o interfață Web

unele motoare de căutare acceptăfolosirea unor operatori specifici

Page 66: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Cererile sunt formulate via o interfață Web

exemplificare: o parte dintre operatorii Google

"expresie" ~termen –termen

numar1 .. numar2 related: URL cache: URL

intitle: termen(i) intext: termen(i) inurl: termen(i)

link: URL site: domeniu info: domeniu

define: termen filetype: extensie unit1 in unit2

detalii la www.googleguide.com/advanced_operators_reference.html

Page 67: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

digital camera $700 .. 1400

~book

intitle:design –intitle:web

"burse de merit"

site:uaic.ro

inurl: art nouveau

allinurl: js library

16 cm in inch

related:www.w3.org

js mvc inanchor:slideshare

define:design

cache:http://devdocs.io/

map:predeal

firefox filetype:svg OR filetype:png

Page 68: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Interogările din prisma utilizatorului:

grad mare de subiectivitate

e.g., “miserable failure”

Page 69: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Interogările din prisma utilizatorului:

depind de contextul social/cultural

exemple:“pants” în UK versus US

“madonna and child”

Page 70: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Interogările din prisma utilizatorului:

dependente de scop

informațional (listă, locație, sfat)

navigațional

vizând accesarea resurselor(download, amuzament, interactivitate,…)

Page 71: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Remarci:

utilizatorii obișnuiți nu înțeleg limbajul logic – „booleana”

exemplu:“hotels located in Bucharest and Iasi”

Page 72: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Remarci:

interogările uzual sunt scurte (media: 2,6 cuvinte),dar focalizate – e.g., 25% pe business (conform Yahoo!)

vezi și http://labs.yahoo.com/publication/?area=web-mining-search

Page 73: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Remarci:

apar confuzii:URI vs. text,

lipsa spațiilor,vocabular

etc.

Page 74: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Remarci:

implicit, termenii de căutare trebuie să se regăseascăidentic în cadrul conținutului unui document Web

e.g., căutând “children”, nu vom obține neapărat și paginile care includ “kids”

motoare: interogarea

Page 75: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Interogări formulate în limbaj natural:

eliminarea ambiguităților (dezambiguizarea)

filtrarea cuvintelor nerelevante

expandarea interogării: sinonime, forme derivate,…

Page 76: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Evaluarea cererii – schema generală:1. Analizarea interogării (tokenizing)2. Căutarea în indecșii termenilor3. Scanarea documentelor4. Evaluarea relevanței paginilor5. Eliminarea duplicatelor + sortarea6. Afișarea primelor N documente relevante

(URI + alte informații)

Page 77: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Conținutul fiecărui document extraseste analizat și divizat în token-uri

Page 78: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Unele construcții se ignoră/constrâng

e.g., “the”, “is”/“are”/“were” → “be”, “running” → “run”

procesare de bază a conținutului textual

Page 79: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Fiecărui token i se reține și poziția aparițieiîn document

poziția poate fi folosităla determinarea relevanței termenului

Page 80: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Criterii vizând calculul relevanței:

ranking bazat pe clasificare umană

resurse clasificate de oameni

Page 81: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Criterii vizând calculul relevanței:

ranking bazat pe informații privitoarela utilizarea unei resurse

timpul de vizită, periodicitatea vizitei,frecvența actualizării resursei, importanța relativă etc.

Page 82: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Criterii vizând calculul relevanței:

ranking bazat pe conectivitate

analiza relațiilor (legăturilor hipertext) cu alte pagini

eventual, în funcție de reputațiee.g., importanța domeniului Internet

(sunt luați în calcul factori ca vechimea, localizarea,…)

Page 83: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Calculul relevanței:

tehnici privind IR (Information Retrieval)

căutări bazate pe similaritate – similarity search

recurgând la învățare automată (machine learning)

clasificarea conținutului hipermedia

social network analysis – bibliometrie, prestigiu,…

Page 84: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Page Rank (Google)

evaluarea relevanței pe baza contextului de apariție

Page 85: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogareaPage Rank (Google)

exploatarea relațiilor dintre diferite pagini Web

www.google.com/insidesearch/howsearchworks/algorithms.html

Page 86: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Page Rank (Google)

recurgerea la tehnici adaptive, euristice

Page 87: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Page Rank (Google)

determinarea corelației dintre relevanța calculatăautomat de sistem și cea precizată (in)direct

de către utilizator

Page 88: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Page Rank (Google)(Larry Page & Sergey Brin, 1996 – doctorat la Stanford)

se baza inițial pe structura hipertext

o legătură de la pagina A la B reprezintăun vot dat paginii B de către A

cu cât un sit este mai important,cu atât page rank-ul asociat lui e mai mare

Page 89: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Alternative la Page Rank:

TrustRank (Friesen, 2007)

folosește domenii Web de încredere selectate de oameni

Page 90: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Alternative la Page Rank:

TrustRank (Friesen, 2007)

cu cât un sit e mai aproape (în termeni de legături Web)de siturile evaluate și considerate de încredere

de către oameni, cu atât va avea o importanță mai mare

vizează un sit (domeniu), nu o pagină Web

Page 91: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Alternative la Page Rank:

utilizarea tehnologiilor Web-ului semantic

se iau în considerație concepte (cunoștințe), nu cuvinte“things, not strings”

de vizionat prezentarea M. Lanthaler, “The Future of the Web– From Strings to Things” (2015) – https://vimeo.com/133137907

Page 92: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

timp strategie

înainte de 2000

conținut – indexarea textului(titlu, anteturi, URL, descriere via <meta>)

2000—2010conținutautoritate (via legături)

2010—prezent

conținutautoritatepersonalizare (social media + profil utiliz.)

2012—prezent

conținutautoritatepersonalizareconcepte (date-structurate + Web of data)context (localizare, timp, dispozitiv,…)

adaptare după (K. Bodnar & J. Hopkins, 2011)a se studia și www.slideshare.net/randfish/presentations

Page 93: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

generale Bing, DuckDuckGo, Google, Yahoo!, Volunia,…

regionaleBaidu (China), Daum (Coreea), Goo (Japonia),

Guruji (India), Rambler (Rusia) etc.

meta-căutare Dogpile, Excite, Mamma, Yippy

enterprise search Apache Solr, ElasticSearch, OpenSearchServer,…

răspunsuri(answer-based)

umane: Stack Overflow, Yahoo! Answers, Quora

automate: AskMeNow, Evi, Wolfram Alpha

news search BingNews, Daylife, Topix, Yahoo! News,…

hărți (maps) Nokia HERE, OpenStreetMap, WikiMapia etc.

cod-sursă Google Code Search, Koders, Krugle

căutare pe baza P2P FAROO, Seeks, YaCy

desktop search DocFetcher, Recoll, Tropes Zoom

pentru dezvoltatori: Apache Lucene, Apache Nutch, mnoGoSearch, Namazu, Xapian,…

API-uri: www.programmableweb.com/category/search

Page 94: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Motoarele tind să „recompenseze” siturile:

de mari dimensiuni

cu viață lungă

specializate, de „nișă”

aparținând unor autorități de încredere

motoare: interogarea

Page 95: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

SERP (Search Engine Result Page)

specifică maniera de redare a rezultateloroferite de motorul de căutare

motoare: afișarea rezultatelor

Page 96: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

SERP (Search Engine Result Page)

se includ recomandări pe baza:preferințelor utilizatorului

istoricului căutărilorURL-urilor partajate via rețele sociale

meta-datelor (rich snippets)adnotărilor realizate de utilizatorilocalizării geografice (local search)

motoare: afișarea rezultatelor

Page 97: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

“At any one time you rank #1 or #8 or #40based on who is searching, where they search,

and what is happening.”

K. Bodnar & J. Hopkins, 2011

Page 98: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

(în loc de) pauză

Page 99: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Cum putem proiectamijloacele de căutare internă?

Page 100: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Motor de căutare internă (la nivel de sit)

oferirea de sugestii utilizatorului

e.g., spelling suggestions,sinonime (car → automobile, truck,…)

Page 101: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Motor de căutare internă (la nivel de sit)

sugestii de soluții

de exemplu, răspunsuri la cele mai frecvente întrebări

Page 102: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Motor de căutare internă (la nivel de sit)

îmbunătățirea interacțiunii – utilizabilitatea

integrarea în designul general al sitului

tactici: oferirea unui următor pas de realizat(mai ales când nu există rezultate),

sugestii privind căutarea, exemple, rafinarea cererii etc.

Page 103: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Motor de căutare internă (la nivel de sit)

în pagina de redare a rezultatelor, va fi afișată șiinterogarea inițială, cu posibilitatea modificării ei

oferirea a cel puțin N rezultate/pagină +indicarea numărului total de pagini de rezultate

sau încărcarea progresivă a următoarelor rezultate

Page 104: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Motor de căutare internă (la nivel de sit)

calitatea rezultatelor oferite e dependentăși de modul de structurare a datelor

fiecare rezultat să includă informații utilefolosirea unui vocabular înțeles de către vizitator,

utilizarea unor tehnici de vizualizare intuitivă,facilitarea filtrării și sortării datelor etc.

Page 105: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Page 106: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Motor de căutare internă (la nivel de sit)

utilizatorul să aibă libertatea de a efectuaoricând o nouă interogare

evitarea „fundăturilor” – oferirea de ajutor, sugestii,…

Page 107: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Cum trebuie scris codul HTMLpentru a obține o relevanță bună a conținutului?

Page 108: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

SEO – Search Engine Optimization

suită de strategii de redactare a codului HTMLîn vederea obținerii unei relevanțe ridicate

a conținutului, astfel încât pagina/situl să fieregăsite în urma unei căutări specifice efectuate

cu un instrument de căutare

Page 109: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea codului-sursă a documentelor Web

Structurarea conținutului

Structurarea legăturilor cu alte pagini

Page 110: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea codului-sursă – SEO la nivel de pagină

documentul trebuie să fie bine-formatat

Page 111: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea codului-sursă – SEO la nivel de pagină

includerea de meta-date:în antet – elementul <meta />

conținut textual alternativ pentru imagini(<img alt="..." />), multimedia, legături (<a title="...">),

tabele (<table summary="...">) etc.

atașarea de meta-date externe via elementul <link />

Page 112: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea codului-sursă – SEO la nivel de pagină

a nu se folosi:cadre (frame-uri)

sauelemente învechite sau proprietare

(e.g., <blink> ori <marquee>)

Page 113: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea codului-sursă – SEO la nivel de pagină

conținutul primează (“content is king”)

alegerea judicioasă a cuvintelor-cheie în <meta>

criterii: relevanță, densitate, internaționalizare

o importanță majoră o are titlul paginii

Page 114: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea codului-sursă – SEO la nivel de pagină

situl trebuie actualizat periodic, frecvent

un criteriu important: timpul de încărcare

despre performanțaaplicațiilor Web

într-un curs viitor

Page 115: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea conținutului

codul trebuie structurat conform semnificației logicePOSH (Plain Old Semantic HTML)

Page 116: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea conținutului

conținutul relavant trebuie plasat ierarhicvia <h1>, <h2>,...

pentru HTML5, de utilizat noile elementevizând structura: <article>, <header>, <footer>, <nav> etc.

layout bazat pe CSS și nu pe marcaje tabelare

Page 117: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea conținutului

conținuturile multimedia binaretrebuie să aibă alternative textuale

anumite date pot fi „ascunse” de roboți via robots.txt

Page 118: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea conținutului

numele fișierelor (imagini, stiluri,…) contează

human friendly URLs

Page 119: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea legăturilor – SEO la nivel de sit

obligatoriu, de inclus legături spre alte pagini(ale sitului ori ale altor situri)

Page 120: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea legăturilor – SEO la nivel de sit

dorim legături spre/de la situri importanteavând conținut similar cu situl nostru

tehnici clasice (considerate „demodate”):interschimb de link-uri – banner-e, blogroll-uri,

marketing bazat pe context

Page 121: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea legăturilor – SEO la nivel de sit

dorim legături spre/de la situri importanteavând conținut similar cu situl nostru

recurgerea la aplicații Web sociale

SMO (Social Media Optimization)

Page 122: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea legăturilor – SEO la nivel de sit

de verificat și menținut structura hipertext!

Page 123: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea legăturilor – SEO la nivel de sit

a se evita spam-ul

e.g., legături încrucișate între pagini similareale aceluiași sit Web ori ale unei colecții de situri

Motoarele de căutare detectează + penalizează spam-ul!http://searchenginewatch.com/search?query=spam

Page 124: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Utilizarea elementului <meta>

descrierea paginii – description

cuvintele-cheie – keywords

controlul roboților Web – robots

alte informații de interes:tipul conținutului, relația cu alte pagini,…

seo: strategii

Page 125: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Paginile de „acoperire” (page cloaking)

scop: oferirea de conținut diferit,în funcție de un anumit criteriu

(aici, conținut special pentru roboții de căutare)

seo: strategii

Page 126: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

black-hat page cloakingtehnică penalizată de Google: http://youtu.be/QHtnfOgp65Q

seo: strategii

Page 127: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

„Estetica” URL-urilor

distincția dintre conținutul static și cel dinamic(componenta query_string de la finalul unui URL)

detectarea simbolurilor “?” și “&” doc.php?var=sda4312&var2=643f545342

seo: strategii

Page 128: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

„Estetica” URL-urilor

indexarea conținutului dinamic poate fi limitatăori poate fi realizată mult mai lent

numele variabilelor transmise via GET trebuie să aibă o anumită semnificație

seo: strategii

Page 129: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

„Estetica” URL-urilor

evitarea numerelor de sesiune (SID) din URL

uzual, roboții ignoră cookie-urile

seo: strategii

Page 130: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

„Estetica” URL-urilor

evitarea numerelor de sesiune (SID) din URL

la nivel de server Web, se poate activa rescriereaURL-urilor – e.g., utilizarea mod_rewrite la Apache

la nivel de server de aplicații, inhibarea transferuluiSID-ului prin URL (PHP: php_flag sesssion.use_trans_sid off)

seo: strategii

Page 131: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

„Estetica” URL-urilor

„mascarea” URL-urilor oferind conținut dinamic

exemplificare:www.penguin.info/species/tux.html – pare static

www.penguin.info/species.php?type=tux – în realitate

seo: strategii

Page 132: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Rezultatul returnat clientului

de evitat paginile de eroare – e.g., 404

orice pagină de eroare poate fi convertităîntr-o resursă folositoare omului/robotului

exemple: harta sitului, legături relevante,…

seo: strategii

Page 133: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Rezultatul returnat clientului

se folosesc facilitățile oferite de serverul Webpentru specificarea de pagini proprii de eroare

e.g., directiva ErrorDocument la Apache

seo: strategii

Page 134: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Navigarea bazată pe interacțiunea cu utilizatorul

legături spre alte resurse realizate exclusiv via Javascriptori – mai desuet – cu Flash sau Silverlight

<p>informații despre burse <a href="javascript:sari(1);">aici</a></p>

de evitat

greșit!

Page 135: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Oferirea de conținut via documenteadoptând formate de date nestandardizate

de evitat

Page 136: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Titluri identice pentru toate paginile unui sit

de evitat

Page 137: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Pagini de eroare care sunt oferite de servervia codul de stare HTTP 200 Ok

de evitat

Page 138: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Redirecționări incorecte și/sau abuzive

de evitat

Page 139: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Ignorarea utilizatorilor cu nevoi speciale

web accessibility

http://webaim.org/

de evitat

Page 140: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Abuzul de transferuri asincrone prin Ajax

de evitat

Page 141: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Crearea documentului sitemap.xml

pentru a-l expedia la Google Sitemaps

complementar fișierului robots.txt

furnizează structura hipertext a unui sit Web

formate acceptate: text obișnuit, XML, RSS, Atom

detalii la http://sitemaps.org/

seo: instrumente

Page 142: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Resurse de interes:

Google Webmaster Centralhttps://developers.google.com/webmasters/

Learn SEO and Search Marketinghttps://moz.com/learn/seo

Search Engine Landhttp://searchengineland.com/

Search Engine Watchhttp://searchenginewatch.com/

Search Engines @ VideoLectureshttp://videolectures.net/Top/Computer_Science/Search_Engines

Page 143: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Invisible Web (Deep Web)

acea parte a spațiului World Wide Webcare nu este detectată de motoarele de căutare saude alte tipuri de aplicații de regăsire a resurselor

disponibile pe Web

Page 144: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Cum am putea descrie conținutul resurselor Webastfel încât să poată fi procesat „inteligent”?

Page 145: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Idee:specificarea unor meta-date (date privind datele)

direct în cadrul documentelor HTML

Page 146: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Idee:specificarea unor meta-date (date privind datele)

direct în cadrul documentelor HTML

microformatescheme de microdate HTML5

RDFa

la master

Page 147: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate(Tantek Çelik & Kevin Marks, 2004)

www.microformats.org

Page 148: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate

utilizarea de marcaje (X)HTML pentru a desemnasemantica și/sau structura conținutului

„curentul” POSH (Plain Old Semantic HTML)

Page 149: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate

reutilizarea unor vocabulare de termeni,disponibile liber și standardizate

Page 150: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate

reutilizarea unor vocabulare de termeni,disponibile liber și standardizate

realizarea de adnotări semantice direct în HTMLși alte limbaje similare

prelucrare mai facilă a reprezentărilor resurselor

Page 151: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

marcaje HTML (<div>, <span>)pentru specificarea datelor &structurii lor

„clase” CSS pentru prezentareși asocierea de descrieriale meta-datelor

structurareapaginilor Web:

precizareaînțelesului

(semanticii)conținutului

Page 152: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate

elementare – desemnează o caracteristică unică+

compuse – specifică mai multe proprietățicare modelează un aspect de interes

– e.g., un concept (entitate): persoană, eveniment,…

Page 153: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

rel-tag

asociază unei legături hipertext un termen (tag)– cuvânt-cheie ori subiect – ales liber de autor

(tagging content)

Page 154: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

rel-tag

<p>Tutorial despre <a href="http://www.slideshare.net/tag/web"

rel="tag">www</a>.</p>

<p>Expertiză: <a href="http://en.wikipedia.com/wiki/Unix"

rel="tag" class="skill">UNIX</a>.</p>

<a href="http://flickr.com/photos/tags/Penguin" rel="tag">

<img src="tux.jpg" alt="Foto cu un pinguin" /></a>

Page 155: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

XFN (XHTML Friend Network)

relații între „prieteni”: colaboratori, rude, cunoscuți,…

<a href="http://www.infoiasi.ro/~dlucanu/"

rel="met, colleague, co-worker, neighbor">

Dorel Lucanu</a>

Page 156: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

recurgerea la XFN în cadrul sistemului WordPress

Page 157: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

hCalendar

desemnează evenimente și orare

vezi formatul iCalendar – RFC 5545https://tools.ietf.org/html/rfc5545

Page 158: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

hCalendar

<div class="vevent">

<a class="url" href="http://tinyurl.com/cliw-seo"

<abbr class="dtstart" title="20151109">9 noiembrie 2015</abbr> --

<abbr class="dtend" title="20160110">10 ianuarie 2016</abbr>

<span class="summary">Concurs SEO @ CLIW</span> la

<span class="location">FII, UAIC Iași</span></a>

<div class="description">Un concurs vizând SEO

pentru articole referitoare la biblioteci JavaScript</div>

</div>

Page 159: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

hCard

informații de contact despre persoane, organizații etc.

în conformitate cu formatul vCard – RFC 6350, 6868https://tools.ietf.org/html/rfc6350

Page 160: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

specificarea informațiilor despre o persoană via hCard

Page 161: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

hResume

modelează informații despre un CV

folosit în conjuncție cu hCard și hCalendar

Page 162: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

hReview

desemnează opinii emise despre „ceva” – o entitate(produs, locație, eveniment, persoană,…)

Page 163: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<div class="hreview">

<!-- resursa recenzată -->

<h1 class="item">Recenzie despre <a class="fn url" title="Situl FII"

href="http://www.info.uaic.ro/">situl Web al FII</a></h1>

<p> <!-- 'punctajul' obținut (5 din 5), sumarul & data recenziei -->

<abbr class="rating stars" title="5">* * * * *</abbr>

<span class="summary title">Modern</span>,

<abbr class="dtreviewed"

title="2010-05-18T22:45:00">18 mai</abbr>

</p>

<!-- autorul recenziei marcat prin hCard -->

<p class="reviewer">Autor al recenziei: <span class="vcard">

<a class="url fn n" href="http://www.purl.org/net/busaco"

title="Spre situl Web al lui Sabin Buraga">

<span class="given-name">Sabin</span>

<span class="family-name">Buraga</span></a></span></p>

<div class="description"> <!-- detalii despre recenzie --> </div>

</div>

Page 164: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Page 165: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate 2

simplifică maniera de specificare (2012)

http://microformats.org/wiki/microformats2

Page 166: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate 2

vocabularele sunt definite pe baza unor prefixe

h- includerea unui microformatp- specificarea unei proprietăți simpleu- desemnarea unui URLdt- definirea de valori privind data & timpule- specificarea de proprietăți compuse

Page 167: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<div class="h-card vcard">

<img src="/content/content_about-experts/brendaneich.jpg"

alt="Brendan Eich">

<h5><a href="http://brendaneich.com/"

class="p-name fn u-url url">Brendan Eich</a></h5>

<p class="p-note note">

Created JavaScript, co-founded the mozilla.org project…</p>

<span class="p-category category">Technology</span>

</div>

exemplu de utilizare a microformatului hCard(în ambele versiuni)

Page 168: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate 2

vocabulare predefinite – unele în stadiu de ciornă:

h-adr h-card h-entry h-event

h-geo h-item h-product h-recipe

h-resume h-review h-review-aggregate

Page 169: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<!-- specificarea unui eveniment via microformate versiunea 2 -->

<section class="h-event">

<a class="p-name u-url" href="http://tinyurl.com/cliw-seo">

Concurs SEO @ CLIW</a>

de la <time class="dt-start">2015-11-09</time>

până la <time class="dt-end">2016-01-10</time>, fiind organizat la

<span class="p-location h-card">

<a class="p-name p-org u-url" href="http://www.info.uaic.ro/">

Facultatea de Informatică</a>,

<span class="p-street-address">Strada Berthelot, 16</span>,

<span class="p-locality">Iași</span>,

<abbr class="p-region" title="Iași">IS</abbr>

</span>

</section>

Page 170: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

microformate: utilizări

…și multe altele

detalii la http://microformats.org/wiki/implementors

DrupalGoogleIntelJoomlaMicrosoft

Nature Publishing GroupSix ApartTYPO3Yahoo!XWiki

Page 171: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

microformate: utilizări

detectarea și exportul de microformate cu extensia Operator pentru Firefox

Page 172: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microdata HTML 5

alternativă la microformate

specificație W3C – Working Draft (octombrie 2013)www.w3.org/TR/microdata/

a se studia și http://html5doctor.com/microdata/

Page 173: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microdata HTML 5

posibilitatea de a specifica perechi de proprietăți(nume, valoare) „scufundate” în HTML

Page 174: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

Page 175: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

creare via atributul itemscope

specificarea unei proprietăți prin atributul itemprop

referire cu ajutorul atributului itemref

Page 176: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

asocierea unui tip de date se face cu atributul itemtype

pentru identificarea unui item se folosește itemid

Page 177: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Există o serie de modele de date(exprimate via microformate sau microdate)

ce pot fi indexate și folositede actualele motoare de căutare?

Page 178: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

schema.org

colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,

Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare

Bing, Google, Yahoo!, Yandex

Page 179: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

schema.org

colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,

Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare

Bing, Google, Yahoo!, Yandex

amănunte la https://schema.org/docs/gs.html

modeleconceptuale

Page 180: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

a se consulta și http://www.w3.org/wiki/WebSchemas

Page 181: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

tipurile primare de date definite de schema.org

Page 182: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

diverse proprietăți ce relaționează Integer cu alte concepte

Page 183: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Thing – schema cea mai generală, incluzând conceptualizăriAction

BroadcastService

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Class

Property

modelare de cunoștințe

(via o ontologie)

Page 184: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Person – modelează conceptul „persoană”http://schema.org/Person

Page 185: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

schema.org

relațiile dintre entități sunt precizate via proprietăți

Page 186: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<div lang="en" itemscope="" itemtype="http://schema.org/RealEstateAgent"><span itemprop="name">Tuxy Unlimited</span><div itemprop="address" itemscope=""

itemtype="http://schema.org/PostalAddress"><span itemprop="streetAddress">Banchiza, 1</span><span itemprop="addressLocality">Iasi</span>,<span itemprop="addressRegion">Iasi</span><span itemprop="postalCode">700550</span>

</div>Phone: <span itemprop="telephone">+4032201090</span><a href=

"http://www.openstreetmap.org/way/243817200#map=18/47.17493/27.57378" itemprop="maps">Details on OpenStreetMap</a>

</div>

fapte vizând domeniul imobiliar

…pe baza modelului conceptual schema.org

Page 187: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<ul><li><p itemid="#busaco" itemscope="" itemtype="http://schema.org/Person">

<a href="http://www.purl.org/net/busaco" title="Spre situl Web al lui Sabin-Corneliu Buraga" itemprop="url">

<span itemprop="name"><span itemprop="givenName">Sabin-Corneliu</span> <span itemprop="familyName">Buraga</span>

</span></a> &ndash; curs</p>

</li>

<li><p itemid="#acip" itemscope="" itemtype="http://schema.org/Person">

<a href="http://ro.linkedin.com/in/ciprianamariei" title="Despre Ciprian Amariei" itemprop="url">

<span itemprop="name"><span itemprop="givenName">Ciprian</span> <span itemprop="familyName">Amariei</span>

</span></a> &ndash; laborator</p></li></ul>

specificarea faptului: „Ciprian Amariei este o persoană”

Page 188: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

extragerea/verificarea de date structurate via Structured Data Testing Tool

https://developers.google.com/structured-data/testing-tool/

Page 189: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<section id="week6"><h2>Săptămâna 6</h2><ul>

<li itemscope="" itemtype="http://schema.org/CreativeWork"itemid="#cliw-lecture6"><aside class="menu">concurs: <a href="web-contest.html" title="Detalii">

SEO @ CLIW</a></aside><p class="lecture">Curs: <a href="presentations/web06-Regasirea-

resurselor-Web-SEO-Microformate-MicrodateHTML5.pdf" title="Prezentare în format PDF" itemprop="url"><span itemprop="name">(Re)găsirea resurselor Web</span></a>

</p><div class="terms" itemprop="keywords">căutare Web, robot,

motor de căutare, interogare, SEO, microformate, HTML5 microdata</div></li>…

</ul></section>

specificarea în HTML5 a lucrărilor creative de tip CreativeWork conform modelului conceptual schema.org

Page 190: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

extragerea informațiilor din HTML5

aici, despre prelegerile

materiei CLIW

Page 191: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<article itemscope="" itemtype="http://schema.org/Event"><section id="contest">

<h2>Tema</h2><p>Concursul este destinat studenților<span itemprop="location" itemscope="" itemtype="http://schema.org/Place">

<a href="http://www.info.uaic.ro/" itemprop="url" title="Spre situl FII><span itemprop="name">FII</span></a> (UAIC <span itemprop="address">Iași, România</span>)</span>

și constă în optimizarea conținutului și structurii unui sit Web.</p>…<p>Perioadă de desfășurare: <span itemprop="startDate" content="2015-11-09T00:00">9 noiembrie 2015</span>—<strong><span itemprop="endDate" content="2016-01-10T16:00">10 ianuarie 2016</span></strong>, ora 16:00.</p>

</section>…</articol>

pe baza schema.org, se pot modela în HTML date vizând un eveniment (Event) și locul de desfășurare a acestuia (Place)

Page 192: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

date pentru „consum” uman vs. date structurate interpretate și prelucrate, ulterior, de algoritmi

Page 193: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<!-- microformate (utilizarea microformatului hCard) --><div class="vcard">

<p>Nume: <span class="fn">Sabin Buraga</span></p><p>Titlu academic: <span class="title">Dr.</span></p>

</div>

<!-- microdate HTML5 --><div itemscope itemtype="http://schema.org/Person">

<p>Nume: <span itemprop="name">Sabin Buraga</span></p><p>Titlu academic: <span itemprop="title">Dr.</span></p>

</div>

microformate↔microdateadaptare după Marco Lisci & Luisa Scarlata (2011)

Page 194: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Alte resurse de interes,inclusiv instrumente de validare și conversie,

sunt oferite de situl Webhttp://getschema.org/

Page 195: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformatele și microdatele HTML5sunt indexate de motoarele de căutare

Bing Webmasterhttp://tinyurl.com/b9mx2f2

Google Structured Datadevelopers.google.com/structured-data/

Yahoo! BOSS (Build your Own Search Service)developer.yahoo.com/search/boss/

Yandex Webmasteryandex.com/support/webmaster/schema-org/

Page 196: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Cum ar putea fi detectate și penalizatesiturile Web care „trișează” în ceea ce privește

tehnicile SEO, eventual recurgând lamicroformate/microdate HTML5?

discuție (pentru acasă)

Page 197: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Oferiți o soluție (empirică) de prevenire a spam-ului vizând documentele HTML

test scris #2 (T2)

Page 198: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

episodul viitor: limbajul JavaScript