Connect with us

technokrata

Receptek a Microsoft Research boszorkánykonyhájából

Dotkom

Receptek a Microsoft Research boszorkánykonyhájából

A Microsoft Research laborjában a számítástechnika egyik növekvő jelentőségű problémáján dolgoznak: a felhasználók egyre elfoglaltabbak, miközben egyre több adat áll rendelkezésükre.

A redmondi kutatók – a szoftveróriás laboratóriumában – olyan új típusú keresők kifejlesztésén dolgoznak, melyek lehetővé teszik az egyéni és az üzleti felhasználók számára, hogy megcsapolják az Interneten, vagy akár a saját gépükön eltárolt hatalmas mennyiségű adathalmazt, melyet annak folyamatos bővülése miatt a jelenleg elterjedt technikákkal egyébként szinte lehetetlen volna hasznosítani. Az új generációs keresőeszközök várhatóan olyan alkalmazásokban kezdik majd meg pályafutásukat, mint a fotóeditor, vagy a file-kezelő programok. Az újfajta keresők akár már a nem túl távoli jövőben olyan hétköznapi eszköznek fognak számítani, mint most egy szövegszerkesztő szoftver.

A Microsoft tervei szerint a következő néhány évben jelentős összeget fog egy saját keresőtechnológia fejlesztésébe fektetni akvizíciók, vagy kutatás-fejlesztés formájában. Az elsődleges cél egy olyan fizetős, web-alapú kereső megalkotása, melyben a bejegyzések létrehozói díjat fizetnének. Nem zárják ki egy cégkereső szolgáltatás kiépítését sem.

A PageTurner projekt célja olyan alkalmazásokat fejleszteni, melyek hatékonyabbá és automatikussá teszik a Weben publikált oldalak frissítését. A kutatás szerint – mely a Web 151 millió oldalára terjedt ki 11 héten át – az internetes oldalak változása meglepően lassú, az oldalak kétharmada nem változik egy héten belül. Erről kérdezte a Terminal az ezúttal Budapesten megrendezett International World Wide Web Konferenciára hazánkba látogató két Microsoft-kutatót, Mark Manasse-t és Marc Najork-ot.

Terminal – Mi is ez a Nemzetközi World Wide Web Konferencia?

Marc Najork – Idén ez már a 12. Nemzetközi World Wide Web Konferencia. Ha emlékezetem nem csal, a legelső 1994-ben került megrendezésre.

Mark Manasse – 2001-ben a rendezvénynek Hongkong adott otthont, tavaly pedig Hawaii szigetén került megrendezésre. Jövőre szintén az Egyesült Államokban lesz az összejövetel, New Yorkban, ahol Marc Najork vezeti majd a webtartalommal foglalkozó szekciót (Content Section).

Terminal – A konferencia egyik előadása a PageTurnerrel foglalkozik. Miről szól a tanulmány, kik készítették?

Marc Najork – Markkal és néhány kaliforniai kutatóval dolgoztunk rajta. A PageTurner keretében azt vizsgáltuk, hogy a weboldalak milyen gyakran frissülnek, s hétről hétre hány alkalommal változik tartalmuk. Számos kérdésre igyekeztünk válaszokat találni: Milyen gyorsan változik a Web? A tartalmak megmaradnak változatlanul, vagy folyamatosan frissülnek a weblapok? Az oldalak összességében gyakran vagy a ritkábban változnak? A változás nagysága összefüggésben van a site-ok egyéb tulajdonságainak módosulásával, mint például a reklámcsíkok (banner) cseréje?

Mark Manasse – A megfelelő adatok begyűjtése után elemeztük a változások mértékét minden weboldal esetében, és megvizsgáltuk, hogy milyen tényezők hatnak a módosítások intenzitására. Azt tapasztaltuk, hogy főként a nagyobb oldalaknál figyelhető meg egyfajta gyakori és szabályos változás, míg a kisebbekre ez kevésbé érvényes.

Terminal – A feladat valószínűleg nem volt ilyen egyszerű…

Marc Najork – A kísérlet során 151 millió HTML, és 62 millió más típusú oldalt töltöttünk le (crawl-1). Tizenegy héten keresztül ezt a 151 millió URL-t heti rendszerességgel végignéztünk, és eltároltuk jellemzőiket minden egyes letöltésnél. Végül az adatokat finomítottuk annak érdekében, hogy megbízható elemzéseket készíthessünk belőlük.

Terminal – Milyen következtetéseket lehetett levonni?

Marc Najork – Mint kiderült, a rendszeres pásztázás során számos weboldal vált „nem elérhetővé” vagy jelent meg rajta a „fejlesztés alatt” felirat. Mind a 11 héten át csupán a webhelyek 49,2%-át sikerült eredményesen letöltenünk, a site-ok 33,6%-ánál csupán 10 héten át jártunk sikerrel, a maradék 17,2% pedig a kilenc vagy annál kevesebb héten át elérhető oldalak aránya. A változások kilencven százaléka a tartalom kevesebb mint negyedére vonatkozik, 85 százaléka pedig kevesebb mint tizedére.

Mark Manasse – Egy előző munkánk alapján arra gondoltunk, hogy az oldalak túlnyomó többsége gyakran változik. Ez így is van, ám eddig nem tudtuk mérni, hogy a weblapok mekkora hányadát frissítik sűrűn. Az adatgyűjtési technikánk révén az oldalakból kinyert információk többnyire még feldolgozás alatt állnak, hiszen valószínűnek tartjuk, hogy ezek még sok érdekes információt rejtenek magukban.

Terminal – Milyen hardverekkel, szoftverekkel dolgoztatok?

Mark Manasse – A hardver-infrastruktúránk négy Compaq DS20 szerver-klaszterből állt, egyenként felszerelve egy 667 MHz-es Alpha processzorral, 4 GB memóriával, egy 648 GB kapacitású merevlemezzel, és nagyon gyors Ethernet hálózati összeköttetéssel. Az Internet pásztázásához a Mercator web-crawlert használtunk, amely nemcsak gyors, de kiválóan konfigurálható eszköznek bizonyult a célunk végrehajtása érdekében.

Terminal – Mi volt a kiindulópont?

Marc NajorkA weboldalak fejlődésének feltérképezéséhez kiindulópontként a Yahoo!-t választottuk.

Terminal – A begyűjtött adatok mekkora helyet foglaltak?

Marc Najork – A logok nagyjából 1.200 GB-ot tettek ki, az ebből kiragadt mintadokumentumok pedig 59 GB-ot.

Terminal – Milyen tapasztalatokat szűrhtetek le?

Marc Najork – A megfigyelt HTML oldalak 66,3%-a 4 és 32 KB közötti méretű volt. A top-level domainek, mint a .com oldalak 52,5%-ban voltak fellelhetőek, a .org és a .gov 8 és 1,1%-ai az összes megfigyelt oldalnak. A legkisebb arányban a .edu oldalakat találtuk meg, melyek méretei a 2 és a 16 KB közé estek.

Terminal – Mi az az eredmény, ami leginkább meglepett titeket?

Marc Najork – Munka közben a csapat felfedezett egy német szervert, ami kérésre weboldalak paródiáit készítette el. A szerver minden lekérésnél egy új oldalt generált, melyeket természetesen a keresőmotorok robotjai is észleltek. A szolgáltatás forgalma meghaladja a napi 115.000-et. Később még nyolcvan hasonlóan „vicces” kiszolgálót találtunk az Interneten. Mindez nagyon jó módszer arra, hogy megbolondítsunk egy keresőmotort. A német adatok 5 százaléka volt ily módon szennyezett a felmérésben. Ám a .de weboldalak változási rátája nem ettől olyan magas, hanem inkább a rajtuk elérhető pornográf oldalak miatt, amelyek tartalma nagyon gyakran frissül.

Terminal – Milyen szabályszerűségeket sikerült rábukkanni?

Marc Najork – Többek között azt sikerült kiderítenünk, hogy egy oldal múltbeli változási rátája jó előrejelzésnek tekinthető a jövőbeni változási valószínűségére. Az automatikusan kiválasztott oldalak rendszeres felkeresésével nyert változási ráta ugyanis egy nagyon hasznos frissülési indexet eredményezett: nagyjából a teljes Web negyede változik meg naponta, a .com tartományba tartozó oldalak 60 százaléka pedig hetente.

A Microsoft Research boszorkánykonyhájáról számos recept vár megvalósításra. Egy alkalmazás prototípusa – név szerint “Felfalom, amit látok” – képes arra, hogy egy évre visszamenőleg minden képernyőt eltároljon, ami a monitoron megjelenik. Egy másik fejlesztés első változata lehetőséget nyújt arra, hogy a felhasználók az élőbeszédben megszokott kérdéseket tegyenek fel a számítógép számára. Például: “Ki az a Prométheusz?”

Mióta a keresés létezik, a Microsoft nagy hangsúlyt fektet arra, hogy lehetővé tegye az adatok közötti asszociációk szabadabb áramlását, valamint bővítse a keresők felhasználási területét. Jelenleg az információ legnagyobb része hierarchikus formában tárolódik a gépeken. Egy kép vagy egy dokumentum először is nevet kap, majd bekerül egy mappába, a mappák pedig további mappákba. Egy file megtalálásához a felhasználónak végig kell járni a lehetséges elérési utakat, hasonlóan ahhoz, ahogy a keresőmotorok is működnek.

Az a probléma a hierarchikus adattárolással, hogy az feltételezi, minden információhoz hozzárendelhető egy hely, ahol az megtalálható. Ám a legtöbb adat olyan, hogy vagy több helyen is joggal kereshetnénk a hierarchiában, vagy pedig tiszta formájában sehol nincs jelen, de több különálló adatból származtatható.

A Microsoft „Zafír”-ja egy olyan kísérleti alkalmazás, mely jól szemlélteti az új technológia lehetőségeit. Ha az egérkurzort ráhúzzuk egy e-mail címre, megjelenik mellette egy szövegbuborék, melyben megtalálhatjuk a tulajdonos nevét, különböző elérhetőségeit, publikációit, és a vele kapcsolatos feladatokat, vagy naptári bejegyzéseket.



Szólj hozzá!

További Dotkom

Technokrata a Face-en

Tesztek