Sorry, you need to enable JavaScript to visit this website.

WORKSHOP A: Vyhledávání citací: Google a další zdroje (Péter Jacsó)

Čas nutný k přečtení
4 minut
Již přečteno

WORKSHOP A: Vyhledávání citací: Google a další zdroje (Péter Jacsó)

0 comments
Anglicky
English title: 
The state of the art in the citation-based searching
English subtitle: 
Google scholar & Beyond
Autoři: 
Rubrika: 

P.Jacsó Péter Jacsó je profesorem Informační vědy na University of Hawaii. Tématem semináře byla důležitá alternativa k řízenému a fulltextovému vyhledávání, používání a hodnocení citačních databází. Podle P.J. v zejména v minulosti (60 léta), platilo že při vyhledávání je nutno použít řízených slovníků (tezaury), avšak jsou to často nekvalitní a zastaralé nástroje (uvedeny příklady: v dtb. centru Dialog je dostupno 500 databází, z nich 38 má implementováno tezaurus; dále ukázány dvě databáze s nekvalitním tezaurem SPORTDiscuss, PAIS). Navíc se při cross-searching na tezaury nelze spolehnout, protože při indexování těchto zdrojů nebyl daný tezaurus použit.

Dnes je nutno využívat sílu fulltextového vyhledávání, avšak i to s sebou přináší úskalí různých slovních variant, hláskování a další lingvistické problémy. P.J. vyzdvihnul přednosti federated search engines – metavyhledávačů, a to zejména při identifikaci zdrojů - resource discovery. Zdůraznil následující komerční služby: CentralSearch, Polymeta, Webfeed, News Global, Metalib – některé z nich nabízí kromě přehledu zdrojů, také klusterování výsledků, avšak informační profesionál musí počítat s tím, že volné fulltextové vyhledávání má svá omezení.

Citační vyhledávání je podle J.P. významnější než fulltextové a řízené vyhledávání. Protože citované zdroje (cited references) ukazují na tematicky stejné materiály. Podle citujících článků lze hodnotit kvalitu prací, vytvářet statistiky použitelnosti, kvalitu časopisů a zejména sledovat citační řetězce, a to včetně pohledu až na druhou úroveň - tedy pohled na zdroje citující citované materiály (no. times citing source was cited). Pro vyhledávání, úvodní orientaci v tématu P.J. hovořil o technice tří nejcitovanějších článků. Je potřeba najít a analyzovat tři nejcitovanější články a využít jich při dalším vyhledávání: terminologii, zdroje, autory (na dotaz, zda existují rozdíly mezi humanitními a přírodními vědami při použití této techniky P.J. odpověděl, že pravděpodobně ne).

Následovaly podrobnější informace a kritika jednotlivých citačních zdrojů s uvedením příkladů, grafů a statistik – zejména pokrytí LIS (Library and Information Science) časopisů, srovnání multioborovch citačních databází se specializovanými bibliografickými databázemi obohacenými o citace (PsycInfo, Econpapers) či analýza pokrytí jednotlivých autorů citačními zdroji.

            TN    WR   WA    CR
WoS v DC Dialog     33.3   26   10.6   520-530 
Scopus 1966-2007    30.1   11.2  21.4   230-240
Google Scholar     10-12   ?    ?     ?
------------------------------------------------------------
TN – total number, celkový počet záznamů
WR – with references, záznamy obohacené o citace
WA – with abstract, záznamy včetně abstraktu
CR – cited references, celkové množství extrahovaných citací

Web of Science jednoznačně převyšuje konkurenční produkty co do časového pokrytí, množství zdrojů, evidenci citaci, šíře záběru i zpracování jednotlivých ročníků (neobjevují se významnější výpadky, díry v evidenci citací). Kritizován byl příliš restriktivní formát, jakým jsou citace zapsány a indexovány, neschopnost řadit výsledky podle počtu citujících článků (cited by), nemožnost exportovat více než 500 záznamů či řadit více než 1100 záznamů (to omezuje statistické analýzy).

Scopus obsahuje množství abstraktů, ale kvalita citační databáze má být hodnocena zejména množstvím zpracovaných citací, kde Scopus zaostává. Pokrytí od r. 1996, i když se objevují i záznamy už od r. 1966, při podrobnější analýze zjistíme, že existuje spousta prázdných míst – Scopus sice uvádí, že zpracovává 15 tis. časopisů, avšak mnohá čísla chybí, či časopis se vyskytuje v databází jen jednou - marketingová politika firmy se tak podle P.J. občas blíží spíše propagandě.

Google Scholar není vhodným zdrojem pro vědeckou praxi zejména z následujících důvodů: záměrně neuvádí z čeho jsou citace získávány, jeho pokrytí silně zaostává za WoS i Scopus, výsledky jsou nekonzistentní (P.J. obvinil Google z blufování – množství vyhledaných záznamů pro anglické +the se v Google Scholar blíží 770 milionům, avšak hledání podle let 1457-2007 ukazuje cca 230 tis. záznamů). Kritika mířila i na nekvalitní extrakci citací, chybějící ročníky/čísla časopisů, záměrné ignorování metadat.

Dnes trend směřuje k tomu, že placené zdroje soutěží s open access databázemi. Citační databáze jsou velmi drahé a mnohé bibliografické záznamy lze nalézt zdarma (avšak nejsou obohaceny o citační služby). Při nákupu citačních databází je třeba zohlednit zejména velikost databáze citací, kvalitu citačního indexu, nikoliv přítomnost abstraktu, časový rozsah, pokryté zdroje - vyžádat si od dodavatele analýzu pokrytí, absolutní čísla o citujících zdrojích např. podle námi vybraného souboru časopisů – pokryté obory, multidisciplinaritu/oborovost. Důležitým bodem je také software: schopnosti vyhledávání, formát citací, dostupná metadata, propojení citací do ostatních zdrojů (instant links), či perzistentní identifikátory (DOI linky) a snadnost používání.

V průběhu semináře byly na různých místech zmíněny následující citační databáze/produkty: arXiv.org, Citeseer, HighWire Press (podle P.J. nejlepší mezi open access citačními dtb., 1.7 milionů článků zdarma v plném textu, zahrnuje jedny z nejlepších časopisů napříč vědami, velmi kvalitní zpracování), NASA ADS, IUCr, PubMed Central, EconPapers, RePEc (IDEAS, LogEc). Kromě tradičních hráčů jako Elsevier a ISI se k citačním službám přidávají následující producenti CSA, EBSCO, ScienceDirect, ACM Digital library, Annual Reviews (AR), Blackwell Synergy.

(rca)

Hodnocení: 
Zatím žádné hodnocení
IKAROS, redakce. WORKSHOP A: Vyhledávání citací: Google a další zdroje (Péter Jacsó). Ikaros [online]. 2007, ročník 11, číslo 5/2 [cit. 2024-04-14]. urn:nbn:cz:ik-12503. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/12503

automaticky generované reklamy