Innovation related Semantic Enterprise Search: The INSEARCH experience
Roberto Basili
Univ. Roma Tor Vergata
Innovation is a crucial process for enterprises and poses strict requirements to semantic technologies. Large scale and timely search processes on the Web are here often involved in different business analytics tasks. In the seminar we will present the outcomes of the EU INSEARCH project. They refer to an advanced information retrieval system developed integrating robust semantic technologies and industry-standard software architectures for Web monitoring and alerting, proactive search and personalized domain-specific classification and ranking functionalities. INDEKS - Indexing and Networking of Documents on Environmental Knowledge Sharing Mario Benati Links Management and Technology S.p.A. INDEKS è un progetto commissionato dall’Istituto Superiore per la Protezione e la Ricerca Ambientale – ISPRA, con l’obiettivo di creare un sistema di gestione integrata e condivisione della conoscenza ambientale articolata come insieme di banche dati documentali di interesse ambientale disponibili nel complesso ISPRA/rete delle Agenzie
regionali di protezione ambientale ed in altri organismi, nazionali ed extranazionali, centrali e locali. Il sistema è dotato di un ricco insieme di modalità di indicizzazione dei documenti, di funzioni di editing avanzato dei testi, di funzioni di ricerca evolute ed efficienti.
INDEKS gestisce diverse categorie di documenti (Norme Internazionali, Normativa ambientale nazionale, Report Ambientali prodotti dall’Ente o dalle ARPA regionali etc.) ciascuna delle quali caratterizzata da un set di metadati personalizzabile e gestito mediante una apposita scheda, ricca di campi redazionali per una gestione evoluta dei contenuti. L’applicazione mette a disposizione dell’utente un insieme diversificato di modalità di indicizzazione (classificazione) dei documenti, che va dalle parole chiave “libere” ai termini del Thesaurus Earth (tra i più diffusi a livello Europeo in ambito ambientale), dall’albero di classificazione tematica interna ad un motore di ricerca testuale tra i più sperimentati e potenti disponibili sul mercato (Apache Lucene). Tali sistemi di indicizzazione rendono il reperimento delle informazioni una attività accessibile ed efficace per qualunque livello di utenza; la ricerca può infatti avvenire secondo un’ampia gamma di modalità:
sopra riportati. Il progetto è interamente realizzato mediante le tecnologie Open source . Datateinment through Open Data Daniele Galiffa VISup La crescente disponibilità di dati aperti, sia del settore pubblico che del settore privato, mette a disposizione dei contenuti su cui creare nuove modalità di interazione capaci di offrire delle interessanti prospettive anche commerciali, il tutto anche grazie alla disponibilità di nuovi media e formati. ProMo: an agile and collaborative framework for the modeling and monitoring of (semantic) business processes Chiara Ghidini FBK The efficiency of an organization depends, among tother factors, from its ability to handle business processes in an effective manner, especially when these processes involve several departments and units inside the organization, and also external entities. In this context, ICT plays a foundamental role in offering and producing tools able to handle processes, from the modeling phase to the execution phase. A paradigmatic example is the Public Administration (PA), an organization of great complexity both at the organizational and technological level, whose processes typically involve multiple entities and are usually carried on by mixing tasks which involve information systems with human activities. Despite the efforts performed in this field and the availability of a number of technological infrastructures there are still a number of critical issues for the efficient management of processes in areas like the ones mentioned above. In this talk we focus on two of these issues: the first concerns the need to model business processes so that they are clear and informative to those who are responsible for governing these processes, taking into account also the organizational dimension in which the process "happens""; the second concerns the need to link the model of the processes at an organizational level to the operational environment in which the processes are running. This to be able to extract useful information from the real execution of the processes in order to identify problems or opportunities for e.g., optimization. We report on an ongoing project which makes an attempt to identify an appropriate solution modeling and monitoring business processes using also semantic technologies. Previewing Pundit: semantic augmentation of digital content via collaborative annotations
Danilo Giacomi Net7 Semantic web and Linked Data technologies have been widely recognized as key enabler for providing interoperability and flexibility to data and content published on the Web. Such technological trends are recently being adopted by Digital Humanities and scholarly communities to improve search, browsing and data exchange in Digital Libraries and Archives, as witnessed by the Europeana LInked Data initiative.
However, it is becoming clear that not only publisher but also scholars and users in general, can benefit from such technologies as they lay the foundation for collaborative creation and sharing of knowledge. Annotation of texts is an activity that scholars have been performing for centuries and that plays a fundamental role in research. Within the Semlib and DM2E european projects, Net7, together with prominent european institutions, is working to build next generation annotation tools that not only improve collaboration and sharing of annotations, but also enable users to create semantically structured knowledge out of their annotations. Knowledge that can be then effectively reused, outside the boundaries of a single software application, thus creating a rich interconnected network of digital objects to be explored by both humans and machines. Pundit, one of the results of such efforts will be demonstrated and discussed in this talk. WebCrow: From crossword to industrial challenges
Marco Gori Univ. Siena In the second part of the talk, I'll give insights on how WebCrow and related entertainment projects can provide the roots for apparently unrelated industrial
challenges in linguistic technology.
Il ruolo delle tecnologie semantiche per la governance partecipata di sistemi sociotecnici complessi
Nicola Guarino LOA, ISTC CNR La
società di oggi è caratterizzata dalla presenza di sistemi socio-tecnici sempre
più complessi, che comprendono artefatti tecnici (macchine, sistemi di
comunicazione e infrastrutture di varia natura), artefatti sociali (leggi e
istituzioni), e attori umani (utenti e operatori). La complessità crescente di
tali sistemi pone con sempre più urgenza problemi di governance, soprattutto in
presenza di crisi o instabilità. In particolare è necessario affrontare, in sintesi,
due tipi di problemi: da una parte occorre saper acquisire e interpretare
enormi quantità di dati eterogenei, dall'altra occorre sapere come tali dati
impattano sul comportamento generale del sistema, in modo da poter
intraprendere le azioni di governance appropriate. La diffusione delle
tecnologie dell'informazione (e delle tecnologie semantiche in particolare)
favorisce oggi la responsabilizzazione degli attori umani nell'affrontare
entrambi questi problemi, in un'ottica di particpazione: nel primo caso si
parla di participatory sensing, nel secondo di participatory
governance.
In
quest'intervento illustrerò una prospettiva di ricerca finalizzata a favorire
la sinergia tra questi due approcci (participatory sensing e participatory
governance), che parte dal presupposto che la governance partecipata è
possibile solo se il sistema sociotecnico è trasparente, cioè solo se di questo
esiste un modello dichiarativo (un'ontologia). Di qui la
necessità di sviluppare un'ontologia integrata dei sistemi socio-tecnici, che
possa trattarne i componenti fondamentali e le loro interazioni, e che
caratterizzi esplicitamente la natura e la tipologia delle varie situazioni di
crisi.
Ragionamento automatico su ontologie: risultati della ricerca e applicazioni industriali
Maurizio Lenzerini Univ. Roma La Sapienza Negli ultimi anni gran parte della ricerca sui linguaggi per la rappresentazione di ontologie si è focalizzata sulla definizione di tecniche per rispondere in modo automatico ad interrogazioni formulate nei termini di una ontologia. Questo problema è di cruciale importanza in tutte le applicazioni nelle quali la conoscenza aziendale è espressa mediante una ontologia e nelle quali il calcolo della risposta alle interrogazioni poste su un modello condiviso di conoscenza aziendale richiede ragionamenti automatici sull'ontologia stessa. In questo intervento si illustreranno brevemente i risultati ottenuti in questo campo dalla ricerca accademica, e si metterà in luce come gli studi che hanno condotto a questi risultati siano stati guidati da precise esigenze applicative, a loro volta ispirate dall'intuizione che le tecnologie semantiche possano portare diversi benefici in ambito industriale.
Tv innovativa e di utilità: il ruolo dell'intelligenza artificiale Angiolino Lonardi Dario Saracino Exprivia La moltiplicazione dei canali, la crescita della tv outdoor, il consumo di immagini televisive in mobilità mettono oggi in sempre maggior evidenza l'inadeguatezza del modello di business televisivo tradizionale, modello che si regge fondamentalmente sulla pubblicità, propone contenuti basati prevalentemente sull'intrattenimento, ed è caratterizzato da costi di produzione talmente elevati da poter essere remunerati dal mercato per una parte non superiore al 30%. L'intelligenza artificiale, con particolare riferimento al trattamento automatico del linguaggio naturale, nonché un'adeguata riprogrammazione dei sistemi di emissione, permettono oggi lo sviluppo di applicazioni televisive basate su di un modello di business innovativo. Tale modello consente, con costi frazionali rispetto a quelli usuali, di virare i contenuti dall'intrattenimento all'utilità, nonché di rendere eccellenti e attrattivi i contenuti rivolti all'integrazione e alla comunità solidale, come prima risposta alla globalizzazione sociale ed economica. PA Risponde: QA, Semantica, Open Data ed App at work per la Pubblica Amministrazione
Piero Molino Univ. Bari "Aldo Moro" & QuestionCube Semantic search and Question Answering are emerging technologies that have the potential to significantly improve the search time and the quality of the results, allowing a more natural and transparent approach to the retrieval of information. QuestionCube, a start-up founded in 2011 with the aim of developing semantic search engines and Question Answering systems, presents PA Risponde, an application that allows searching through Italian government's FAQ. The adopted dataset is licensed under Italian Open Data License (IODL 2.0) by Linea Amica, the government's multichannel contact center. The application has been awarded in the Apps4Italy competition at Forum PA. PA Risponde shows the potential of the use of semantic technologies, alongside with Natural Language Processing, for the access to Open Data and provides also a usefull and simple-to-use instrument to the citizen.
Natural Language Processing Information Retrieval: from heuristic-based search to deep Question Answering of IBM Watson
Alessandro Moschitti Univ. Trento Just about one and half decades ago, although promising, the role of Natural Language Processing (NLP) for the design of real-world applications still was rather unsatisfactory. In contrast, in the same time span, Information Retrieval (IR) systems had been demonstrating their effectiveness, basically without using any deep linguistic analysis or semantic processing. Some years ago, a first level of semantic analysis, e.g., text categorization or named entity recognition, started to play an important role in commercial applications, also thanks to potential business opportunities in the field of sentiment analysis. Such renewed interest in NLP has been mostly due to some changes in user needs, e.g., extraction and synthesis of information from large amount of data rather than document search based on semantic processing. Very recently, in February 2011, the performance of the IBM Watson system, an advanced question answering pipeline based on deep linguistic processing and semantic resources, demonstrated that automatic methods can be more accurate than human experts in searching and finding information. Additionally, the fast Watson's response made its search far more effective than the one operated by a human being using automatic keyword-based methods. This talk aims at highlighting the most important features of NLP, IR and machine learning technology for the design of competitive commercial applications. Such features range from advanced deep linguistic analysis to the use of semantic resources as well as effective machine learning models. The combination of the so-called deepQA technology along with the availability of large computational power allowed Watson to achieve accurate semantic IR. Explicit Semantic Analysis for Personalized Electronic Program Guides
Fedelucio Narducci Univ. Milano-Bicocca SWAP Research Group Personalized Electronic Program Guides (EPGs) help users overcome information overload in the TV and video domain by exploiting recommender systems that automatically compile lists of novel and diverse video assets, based on implicitly or explicitly defined user preferences. The research presented in this talk was carried out in the context of APRICO Solutions (www.aprico.tv), a software company that is part of Philips Electronics, which develops video recommender and targeting technology, primarily for the broadcast and Internet industries. The exploited EPG data was provided by Axel Springer (www.axelspringer.de), a strategic partner of APRICO Solutions. The dataset contained a set of 133,579 TV-show descriptions, from a set of 47 broadcast channels in the German language. TV shows have been broadcast between April 2009 and April 2011. In this talk we will present a new Wikipedia-based representation for TV-show descriptions by applying a new technique named Explicit Semantic Analysis.
The aim of this approach is to enrich the textual description associated to a TV show with additional knowledge extracted from Wikipedia.
This work is in conjunction with Philips Research – Eindhoven (NL).
Cognitive Linguistics as the Underlying Framework for Semantic Applications: from Semantic Annotation to Complete NLIs Arianna Pipitone Univ. Palermo In recent years many attempts have been made to design suitable sets of rules aimed at creating Natural Language Interfaces (NLIs) for ontologies but very few approaches make extensive use of grammars. Current systems are focused only on verbalizing information contained inside the ontology, while it is often necessary to give exhaustive answers to the users' queries by retrieving data outside of it, that is what is called expanded retrieval. This is particularly true in the case of digital user tutorials where users need exhaustive answers to their questions about the usage of documented tools or in semantic access to enterprises' databases where the ERD is mapped to the ontology but instances remain out of the semantic resource. Extensive use of linguistic resources is needed in this scenario to infer semantics from external data. A framework inspired to Cognitive Linguistics theories is proposed in this work that is aimed at facing the problem outlined above. In particular, our work is based on Construction Grammar (CG). CG defines a "construction" as a form-meaning couple. We use RDF triples in the domain ontology as the "semantic seeds" to build constructions: a suitable set of rules based on linguistic typology have been designed to infer semantics and syntax from the semantic seed, while combining them as the poles of constructions. Computing all possible syntactic forms for the same meaning during an information retrieval procedure triggered by the user query allows semantic annotation of plain text as a side effect.
The whole framework is presented in detail along with its applications. A system for automatic generation of Semantic MediaWiki contents from standard Wikipedia pages, and the ongoing experimentations for a complete NLI to suitable enterprise domains are presented.
Guido Vetere
Center for Advanced Studies IBM Italia Nel 2007 IBM ha deciso di affrontare il problema dell'open-domain question answering, uno di quelli più difficili in Intelligenza Artificiale, sfidando i campioni umani al gioco Jeopardy! Come sappiamo, la sfida è stata vinta da un sistema chiamato Watson nel Febbraio del 2011. A differenza della vittoria a scacchi di DeepBlue su Kasparov nel 1997, il successo di Watson apre prospettive applicative molto rilevanti, dalla sanità all'analisi finanziaria, dalle normative alle relazioni con l'utenza, ovunque sia necessaria una comprensione profonda del linguaggio naturale. Nel futuro potremo quindi attenderci la maturazione di un paradigma di interazione uomo macchina basato sul dialogo naturale, in una nuova generazione di sistemi intelligenti. Nel perseguire l'obiettivo della vittoria al gioco Jeopardy! Watson ha trovato davanti a sé il classico problema del significato linguistico, più o meno nei termini in cui si presenta sin dai tempi della filosofia antica. L'approccio estremamente pragmatico del team di ricerca IBM, nel rifiutare qualsiasi preconcezione teorica, ha prodotto (solo apparentemente in modo paradossale) un interessante risultato filosofico. La novità di Watson è infatti nell'idea che la comprensione del linguaggio sia l'attuazione simultanea di euristiche di molti tipi diversi, anche a volte conflittuali, che trovano una sintesi in ipotesi sempre provvisorie. Ne emerge una visione del linguaggio che dice molto rispetto ai temi della teoria del significato, per come si è sviluppata nella filosofia analitica del Novecento. |
Workshops > SemExp 2012 >