Workshops‎ > ‎SemExp 2012‎ > ‎

Relatori: titoli ed abstract

Innovation related Semantic Enterprise Search: The INSEARCH experience
Roberto Basili
Univ. Roma Tor Vergata

Innovation is a crucial process for enterprises and poses strict requirements to semantic technologies. Large scale and timely search processes on the Web are here often involved in different business analytics tasks. In the seminar we will present the outcomes of the EU INSEARCH project. They refer to an advanced information retrieval system developed integrating robust semantic technologies and industry-standard software architectures for Web monitoring and alerting, proactive search and personalized domain-specific classification and ranking functionalities.



INDEKS - Indexing and Networking of Documents on Environmental Knowledge Sharing

Mario Benati 
Links Management and Technology S.p.A.

INDEKS è un progetto commissionato dall’Istituto Superiore per la Protezione e la Ricerca Ambientale – ISPRA, con l’obiettivo di creare un sistema di gestione integrata e condivisione della conoscenza ambientale articolata come insieme di banche dati documentali di interesse ambientale disponibili nel complesso ISPRA/rete delle Agenzie
regionali di protezione ambientale ed in altri organismi, nazionali ed extranazionali, centrali e locali. Il sistema è dotato di un ricco insieme di modalità di indicizzazione dei documenti, di funzioni di editing avanzato dei testi, di funzioni di ricerca evolute ed efficienti.
INDEKS gestisce diverse categorie di documenti (Norme Internazionali, Normativa ambientale nazionale, Report Ambientali prodotti dall’Ente o dalle ARPA regionali etc.) ciascuna delle quali caratterizzata da un set di metadati personalizzabile e gestito mediante una apposita scheda, ricca di campi redazionali per una gestione evoluta dei
contenuti. L’applicazione mette a disposizione dell’utente un insieme diversificato di modalità di indicizzazione (classificazione) dei documenti, che va dalle parole chiave “libere” ai termini del Thesaurus Earth (tra i più diffusi a livello Europeo in ambito ambientale), dall’albero di classificazione tematica interna ad un motore di ricerca testuale
tra i più sperimentati e potenti disponibili sul mercato (Apache Lucene). Tali sistemi di indicizzazione rendono il reperimento delle informazioni una attività accessibile ed efficace per qualunque livello di utenza; la ricerca può infatti avvenire secondo un’ampia gamma di modalità:
  • ricerca full text (google-like) e potenziata da funzionalità di arricchimento “semantico” (ricerca per sinonimi e contiguità, ricerca dei corrispondenti termini in lingua inglese);
  • ricerche mediante QBE (Query by Example), per le utenze più evolute, in grado di padroneggiare le logiche talvolta complesse sottese alla problematica ambientale;
  • ricerca mediante Thesaurus Earth. INDEKS integra un sistema di allineamento periodico ed automatico con un database semantico realizzato dal Consiglio Nazionale delle Ricerche secondo le specifiche RDF-SKOS;
  • ricerca mediante parole chiave libere.
Il sistema INDEKS si configura altresì come grafo integrato in cui i documenti sono interconnessi tramite i differenti sistemi di indicizzazione sopra riportati: data una parola chiave, è ad esempio possibile, a partire da qualunque documento, accedere a tutti gli altri documenti associati alla medesima, e ciò vale per tutti i sistemi di indicizzazione
sopra riportati.
Il progetto è interamente realizzato mediante le tecnologie Open source .



Datateinment through Open Data
Daniele Galiffa
VISup

La crescente disponibilità di dati aperti, sia del settore pubblico che del settore privato, mette a disposizione dei contenuti su cui creare nuove modalità di interazione capaci di offrire delle interessanti prospettive anche commerciali, il tutto anche grazie alla disponibilità di nuovi media e formati.




ProMo: an agile and collaborative framework for the modeling and monitoring of (semantic) business processes
Chiara Ghidini
FBK

The efficiency of an organization depends, among tother factors, from its ability to handle business processes in an effective manner, especially when these processes involve several departments and units inside the organization, and also external entities. In this context, ICT plays a foundamental role in offering and producing tools able to handle processes, from the modeling phase to the execution phase. A paradigmatic example is the Public Administration (PA), an organization of great complexity both at the organizational and technological level, whose processes typically involve multiple entities and are usually carried on by mixing tasks which involve information systems with human activities.

Despite the efforts performed in this field and the availability of a number of technological infrastructures there are still a number of critical issues for the efficient management of processes in areas like the ones mentioned above. In this talk we focus on two of these issues: the first concerns the need to model business processes so that they are clear and informative to those who are responsible for governing these processes, taking into account also the organizational dimension in which the process "happens""; the second concerns the need to link the model of the processes at an organizational level to the operational environment in which the processes are running. This to be able to extract useful information from the real execution of the processes in order to identify problems or opportunities for e.g., optimization. We report on an ongoing project which makes an attempt to identify an appropriate solution modeling and monitoring business processes using also semantic technologies.



Previewing Pundit: semantic augmentation of digital content via collaborative annotations
Danilo Giacomi
Net7

Semantic web and Linked Data technologies have been widely recognized as key enabler for providing interoperability and flexibility to data and content published on the Web. Such technological trends are recently being adopted by Digital Humanities and scholarly communities to improve search, browsing and data exchange in Digital Libraries and Archives, as witnessed by the Europeana LInked Data initiative. 
However, it is becoming clear that not only publisher but also scholars and users in general, can benefit from such technologies as they lay the foundation for collaborative creation and sharing of knowledge. 
Annotation of texts is an activity that scholars have been performing for centuries and that plays a fundamental role in research. Within the Semlib and DM2E european projects, Net7, together with prominent european institutions, is working to build next generation annotation tools that not only improve collaboration and sharing of annotations, but also enable users to create semantically structured knowledge out of their annotations. Knowledge that can be then effectively reused, outside the boundaries of a single software application, thus creating a rich interconnected network of digital objects to be explored by both humans and machines. 
Pundit, one of the results of such efforts will be demonstrated and discussed in this talk.



WebCrow: From crossword to industrial challenges 
Marco Gori
Univ. Siena

In this talk, I will briefly review the WebCrow computer crossword challenge by focussing on the architecture and on the results that have been obtained in real human challenges. 
In the second part of the talk, I'll give insights on how WebCrow and related entertainment projects can provide the roots for apparently unrelated industrial
challenges in linguistic technology.



Il ruolo delle tecnologie semantiche per la governance partecipata di sistemi sociotecnici complessi 
Nicola Guarino
LOA, ISTC CNR

La società di oggi è caratterizzata dalla presenza di sistemi socio-tecnici sempre più complessi, che comprendono artefatti tecnici (macchine, sistemi di comunicazione e infrastrutture di varia natura), artefatti sociali (leggi e istituzioni), e attori umani (utenti e operatori). La complessità crescente di tali sistemi pone con sempre più urgenza problemi di governance, soprattutto in presenza di crisi o instabilità. In particolare è necessario affrontare, in sintesi, due tipi di problemi: da una parte occorre saper acquisire e interpretare enormi quantità di dati eterogenei, dall'altra occorre sapere come tali dati impattano sul comportamento generale del sistema, in modo da poter intraprendere le azioni di governance appropriate. La diffusione delle tecnologie dell'informazione (e delle tecnologie semantiche in particolare) favorisce oggi la responsabilizzazione degli attori umani nell'affrontare entrambi questi problemi, in un'ottica di particpazione: nel primo caso si parla di participatory sensing, nel secondo di participatory governance. 
In quest'intervento illustrerò una prospettiva di ricerca finalizzata a favorire la sinergia tra questi due approcci (participatory sensing participatory governance), che parte dal presupposto che la governance partecipata è possibile solo se il sistema sociotecnico è trasparente, cioè solo se di questo esiste un modello dichiarativo (un'ontologia). Di qui la necessità di sviluppare un'ontologia integrata dei sistemi socio-tecnici, che possa trattarne i componenti fondamentali e le loro interazioni, e che caratterizzi esplicitamente la natura e la tipologia delle varie situazioni di crisi.     



Ragionamento automatico su ontologie: risultati della ricerca e applicazioni industriali
Maurizio Lenzerini
Univ. Roma La Sapienza

Negli ultimi anni gran parte della ricerca sui linguaggi per la rappresentazione di ontologie si è focalizzata sulla definizione di tecniche per rispondere in modo automatico ad interrogazioni formulate nei termini di una ontologia. Questo problema è di cruciale importanza in tutte le applicazioni nelle quali la conoscenza aziendale è espressa mediante una ontologia e nelle quali il calcolo della risposta alle interrogazioni poste su un modello condiviso di conoscenza aziendale richiede ragionamenti automatici sull'ontologia stessa. In questo intervento si illustreranno brevemente i risultati ottenuti in questo campo dalla ricerca accademica, e si metterà in luce come gli studi che hanno condotto a questi risultati siano stati guidati da precise esigenze applicative, a loro volta ispirate dall'intuizione che le tecnologie semantiche possano portare diversi benefici in ambito industriale.



Tv innovativa e di utilità: il ruolo dell'intelligenza artificiale
Angiolino Lonardi
Dario Saracino
Exprivia

La moltiplicazione dei canali, la crescita della tv outdoor, il consumo di immagini televisive in mobilità mettono oggi in sempre maggior evidenza l'inadeguatezza del modello di business televisivo tradizionale, modello che si regge fondamentalmente sulla pubblicità, propone contenuti basati prevalentemente sull'intrattenimento, ed è caratterizzato da costi di produzione talmente elevati da poter essere remunerati dal mercato per una parte non superiore al 30%. L'intelligenza artificiale, con particolare riferimento al trattamento automatico del linguaggio naturale, nonché un'adeguata riprogrammazione dei sistemi di emissione, permettono oggi lo sviluppo di applicazioni televisive basate su di un modello di business innovativo. Tale modello consente, con costi frazionali rispetto a quelli usuali, di virare i contenuti dall'intrattenimento all'utilità, nonché di rendere eccellenti e attrattivi i contenuti rivolti all'integrazione e alla comunità solidale, come prima risposta alla globalizzazione sociale ed economica.





PA Risponde: QA, Semantica, Open Data ed App at work per la Pubblica Amministrazione
Piero Molino
Univ. Bari "Aldo Moro" & QuestionCube

Semantic search and Question Answering are emerging technologies that have the potential to significantly improve the search time and the quality of the results, allowing a more natural and transparent approach to the retrieval of information. QuestionCube, a start-up founded in 2011 with the aim of developing semantic search engines and Question Answering systems, presents PA Risponde, an application that allows searching through Italian government's FAQ. The adopted dataset is licensed under Italian Open Data License (IODL 2.0) by Linea Amica, the government's multichannel contact center. The application has been awarded in the Apps4Italy competition at Forum PA. PA Risponde shows the potential of the use of semantic technologies, alongside with Natural Language Processing, for the access to Open Data and provides also a usefull and simple-to-use instrument to the citizen.



Natural Language Processing Information Retrieval: from heuristic-based search to deep Question Answering of IBM Watson
Alessandro Moschitti
Univ. Trento

Just about one and half decades ago, although promising, the role of Natural Language Processing (NLP) for the design of real-world applications still was rather unsatisfactory.
In contrast, in the same time span, Information Retrieval (IR) systems had been demonstrating their effectiveness, basically without using any deep linguistic analysis or semantic processing.
Some years ago, a first level of semantic analysis, e.g., text categorization or named entity recognition, started to play an important role in commercial applications, also thanks to potential business opportunities in the field of sentiment analysis.
Such renewed interest in NLP has been mostly due to some changes in user needs, e.g., extraction and synthesis of information from large amount of data rather than document search based on semantic processing.
Very recently, in February 2011, the performance of the IBM Watson system, an advanced question answering pipeline based on deep linguistic processing and semantic resources, demonstrated that automatic methods can be more accurate than human experts in searching and finding information. Additionally, the fast Watson's response made its search far more effective than the one operated by a human being using automatic keyword-based methods.
This talk aims at highlighting the most important features of NLP, IR and machine learning technology for the design of competitive commercial applications. Such features range from advanced deep linguistic analysis to the use of semantic resources as well as effective machine learning models. The combination of the so-called deepQA technology along with the availability of large computational power allowed Watson to achieve accurate semantic IR.


Explicit Semantic Analysis for Personalized Electronic Program Guides
Fedelucio Narducci
Univ. Milano-Bicocca
SWAP Research Group

Personalized Electronic Program Guides (EPGs) help users overcome information overload in the TV and video domain by exploiting recommender systems that automatically compile lists of novel and diverse video assets, based on implicitly or explicitly defined user preferences. The research presented in this talk was carried out in the context of APRICO Solutions (www.aprico.tv), a software company that is part of Philips Electronics, which develops video recommender and targeting technology, primarily for the broadcast and Internet industries. The exploited EPG data was provided by Axel Springer (www.axelspringer.de), a strategic partner of APRICO Solutions. The dataset contained a set of 133,579 TV-show descriptions, from a set of 47 broadcast channels in the German language. TV shows have been broadcast between April 2009 and April 2011. 
In this talk we will present a new Wikipedia-based representation for TV-show descriptions by applying a new technique named Explicit Semantic Analysis. 
The aim of this approach is to enrich the textual description associated to a TV show with additional knowledge extracted from Wikipedia. 
This work is in conjunction with Philips Research – Eindhoven (NL).



Cognitive Linguistics as the Underlying Framework for Semantic Applications: from Semantic Annotation to Complete NLIs
Arianna Pipitone
Univ. Palermo

In recent years many attempts have been made to design suitable sets of rules aimed at creating Natural Language Interfaces (NLIs) for ontologies but very few approaches make extensive use of grammars. Current systems are focused only on verbalizing information contained inside the ontology, while it is often necessary to give exhaustive answers to the users' queries by retrieving data outside of it, that is what is called expanded retrieval. This is particularly true in the case of digital user tutorials where users need exhaustive answers to their questions about the usage of documented tools or in semantic access to enterprises' databases where the ERD is mapped to the ontology but instances remain out of the semantic resource. Extensive use of linguistic resources is needed in this scenario to infer semantics from external data.
A framework inspired to Cognitive Linguistics theories is proposed in this work that is aimed at facing the problem outlined above. In particular, our work is based on Construction Grammar (CG). CG defines a "construction" as a form-meaning couple. We use RDF triples in the domain ontology as the "semantic seeds" to build constructions: a suitable set of rules based on linguistic typology have been designed to infer semantics and syntax from the semantic seed, while combining them as the poles of constructions. Computing all possible syntactic forms for the same meaning during an information retrieval procedure triggered by the user query allows semantic annotation of plain text as a side effect. 
The whole framework is presented in detail along with its applications. A system for automatic generation of Semantic MediaWiki contents from standard Wikipedia pages, and the ongoing experimentations for a complete NLI to suitable enterprise domains are presented.



Il futuro di Watson e l'eterno del linguaggio 
Guido Vetere
Center for Advanced Studies IBM Italia

Nel 2007 IBM ha deciso di affrontare il problema dell'open-domain question answering, uno di quelli più difficili in Intelligenza Artificiale, sfidando i campioni umani al gioco Jeopardy!  Come sappiamo, la sfida è stata vinta da un sistema chiamato Watson nel Febbraio del 2011. A differenza della vittoria a scacchi di DeepBlue su Kasparov nel 1997, il successo di Watson apre prospettive applicative molto rilevanti, dalla sanità all'analisi finanziaria, dalle normative alle relazioni con l'utenza, ovunque sia necessaria una comprensione profonda del linguaggio naturale. Nel futuro potremo quindi attenderci la maturazione di un paradigma di interazione uomo macchina basato sul dialogo naturale, in una nuova generazione di sistemi intelligenti.
Nel perseguire l'obiettivo della vittoria al gioco Jeopardy! Watson ha trovato davanti a sé il classico problema del significato linguistico, più o meno nei termini in cui si presenta sin dai tempi della filosofia antica.
L'approccio estremamente pragmatico del team di ricerca IBM, nel rifiutare qualsiasi preconcezione teorica, ha prodotto (solo apparentemente in modo paradossale) un interessante risultato filosofico. La novità di Watson è infatti nell'idea che la comprensione del linguaggio sia l'attuazione simultanea di euristiche di molti tipi diversi, anche a volte conflittuali, che trovano una sintesi in ipotesi sempre provvisorie. Ne emerge una visione del linguaggio che dice molto rispetto ai temi della teoria del significato, per come si è sviluppata nella filosofia analitica del Novecento.  




Comments