Българската компания за семантичен софтуер Онтотекст отправя предизвикателство към екипи от ентусиасти, които ще участват на Datathon 2017, като им предлага да преобразуват данните от Търговския регистър във формат отворени и свързани данни (Linked Open Data – LOD). Целта е да се демонстрира как семантичниите графови бази данни могат да разкрият връзки и скрити факти в масив с ненормализирани данни. Например:
- да идентифицират и класифицират най-големите групи от свързани фирми в България или в определен район;
- борд разходка: да анализират как съвместното участие на директори в бордове на различни фирми се отразява на сферите им на влияние.
Като част от първото практическо предизвикателство, свързано с обработка и анализ на данни за Централна и Източна Европа - Datathon Bulgaria, Онтотест ще участва с "Да хакнем Търговския регистър”. За целта, Онтотекст ще предостави на екипите част от данните от търговския регистър между 2008 - 2017 година. Със съдействието на ментори, участниците ще бъдат преведени през процеса на превръщането на тези данни в свързани отворени данни с помощта на прост RDF модел и свързването им с други отворени масиви от данни.
Търговският регистър се администрира от Агенцията по вписванията и е достъпен онлайн от 2008 година. Регистърът съдържа информация за всички компании и юридически лица в България, включваща адреси, собственици и управители. Това е информационен ресурс с голяма обществена значимост, чиято цел е да подпомага компаниите и ограничава корупцията.
За предизвикателството Datathon 2017 Онтотекст ще партнира с OpenCorporates – най-голямата отворена база данни от компании и бизнес информация в света, с над 120 милиона фирми от над 100 държави. OpenCorporates е партньр на Онтотекст по програмата Хоризонт 2020, по проекта euBusinessGraph, който цели да създаде платформа за интегриране, хармонизиране и публикуване на данни за европейските компании.
Основната цел на OpenCorporates е да направи информацията за компаниите по-използваема и широко достъпна за обществото, и по-конкретно - да бъде използвана за превенция на криминални и анти-обществени дейности, свързани с използването на фирми, като например корупция, пране на пари и организирана престъпност. Това е много важна задача в контекста на все по-голямата роля, която играят фирмите в съвременното общество с мрежи от юридически лица в различни държави.
Предизвикателството от страна на Онтотекст ще покаже как един голям набор от изключително сложни данни, като тези на търговския регистър - в момента те са организирани като набор от ежедневни актуализации в XML файлове - могат да бъдат агрегирани и превърнати в LOD формат, който да е достъпен, отворен (основан на отворени стандарти и препоръки от W3C) и взаимосвързан (показващ връзките между фирми, управители, местоположения, регулаторни и съдебни дела).
Полученият масив от данни ще позволи всички тези данни да се свържат лесно с други отворени източници на данни, като например Geonames (всички географски обекти на Земята), DBPedia (структурирана версия на Wikipedia), Wikidata, OpenCorporates и много други. Създаването на LOD формат на Търговския регистър има потенциала да направи данните по-прозрачни и информативни за бизнеса, както и по-лесни и ефективни за търсене в тях от страна на изследователи и журналисти. По този начин ще се улесни достъпът до тях и ще се подпомогне борбата с корупцията.
Менторите в процеса на "хакване" на търговския регистър ще са Димитър Манов и Пламен Търкаланов от Онтотекст, и Алекс Ангелов от OpenCorporates. Седмица преди събитието, Онтотекст предоставя на екипите безплатни обучителни видео материали, адаптирани от еднодневното обучение: "Какво е успешен прототип със семантични технологии". На място, преди самото предизвикателството да започне, менторите ще споделят полезни практически съвети и хитрини. Всеки участник ще получи ваучер за безплатно ползване на стандартната версия на GraphDB on the cloud, който ще важи три месеца след събитието.
Dathaton Bulgaria ще се проведе между 24 и 26 март 2017 и ще награди отборите, стигнали до най-прецизно, креативно и елегантно решение на проблемите, свързани с обработка и анализ на данни.
Препоръчани етикети / тагове: Ontotext, Онтотекст, семантични технологии, semantic web, semantic technology, Sirma, Сирма, GraphDB, софтуер, софтуерна компания
Повече за "Онтотекст"
"Онтотекст" разработва и внедрява семантични технологични решения с висока производителност, мащабируемост и богат набор от полезни функционалности за всеки бизнес, който залага на създаване, обогатяване и разпространение на големи обеми динамични свързани данни и съдържание. Онтотекст е известен с няколко свои продукта: DSP - Семантична Платформа за Динамично Публикуване на съдържание и данни (включва семантично анотиране на текстове, интелигентно търсене, препоръчване на релевантна информация на потребителите), GraphDB (семантична база данни, доказала се като най-бързото и мащабируемо RDF хранилище за свързани данни). Решенията, създавани с технологиите на Онтотекст, пестят значително време и финансови ресурси в процеса на достъп и обработка на текст и данни от множество източници в сферата на Life-sciences (фармацевтика, медицина, биология), издателската дейност на новини, научно и образователно съдържание, търговското разузнаване (Business Intelligence), телекомуникациите, културно-историческото наследство и други.
Сред клиентите на Онтотекст са организации като BBC, Press Association, Financial Times, Euromoney, AstraZeneca, Wiley, DK, Korea Telecom, Организация на Обединените Нации, Британския Парламент, Британския музей и други. През последните десет години Онтотекст се е наложила и като важен участник в редица значими проекти с отворен код, като GATE и Sesame. С привличането неотдавна на SpringerNature, Онтотекст вече има за клиенти три от петте най-големи научни издателства в света, включително Elsevier (което е номер 1) и John Wiley & Sons. Други клиенти от този сегмент са Oxford University Press и IET. Онтотекст е една от най- иновативните и успешни български софтуерни фирми и е част от Сирма Груп Холдинг.