четверг, 2 ноября 2017 г.

Автоматизированное управление электронными документами? Решили ли мы эту задачу? Часть 2


(Окончание, начало см. https://rusrim.blogspot.ru/2017/11/1.html )

Вы можете спросить, изменилось ли что-нибудь в мире ИИ, появились ли способы  решить эти проблемы? Мы в компании Millican считаем, что ответ на этот вопрос - решительное «Да», но, возможно, эти способы будут не такими, как мы изначально планировали использовать ИИ.

Многие технологические компании, в том числе из числа крупнейших в мире, инвестировали миллиарды долларов в облачные сервисы «больших данных» и ИИ, где «большие данные» и ИИ - это взаимно-дополняющие сервисы, способные решать самые сложные из проблем, с которыми в своё время столкнулось решение AutoRecords.

Такие компании, как IBM, начали делать удивительные вещи с ИИ, - например, их программа Watson выиграла игровое шоу Jeopardy (в российской версии – «Своя игра» - Н.Х.) в борьбе против лучших соперников-людей. Искусственный интеллект от Google недавно победил лучшего игрока в мире в «го», а многие другие добились впечатляющих достижений, которые прежде считались невозможными.

Уроки, извлеченные из этих достижений, теперь используются в облачных API-интерфейсах, доступных широкой общественности для решения многих проблем реального мира. Сейчас наступил идеальный момент для того, чтобы заново рассмотреть возможности использования ИИ для управления электронными документами,  используя в этих целях новейшие облачные сервисы «больших данных» и ИИ.

Последние предложения облачных услуг в сфере современного искусственного интеллекта (так называемых когнитивных вычислений) и «больших данных» включают широкий спектр услуг. В настоящее время есть возможность сканировать источники данных, расположенные на площадке организации, на мобильных устройствах и в облаке. С помощью облачных сервисов когнитивных вычислений и больших данных мы способны интерпретировать эти данные так, как никогда прежде.

Этот беспрецедентный уровень понимания дает нам возможность принимать более качественные решения о том, как лучше всего управлять нашими электронными документами.

Мой комментарий: Я очень уважаю и интересуюсь как ИИ, так и «большими данными». В то же время, опираясь, в том числе, на собственный жизненный и научный опыт, я твердо верю в то, что всегда, когда есть такая возможность, лучше обойтись высококачественными, правильно и целевым образом собранными «маленькими данными», чем перемалывать «информационные помойки» и надеяться на чудо. Лучше создать информационный конвейер, в котором документы автоматически будут откладываться там, где надо, чем сначала свалить их в кучу, а затем эту кучу сортировать при помощи ИИ. Прежде чем браться за внедрение ИИ, нужно навести элементарный порядок в деловых процессах – это обычно и дешевле, и эффективней.

Чтобы понять, где мы сейчас находимся в плане когнитивных вычислений в сравнении с тем, где мы были во времена AutoRecords, достаточно посмотреть на усилия крупных поставщиков технологий, таких, как IBM, Microsoft, Google, DeepMind, Amazon и ряд других. Эти технологические компании коллективно инвестировали миллиарды долларов в разработку и применение технологий когнитивных вычислений (существуют также очень крупные проекты решений с открытым исходным кодом, такие как TensorFlow, H2O и другие).

Когнитивные вычисления помогают решать проблемы реального мира, с которыми люди не в состоянии справиться самостоятельно. Недавно IBM Watson решил проблему медицинского ухода за пациентом, которая в течение нескольких месяцев ставила в тупик врачей. Google даже изменил свой подход к поиску. В статье на сайте «The Wired» под названием «ИИ трансформирует систему поиска  Google. На очереди остальная часть Интернета» (AI Is Transforming Google Search. The Rest of the Web Is Next, см. https://www.wired.com/2016/02/ai-is-changing-the-technology-behind-google-searches/ ) обсуждается, как компьютеры сегодня выполняют определенные функции поиска, которые до недавнего времени требовали человеческого понимания и интуиции. Решение AutoRecords, с его использованием технологии ИИ, из опередившего свое время стало теперь таким, как все – в то время, как сфера применения ИИ быстро расширяется. Нет никаких сомнений в том, что рынок ИИ стал зрелым.

Обучение

Большой проблемой, с которой мы столкнулись при продвижении решения AutoRecords, были обучающие наборы данных (эти наборы используются для того, чтобы научить когнитивные сервисы выявлять закономерности в данных). Большой проблемой является обеспечение доступности большим вычищенных обучающих наборов - особенно когда со временем происходят изменения разного рода. Многие из доступных сегодня когнитивных облачных сервисов предлагаются предварительно обученными и готовыми к использованию. Есть даже возможность опробовать некоторые из них в онлайн-режиме, прежде чем решиться вкладывать в них средства (см. http://alchemy-language-demo.mybluemix.net ).

Технологические компании обучают свои когнитивные API для «горизонтального» (типовых задачи, встречающиеся в различных отраслях – Н.Х.) и «вертикального» (задачи, характерные для конкретной отрасли – Н.Х.) использования, используя в качестве обучающих наборов такие ресурсы, как Википедия и наборы большие данных в области здравоохранения, банковского дела и др.

Фирма IBM недавно приобрела обслуживающую банки компанию отчасти потому, что сможет использовать те знания, которые эта компания имеет в банковской отрасли - эти знания могут применяться для обучения IBM Watson, позволяя этому решению лучше обслуживать клиентов. Такой подход намного превосходит тот, что мы использовали для  AutoRecords, где обучение системы своими силами представляло для клиентов серьезную проблему.

Многомерность

Вторая проблема, с которой мы столкнулись в своё время при внедрении AutoRecords, заключалась в том, что классификация была «единственной точкой отказа». Мы полностью зависели от качества результатов выполненной AutoRecords классификации в части понимания документа и выполнения на этой основе определенных действий

Наличие единственной классификации (даже при наличии ложных положительных и негативных результатов) не столь проблематично, когда решения принимаются по нескольким показателям, причем каждое такое «измерение» вносит ценный вклад в общий процесс принятия решений.

Как обсуждалось ранее, часто недостаточно знать лишь то, что, например, документ представляет собой резюме. Когнитивные сервисы могут теперь обеспечить гораздо более глубокое понимание документов, создавая «измерения» для понятий, ключевых слов, сущностей, связей, настроений, авторов и т.д.

Например, для занимающегося подбором персонала кадровика знание взаимосвязи автора документа, его роли в организации и лица, о котором говорится в резюме, могут иметь решающее значение для управления документом. Теперь машина может создавать эти связи, не завися от единственной классификации документа как резюме.

Характерные «шаблоны» того, кем люди являются, где работают, что делают и какие данные применяют, могут быть использованы при сканировании и объединении ценной информации в большие наборы для когнитивной обработки и анализа.

Прочие решаемые проблемы

Технологии сегодняшнего дня способны решить все многочисленные проблемы с алгоритмами, масштабируемостью и управлением изменениями во времени:
  • Алгоритмы. Используемые сегодня алгоритмы стали намного изощрённее и включают возможности для самообучения и использования колоссальных массивов данных, которые ранее были недоступных для локальных решений. Существует также намного больше алгоритмов для специализированных приложений, таких, как распознавание текста, речи, визуальных образов, понимание данных и многое другое. Эти алгоритмы могут использоваться совместно или по отдельности, в зависимости от потребностей.

  • Масштабируемость. Современные облачные сервисы масштабируемы лучше, чем когда-либо прежде. Ожидается, что новые исследования и разработки в сфере облачных вычислений и платформ, с использованием таких технологий, как Docker и контейнеризация, будут идти в ногу с быстрым ростом объемов производимых данных. Для повышения производительности облака Microsoft, Google, IBM и другие компании даже разрабатывают специализированные перепрограммируемые компьютерные чипы.

  • Изменения. Клиентам облачных сервисов сегодня намного проще управлять изменениями. По мере совершенствования алгоритмов, их можно заменить и продолжить обработку с того места, где завершил работу предыдущий алгоритм, используя при этом для обучения одни и те же наборы данных. По мере того, как ИИ со временем совершенствуется, поставщики облачных услуг могут изменить эти алгоритмы для Вас, не прерывая работу сервиса – кстати говоря, доклад Стэнфордского университета «Искусственный интеллект и жизнь в 2030 году» (Artificial Intelligence and Life in 2030, http://ai100.stanford.edu/2016-report ) охватывает развитие ИИ за последние 100 лет вплоть до сегодняшнего дня, отмечая многие изменения, произошедшие в отрасли с течением времени.
Собирая все части воедино

Сочетание когнитивных облачных сервисов и аналитики больших данных является  мощным инструментом для понимания ценности, стоимости и риска оптимизированного управления электронными документами. Аналитика больших данных обеспечивает богатый набор функциональных возможностей для визуализации данных, включая возможность объединять вместе взаимосвязанные данные из нескольких источников, - например, сведения о затратах на хранение, ведение исковой работы и на исполнение законодательно-нормативных требований.

Аналитика больших данных - это механизм для использования всех измерений, которые идентифицируются когнитивными сервисами, при обработке больших объемов электронных документов. Сервисы больших данных легко могут коллективно использоваться различными группами внутри организации, что позволяет применять полученную аналитику для других задач. Служба полномасштабного (стратегического) управления информацией / управления корпоративными документами - лишь одна из многих групп, которые могут использовать инвестиции своей организации в большие данные. Еще одна часть головоломки - технология сканирования данных (crawl). Эта технология может работать внутри защищенного периметра для сбора данных из нескольких локальных источников и их объединения в центральной точке для анализа (например, PostgreSQL, Apache Cassandra и другие решения). Технология сканирования  также может использоваться для того, чтобы, опираясь на результаты аналитики, обеспечить исполнение законодательно-нормативных требований в том, что касается  первоисточников данных, включая принятие решений по управлению данными на месте или передаче их в центральный архив на площадке организации либо в облаке.

Если три ключевых технологических компонента -  сканирование данных, когнитивные облачные сервисы и аналитика больших данных - обеспечивают решение проблем управления электронными документами, то завершающим элементом является облачное хранилище - место для размещения всех этих данных (например, распределенная файловая система Hadoop на собственной площадке или в облаке). По мере устаревания систем, облачный «интеллектуальный архив», управляемый основными компонентами решения, обеспечивает экономичное хранение документов с целью их повторного использования и обеспечения долговременной сохранности.

Что ждёт нас в будущем

Очевидно, что дни традиционных решений для управления документами сочтены. В своей недавней статье, опубликованной на сайте «Wired» под названием «Конец кода» (The End of Code, https://www.wired.com/2016/05/the-end-of-code/ ), Джейсон Танц (Jason Tanz) предполагает, что скоро мы не будем программировать компьютеры; вместо этого мы будем обучать их, как собак. В недалеком будущем мы будем тратить своё время на обучение компьютеров и на то, чтобы задавать правильные вопросы, тем самым запуская правильную обработку наших документов - вместо того, чтобы покупать и внедрять дорогостоящие решения для управления контентом и документами, и вручную кодировать сценарии обработки. Это побуждает некоторых людей провозгласить наступление конца технологических компаний. В отрасли управления электронными документами мы уже наблюдаем отказ от крупных закупок специализированного программного обеспечения, и смещение финансирования с традиционных инвестиций в ИТ-технологии в инвестиции в большие данные и облако.

В заключение, мы полагаем, что, спустя полтора десятилетия после создания нами решения AutoRecords, мир ИИ полностью созрел, и теперь ИИ достаточно мощен для того, чтобы эффективно удовлетворять чрезвычайно сложные потребности современного управления корпоративными документами. Технология ИИ созрела для того, чтобы взять на себя задачу обработки огромных объемов данных и определения того, как наилучшим образом управлять ими с течением времени. Теперь мы можем использовать когнитивные сервисы для формирования чрезвычайно мощных решений для наших клиентов. Эти решения предусматривают эффективное и значимое использование в интересах всей отрасли управления электронными документами возможностей технологий сканирования источников данных, облачных когнитивных сервисов и сервисов больших данных.

Тим Шинкль (Tim Shinkle, о нём см. также  https://www.linkedin.com/in/tim-shinkle-4583121/ ), вице-президент американской фирмы Millican and Associates по оказанию услуг в области менеджмента информации

Источник: сайт IDM – Image and Data Manager
http://idm.net.au/article/0011369-automated-electronic-records-management-are-we-there-yet

1 комментарий:

  1. .
    " чем сначала свалить их в кучу, а затем эту кучу сортировать при помощи ИИ. Прежде чем браться за внедрение ИИ, нужно навести элементарный порядок в деловых процессах – это обычно и дешевле, и эффективней"

    .
    Совершенно с Вами согласен.

    ОтветитьУдалить