Программа SiteSputnik. Документы, файлы, списки, таблицы
Программа SiteSputnik. и другая выдача программы
Дата выхода публикации: 19.06.18г.
Последнее изменение: 06.10.24г.
Аннотация
В данной публикации собрана основная выдача, создаваемая программой SiteSputnik.
Она приведена не в порядке значимости.
Перечень документов, файлов, списков, таблиц Название файла - его назначение ... .
Запрос, Пакет, Проект - текст выполняемого Задания, а именно: Простого запроса, Пакета запросов, Проекта.
URL-источников - список всех открытых при выполнении Задания адресов элементарных Источников информации.
Экспорт-txt - список в виде текстового документа адресов всех найденных ссылок.
Экспорт-htm - список в виде html-документа адресов всех найденных ссылок.
Объединение ссылок уникальных - список в виде сниппетов всех найденных уникальных ссылок.
Ссылки новые - список в виде сниппетов всех новых уникальных ссылок, точнее впервые найденных ссылок за всю историю работы по Заданию.
Они не встречались ещё ни разу ни в одном из предыдущих выполнений Задания.
Экспорт-новые-txt - список в виде текстового документа адресов всех новых уникальных ссылок.
Сайты новые - список только новых уникальных сайтов. Впервые найденные сайты. Определяются из адресов "Ссылок новых".
Домены 3-го уровня новые - список только новых уникальных доменов 3-го уровня. Впервые найденные. Определяются из адресов "Ссылок новых".
Ссылки открытые - список ссылок, ранее открытых или скачанных программой СайтСпутник в виде сниппетов.
Загрузки - база данных, хранящая содержание всех открытых или скачанных ссылок (из всех Заданий).
Все сниппеты в одном - если ссылка была найдена несколькими Источниками в Задании, то сниппеты и кеш-ссылки из разных Источников для каждой ссылки объединяются в один "большой" сниппет.
Общие - список ссылок (в виде сниппетов), которые были найдены абсолютно всеми Источниками, задействованными в Задании.
Черный и белый списки - запрещенные и обязательные лексемы в сниппетах.
Заголовки - перечислены только заголовки и адреса ссылок (упрощенные сниппеты). Применимо практически для всех описанных и выше, и ниже документов.
Выдача источника - для каждого источника его выдача сохраняется в отдельном файле.
Аналитическое объединение - несколько списков Объединение ссылок уникальных или списков Ссылки новые объединяются в один список.
!
Чем в большем количестве списков присутствует ссылка, тем ближе к началу "Аналитического объединения" она расположена.
Разность - из одного списка удаляются ссылки, присутствующие в другом списке.
Карты - иерархические (древовидные) структуры из адресов ссылок, найденных в Задании.
Также в отдельных файлах создается папочная, ресурсная и доменная структура web-пространства, попавшего в поле зрения Задания.
Карта сайта - иерархическая (древовидная) структура из принадлежащих сайту адресов ссылок, найденных в интернете.
Обращения к самому сайту не выполняются, выполняются только запросы в поисковиках.
Материализация видимого интернета.
RSS-потоки все - список всех RSS-потоков, адреса которых размещены на открываемых или скачиваемых страницах в Задании.
RSS-потоки новые - список только тех RSS-потоков из предыдущего списка, которые не встречались ещё ни разу ранее.
RSS-потоки новые+ - список только тех RSS-потоков новых из предыдущего списка, контент которых содержит заданные ключевые фразы.
URL-ссылки все - список всех ссылок, скачанных или размещенных в контенте скачанных, адреса которых удовлетворяют заданному фильтру.
URL-ссылки новые - список только тех ссылок из предыдущего списка, которые не встречались ранее.
URL-потоки новые - поток ссылок из предыдущего списка (это не RSS-потоки - это их эмуляция).
Полезно, например, если страницы не содержат RSS-потоков или RSS-ки приносит не ту информацию, которая интересует.
URL-потоки новые+ - поток ссылок из предыдущего списка, контенты которых содержат заданные ключевые фразы.
Статистика по Источникам текущая (зеленая табличка) - показывает в абсолютном и процентном выражении эффективность работы каждого Источника
для текущего выполнения Задания, а именно: сколько найдено им ссылок всего, сколько новых, сколько попавших в Рубрики.
Статистика по Источникам обобщенная (голубая табличка) - показывает "усредненную" эффективность работы Источников, опираясь на Статистики текущие.
Статистика по Источникам полная (розовая табличка) - показывает "усредненную" эффективность работы всех когда-либо примененных в Задании источников.
Замечание: Все Пять Текущих статистик (п.27,30,31,32,33) могут быть представлены в xlsx-формате и при каждом выполненни Задания
выгружены во внешнюю папку,
которая может быть целевой для приложений, например, аналитических, наример, Microsoft Power BI.
Статистика по Рубрикам текущая сокращенная - показывает сколько ссылок попало в каждую Рубрику при текущем выполнении Проекта.
Статистика по Рубрикам+Источники+их домены текущая - показывает сколько ссылок попало в Рубрику в разрезе Рубрика-Источник.
Статистика по Рубрикам+Домены Ссылки текущая - показывает сколько ссылок попало в Рубрику в разрезе Рубрика-Домен ссылки.
Статистика по Рубрикам текущая расширенная - самые подробные сведения (от 15 и выше характеристик) о Рубриках, Источниках, доменах, ссылках, ключевых фраз, ..., задействованных в Задании.
Статистика по Рубрикам (желтая табличка) - показывает когда и сколько ссылок попало в каждую Рубрику (история заполнения Рубрик).
График по статистике - графическое отображение Статистики внешими Приложениями, например
Инфографика для Задания
"Финансы".
Сигнализация - табличка на базе Статистики по Рубрикам, описывающая условия возникновения сигнала, и табличка, отражающая сработавшие сигналы.
Чистый поток - полнотекстовая лента из очищенных от мусора контентов новых или всех ссылок, найденных и скачанных в Задании.
Символьный поток - полнотекстовая лента из неочищенных контентов новых или всех ссылок, найденных и скачанных в Задании.
Повторные - дубли контентов из Чистого или Символьного потоков перемещаются в этот документ.
Все комментарии - лента из комментариев, написанных к ссылкам из "Чистого или Символьного потоков".
Фрагменты новой информации - лента из фрагментов страниц, новых относительно их предыдущего содержания.
Рубрика (Всё по Рубрике) - удовлетворяющая правилам попадания в Рубрику часть "Чистого или Символьного потока", или "Все комментарии", или "Фрагментов новой информации".
Пост-запрос - специальная рабочая Рубрика. Правила попадания в неё прописываются не в иерархии Рубрик или тексте Проекта, а в Настройках.
Применяется и в +WebSpider, и в +News.
Рубрика-Ссылки - перечислены все Рубрики, задействанные в Проекте, и для каждой Рубрики перечислены все попавшие в неё ссылки с их заголовками.
Ссылка-Рубрики - перечислены все ссылки с их заголовками, найденные в Проекте, и для каждой ссылки перечислены Рубрики, в которые она попала.
Неоткрывшиеся - перечислены все ссылки, которые не удалось открыть или скачать на любом этапе выполнения Задания.
Невидимые - перечислены отсутствующие в поисковиках, но существующие и найденные методами поиска в невидимом интернете ссылки сайта.
Подсвеченные (выделенные) фразы, точнее содержащие их предложения могут быть выведены в отдельный файл.
Упоминание объектов - список ЮЛ и ФЛ, присутствующих на самых релевантных ссылках, вычисленных при сборе информации об объекте, и количество их упоминаний.
Tаблица-htm - табличное представление документа в виде html-таблички (доступно для многих документов из этого списка).
Таблица-xls - табличное представление документа в виде Excel-таблички (доступно для Рубрик и Чистых потоков).
JSON-файл - представление документа в json-формате (доступно для Рубрик и Чистых потоков).
Локальный файл - практически любой документ может быть отправлен в любое количество папок локальной сети.
Web-файл - практически любой документ может быть отправлен в любое количество папок заданного сайта. Или телеграм-каналы.
E-mail-файл - практически любой документ может быть отправлен по заданным электронным почтовым адресам.
Проект главный - полный текст проекта, связанного с текущей папкой (текущим ящиком). Он хранится в библиотеке готовых проектов.
Проект расширенный - содержит автоматически обнаруженные и автоматически подключенные источники вида RSS-потоки и URL-потоки, приносящие информацию в Рубрики.
Проект проверочный - текст проекта, содержащий источники-кандидаты на попадание в Проект расширенный.
Проект исполняемый - текст проекта, который выполнен. Может совпадать с главным, проверочным, расширенным проектом или получен из пакета с параметрами.
Журнал ошибок и предупреждений - все ошибки, предупреждения и замечания по работе Задания - в одном месте.
Практически любая выдача программы может быть сохранена как документ в формате PDF, DOCX, XLSX, RTF, TXT, HTML или конвертирована в формат JSON.
Лог-файл программы - регистрация в хронологическом порядке основных событий и действий программы и запоминание их в текстовом файле.
Лог-файл пользователя - ориентированная на обычного Пользователя регистрация его действий и полученных результатов: ссылки на практически всю перечисленную выше выдачу СайтСпутника попадают в один файл,
имеющий простую древовидную структуру. Он доступен в любое время.
Планировщик Задач - файл, содержащий расписание, по которому выполняются Задания.
Он и тексты Заданий составляются Пользователями, остальное создает и/или выполняет программа SiteSputnik.
Экспорт документов
Вся выдача программы СайтСпутник, перечисленная в данной публикации, доступна для Ботов, написанных самостоятельно, и других Приложений (программ), если они способны работать с ней.