Обязательный электронный экземпляр и преобразование PDF в PDF/A для РГБ

izrukvruki

12 лет на форуме
Сообщения
1 701
Реакции
283
А у вас все нормально обрабатывается?
на некоторых файлах такое сообщение
1612524672456.png
 
Последнее редактирование:

_MBK_

Пикирующий бомбардировщик
15 лет на форуме
Сообщения
31 918
Реакции
10 474
А у вас все нормально обрабатывается?
на некоторых файлах такое сообщение
Посмотреть вложение 140659
Это сообщение означает что в обрабатываемом PDF не найдены объекты которые можно поменять (то есть как я понимаю, встроенные CID шрифты с таблицей)
 
  • Спасибо
Реакции: Валера1966

~RA~

12 лет на форуме
Сообщения
10 358
Реакции
2 972
она формирует новое имя файла из старого отрезая последние 4 символа и приклеивая взамен их "+.pdf"
Это сообщение означает что в обрабатываемом PDF не найдены объекты которые можно поменять

Не по теме:
А можно и мне к вам в клуб КО? ;)
 

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
16 432
Реакции
7 588

Lupantrop

Участник
Сообщения
20
Реакции
6
Коллеги, приветствую! Думаю, многие знают, что в этом году РКП передали в РГБ. Начался очередной этап движухи по реформированию системы обязательного экземпляра... В этих наших интернетах пишут:
Приглашаем всех, кто выпускает издательскую продукцию, принять участие в опросе по модернизации системы приёма электронного обязательного экземпляра. Его проводит Российская государственная библиотека совместно с Ассоциацией книгоиздателей России, Российской книжной палатой, Российским книжным союзом, журналом «Книжная индустрия», Гильдией книжников и Союзом предприятий печатной индустрии.
РГБ разрабатывает единую цифровую платформу для приёма обязательного экземпляра печатных изданий в электронной форме. С помощью опроса мы надеемся получить от профессионального сообщества оценку работы существующей системы и услышать предложения по её развитию и модернизации.
Опрос продлится до 22 марта 2021 года.
Анкета состоит из двух частей: для руководителей Опрос по модернизации системы Электронного обязательного экземпляра (ЭОЭ) для руководителей
для технических специалистов Опрос по модернизации системы Электронного обязательного экземпляра (ЭОЭ) для технических специалистов

Если что, мопед не мой, я давно ушёл в другой проект. Не поминайте лихом))
 

german

15 лет на форуме
Сообщения
4 565
Реакции
645
  • Спасибо
Реакции: Lupantrop

izrukvruki

12 лет на форуме
Сообщения
1 701
Реакции
283
У меня вот какой вопрос: ведь нужно чтоб по файлу работал поиск. А если у меня текст с переносом, то поиск не работает. И какой тогда смысл во всем этом?
1617192361425.png
 

german

15 лет на форуме
Сообщения
4 565
Реакции
645
А какой вообще смысл во всем происходящем вокруг? (ну, помимо, разумеется, 42)
что касается архивных файлов для РГБ - то вот точно стоит вопрос присутствия смысла
 

szekell

Участник
Сообщения
1
Реакции
0
точно такая же проблема, не пропускает ргб. помогите плиииииз
 

~RA~

12 лет на форуме
Сообщения
10 358
Реакции
2 972
Чем?
 

trusyuk

Участник
Сообщения
2
Реакции
0
Ребят, помогите избавить
С легкой руки @_MBK_, сочинилась забавная схема, как можно лечить PDF от многих ошибок вида "хрен знает, что там произошло и ни фига не поймешь, как это можно исправить". :)

Здесь после каждого очередного преобразования делается проверка Префлайтовским "Verify compliance with PDF/A". Если после проверки все в порядке, то тема закрыта, если нет, то продолжаем дальше.

1. Берем проблемный PDF и для начала пропускаем его через через Префлайтовское "Convert to PDF/A".
2. Если ошибка сохранилась, то делаем из PDF PS-файл и конвертим его в Дистиллере в PDF/A.
3. Если ошибка все одно упорствует, то опять прогоняем через Префлайтовское "Convert to PDF/A".
Если эта зараза все равно не уходит, крутим по кругу, пока она окончательно не прибьется. :)

Вначале такое было рассчитано на ошибки типа "Абсолютное реальное значение должно быть меньше или равно 32767.0" и им подобные ([XI] - PDF Reference Таблица C.1 ("Architectural limits") - о чем там идет речь?). И на них срабатывало очень даже неплохо.
Но любопытства ради попробовал на нескольких PDF с другими ошибками - выяснилось, что и там вполне себе работает. При этом пока что для эффективного лечения вполне хватало одного круга, на второй еще ни разу уходить не приходилось.

На данный момент удалось вылечить PDF от следующих ошибок.
"Номер объекта и номер поколения разделяются однократным символом свободного места (пробела). Номер поколения и ключевое слово obj разделяются однократным символом пробела. Каждому номеру объекта и ключевому слову endobj предшествует маркер EOL. Каждое ключевое слово obj и endobj следует за маркером EOL"
"Компонент DeviceRGB может использоваться только тогда, когда файл имеет вывод намерений OutputIntent PDF/A-1, который использует цветовое пространство RGB."
"Если некалиброванное цветовое пространство используется в файле, тогда этот файл должен включать вывод намерений OutputIntent PDF/A-1, как указано в пункте 6.2.2"
"Программы для всех шрифтов, используемых в пределах соответствующего файла, должны быть вложены в этот файл, как указано в пункте 5.8 PDF Reference, за исключением того, когда шрифты используются исключительно в режиме 3 текстовой визуализации"

От ошибок текстового слоя такое "лекарство" вряд ли поможет, но многие другие обломы похоже лечит вполне успешно.
Ребят, помогите, пожалуйста, "вылечить" PDF для отправки обязательного экземпляра. Дизайнер-верстальщик благополучно слился, сказав, что он сверстал и для типографии файл подготовил, а в этом количестве ошибок он не разбирается что-к-чему.
Сам PDF-файл

Список ошибок:
  • Для всех подмножеств шрифта формата CIDFont, упомянутых в рамках соответствующего файла, словарь дескриптора шрифтов должен включать поток CIDSet, идентифицирующий, какие CIDs присутствуют во вложенном файле СIDFont, как описано в cпецификации PDF Таблица 5.20.
  • Компонент DeviceCMYK может использоваться только тогда, когда файл имеет вывод намерений OutputIntent PDF/A-1, который использует цветовое пространство CMYK.
  • Если ключ SMask появляется в словаре ExtGState или XObject, его значение должно быть None.
  • Для всех подмножеств шрифта Типа 1, упомянутых в рамках соответствующего файла, словарь идентификатора (дескриптора) шрифтов должен включать строку CharSet, регистрируя названия символов, определенных в подмножестве шрифтов, как описано в cпецификации PDF, Таблица 5.18.
  • Следующие ключи, если они присутствуют в объекте ExtGState, должны иметь следующие значения: ca - 1.0
  • Следующие ключи, если они присутствуют в объекте ExtGState, должны иметь следующие значения: CA - 1.0
  • Объект Group (группа) с ключом S со значением Transparency (прозрачность) не должен включаться в форму XObject.
  • Следующие ключи, если они присутствуют в объекте ExtGState, должны иметь следующие значения: BM - Нормальный или совместимый
  • Словарь XObject не должен содержать ключ SMask

Если перегнать файл постранично в JPG а потом снова собрать как PDF, то большинство ошибок уходит, но две остаются:
  • Номер объекта и номер поколения разделяются однократным символом свободного места (пробела). Номер поколения и ключевое слово obj разделяются однократным символом пробела. Каждому номеру объекта и ключевому слову endobj предшествует маркер EOL. Каждое ключевое слово obj и endobj следует за маркером EOL
  • Компонент DeviceRGB может использоваться только тогда, когда файл имеет вывод намерений OutputIntent PDF/A-1, который использует цветовое пространство RGB.
 
Последнее редактирование:

George

I wish I was a monster you think I am
15 лет на форуме
Сообщения
16 432
Реакции
7 588