Помощь - Поиск - Пользователи - Календарь
Полная версия: Проблема со шрифтами при переводе pdf в doc
ProDTP > Графика и препресс > Adobe Acrobat & PDF
lexust1
Проблема заключается в следующем. Есть pdf-файл (инструкция по счетчику электрической энергии), который включает в себя и текст, и таблицы, и картинки. При переводе данного файла в .doc документ вместо русских букв выводится непонятная аброказябра.
Преобразование выполнялось несколькими способами:
1) При открытии pdf-документа в AcrobatReader 6.0. выделялось всё содержимое, копировалось и вставлялось в Word. Результат - жуткое зрелище.
2) При открытии файла в AdobeAcrobat 6.0. Pro использовалась функция Export in ... Adobe немалое время делал вид, что что-то преобразует. Результат тот же, что и в первом случае.
3) Использовалась программа SolidPdfConverter 2.x. Эта, правда написала, что документ содержит спецсимволы, по причине чего документ может быть преобразован неправильно. Так и получилось.
Помогите, пожалуйста, решить данную проблему. Раньше таких проблем с pdf-файлами не было. Достаточно было использовать первый способ.
Evgen
Попробуй:
1) PDF2Word / PDF2RTF  (сайт)
2) ABBYY PDF Transformer (сайт)
Evgen
Забыл... еще попробуй открыть PDF с помощью Adobe CS
lexust1
Наверное, мне сразу стоило уточнить, что под 3-им пунктом я подразумевал массу и других программ (небольших). В том числе и  PDF2Word / PDF2RTF.
ABBYY PDF Transformer - о ней хорошие отзывы, но в городе у нас её не найти, а качать, если мне не изменяет память, 50 Mb - дело неблагодарное.
Как я понимаю, нужна программа, которая без проблем поддерживает кирилицу. В этом плане, действительно, Adobe CS может подойти, но ситуация почти такая же как и с ABBYY PDF Transformer.
Можно ли скачать какие-либо шрифты под Adobe Acrobat 6.0. Pro, которые позволят отобразить кирилицу правильным образом? Или возможен вариант, что сам pdf-файл глюченный, то есть при его создании не были описаны какие-либо шрифты? Тем более подозрительно, что другие pdf-файлы конвертируются как по маслу. Даже копируются из малофункционального Acrobat Reader без проблем с отображением шрифтов.
Evgen
Блин, сейчас чуть глаза не сломал; хотел предложить сделать в Акробате Embed All Fonts, так не нашел... :-?
Чтой-то я был уверен, что нечто подобное было в нем... видать, перепутал с другой прогой, что ли...
Kassian
1. лучше использовать CE версии акробата. А еще лучше Acrobat 6 Pro CE. Там есть Save as Word и Save as RTF. Если вокруг страницы в Акробате невидимая рамочка, то ее надо выделить и стереть.
2. Есть программа Iceni Gemini -- плагин и stand alone. Она переводит pdf в rtf. Причем там можно указывать таблицы перекодировки и даже создавать свои такие таблицы!
3. OCR программа: FineReader.
Evgen
Цитата
1. Acrobat 6 Pro CE. Там есть Save as Word и Save as RTF.

Попробовал.
Как Word -- ругань на шрифт. No file produced.
Как RTF -- прошло. Но только картинки. Шрифт -- нифига.
У меня этот шрифт Акробат (при включенном Use Local Fonts) отображает и печатает нормально. При выключенной опции -- "точечки".

Может, у человека прокатит...
Kassian
Вообще, если бы был нормальный способ внедрить в pdf невнедренные шрифты...

Цитата
Как RTF -- прошло. Но только картинки. Шрифт -- нифига.

Текстовый блок вылазит как картинка или вместо текста пустое место?
Evgen
Цитата
Текстовый блок вылазит как картинка или вместо текста пустое место?

Пустое место. В случаях, где текст был на подложке, это добро присутствует в виде картинки.
О! А если под всё добро подложить белую плашку?..
Evgen
Конечно получилось.
Как в Word, так и в RTF.
Да только в виде одной большой картинки, ха-ха. Что, в общем-то, было предсказуемо.
Ну и дальше пользуемся третьим пунктом из твоих предложений. :-(
Kassian
Если смылишь этот pdf на kassian#prodtp.ru, то смогу попробовать через Gemini.
Evgen
2 lexust1

Действительно, выложи где-нибудь. Поглядим-посмотрим...
Denis
lexust1
А если Word-овскую аброказябру выделить и поменять на Type1 шрифт содержащий Кириллицу, что получится?
lexust1
Данный pdf-файл весит 863 kb.
Скачать его можно здесь:
http://www.schetchik.ru/Docs/instruction_alpha.pdf
Если кому-то удобнее его всё-таки забрать с почты, а не закачать Downloader'ом, то скажите об этом. Обязательно отправлю.
Если у кого-то получится его правильно преобразовать, отправьте, пожалуйста,  мне на ящик. Буду очень благодарен.

Denis
Честно говоря, я думал что вордовские шрифты содержат сами по себе кирилицу.Знаю, что глючу. Но у меня никогда косяков со шрифтами не возникало. На этой почве возник вопрос. Type1 шрифты нужно отдельно устаналивать? То есть в руссифицированной Винде их нет?

Kassian
Если тебе сложно скачать pdf-файл, не подскажешь, где достать программу Gemini.
Evgen
2 lexust1

Забирай первые 20 страниц. Архив RAR (794057 bytes). DOC --  Office XP.
Ничего специально не дорабатывал.
Некоторые символы в колонтитулах перешли в картинки (были на подложке).
Основной текст спасти можно. Таблицы перешли нормалёк.
Использовал прогу ABBYY PDF Transformer 1.0 (PDF2TXT не прокатила).
Если устраивает, перекину всё и выложу.
Приём...
lexust1
Evgen
Ещё как устраивает. Я уже почти потерял всякую надежду и собирался редактировать файл в Adobe, удаляя куски. Убил бы не одни сутки. Я буду очень признателен, если ты преобразуешь весь документ до конца. Правда, я даже и не знаю как отблагодарить. В принципе, я являюсь модератором раздела "Hardware" на форуме http://forum.web-hack.ru/. И если возникнут какие-либо проблемы с "железом", то с радостью помогу всем чем возможно.

Это сообщение было отредактировано:  lexust1, 03 Дек, 2004 г. - 16:24
Evgen
Цитата
Ещё как устраивает. Я уже почти потерял всякую надежду и собирался редактировать файл в Adobe, удаляя куски. Убил бы не одни сутки. Я буду очень признателен, если ты преобразуешь весь документ до конца.

Тогда небольшое уточнение: точно ли подойдет та версия Ворда (XP), котоорую я показал?
Попробовал ли ты открыть и посмотрел ли?
Это как бы последнее уточнение перед полным переводом :-)
И какими по объему кусками будет лучше выложить?
Evgen
2 lexust1

Забирай полную инструкцию. Архив RAR (4072246 bytes). DOC --  Office XP.
lexust1
Конечно, открыл. Наученный горьким опытом открывал даже три раза, пробывал копировать из одних приложений в другие и сохранять в формате .rtf. Всё получалось просто отлично. :-)
Выкладывать можешь такими кусками, какими тебе удобнее. В любом случае качать я буду ReGet. Хотя лучше одним куском (ведь и тебе удобнее залить файл целиком).
lexust1
Ещё раз БОЛЬШОЕ СПАСИБО Evgen
Приступаю к закачке. Как закончу, обязательно сообщу.

Это сообщение было отредактировано:  lexust1, 03 Дек, 2004 г. - 17:36
lexust1
Файл скачал. Отображается все отлично.
Хорошо, что на этом свете есть ещё добрые люди.
Evgen
Цитата
Файл скачал. Отображается все отлично.

Ну и ладненько.
Тогда у себя убиваю.
Успехов и... welcome!  8-)
Denis
lexust1
Цитата

Честно говоря, я думал что вордовские шрифты содержат сами по себе кирилицу.
Знаю, что глючу. Но у меня никогда косяков со шрифтами не возникало.  
На этой почве возник вопрос. Type1 шрифты нужно отдельно устаналивать?  
То есть в руссифицированной Винде их нет?


Да, это так, но при "вытаскивании" текста из pdf, лучше подставлять шрифты type1.

Увы, но Type 1 шрифты в поставку Windows не входят. Их можно поставить прямо в систему, или лучше установить Adobe Type Manager 4.1 Deluxe ( на самом деле, шрифтовых менеджеров достаточно много... как и споров, какой
удобнее...) Если более подробнее, то в ХР встроен драйвер АТМ, но без панели управления шрифтами. Устанавливая ATM, получаем панель управления
шрифтами, в которой можно создавать группы для вновь устанавливаемых шрифтов. ("+" в том, что можно подключать и отключать нужные группы,
не захламляя список доступных шрифтов, теми, которые в данный момент не нужны) При установке, АТМ создаёт папку C:/PSFONTS, в которую помещает все свои шрифты, а в папку Windows/fonts, их ярлыки.


Это сообщение было отредактировано:  Denis, 04 Дек, 2004 г. - 00:58
Evgen
Цитата
При установке, АТМ создаёт папку C:/PSFONTS, в которую помещает все свои шрифты, а в папку Windows/fonts, их ярлыки.

Эээ... Denis, ты наверное оговорился насчет ярлыков? Я ни разу такого не видел, чесс говоря.
По умолчанию в папке WindowsFonts появляется папка ATMFolder, в которую помещаются подключаемые через ATM truetype-шрифты.

"Платон мне друг, но истина дороже..."  8-)
Denis
Имел Ввиду Type1
Evgen
Цитата
Имел Ввиду Type1

Я все-таки настырный типчик  :-D

Не вижу никаких ярлыков... ни под XP, ни под 98se.
Хочу выяснить, когда они появляются...
lexust1
Сегодня видел диск со шрифтами Type1 и  TypeManager. На днях его куплю. Только прежде хотелось бы выяснить некоторые вещи.
1)  Неужели Type1 шрифты занимают практически полный диск (600Mb)?
2) Для каких ещё программ желательны Type1 шрифты.
3) Менеджер шрифтов позволяет управлять исключительно Type1 шрифтами или можно также работать со шрифтами, установленными по умолчанию в Windows?
Kassian
lexust1
1) "Это смотря сколько пива..."
2) Для дизайнерских программ.
3) ATM Delux будет работать со всеми шрифтами.

Вообще почитай форум и faq. Очень многие вопросы и нюансы подробно обсуждались.
Denis
Цитата
Я все-таки настырный типчик  :-D  (могу иногда)

Не вижу никаких ярлыков... ни под XP, ни под 98se.

Взгляни в обменнике на файлик For_Evgen.jpg :-D
Evgen
Цитата
Взгляни в обменнике на файлик For_Evgen.jpg :-D

:-D  Ага  :-D
Однако ж... и точно, есть такое дело. Видать, я без ярлыков обхожусь.
Всё, оффтоп закончил.
Денису спасибо.
DEL42
Привет!

Помогите, пожалуйста, неофиту решить следующую задачу по преобразованию pdf->rtf (doc).

Дано:

Имеются PDF'ы – научные статьи с мат. формулами и рисунками. Формулы набраны «нестандартными» шрифтами (их нет среди системных). Эти нестандартные шрифты встроены в PDF (Embedded Subsets).

Требуется:

Преобразовать PDF в  MS Word *.doc (или *.rtf) так, чтобы все набранное нестандартными шрифтами (т.е. формулы и отдельные символы в тексте) превратилось бы просто в графические изображения.

Я безуспешно пробовал (1) выкусывать шрифты из ps и устанавливать их, как системные; (2) дистиллировать; (3) печатать из PDF в PDF на Adobe PS и на Scansoft PDF Create с отключением функции встраивания этих нестандартных шрифтов. PDFы, полученные в результате манипуляций (2-3) затем сохранялись как  *.doc или *.rtf из Adobe Acrobat’a 7.0. При этом кое-что из нестандартных символов действительно превращалось в графику, однако большая их часть (если не все) по-прежнему оставалась символьным мусором. Пробовал разные утилиты типа PDF2WORD, PDF995 - безрезультатно. Конвертацию с помощью Finereader или Omnipage выполнить нереально, поскольку в текстах множество формул, и их все надо помечать вручную как блоки с графикой.

Мне кажется, что должно существовать какое-то простое и изящное решение этой задачи, и я просто что-то делаю не так (или чего-то нужного не делаю).

Заранее  всем большущее спасибо за помощь.

Дик.
nik7777
Что это за нестандартные шрифты и в чем выводились исходные PDF?
DEL42
«Нестандартные» - это те, которые embedded в pdf как subsets и которые не входят в стандартный комплект, поставляемый с OS. Например,

Original font: Aip1
Type: Type1
Encoding: Custom
Used font: (пусто)
Type: (пусто)

Есть также шрифты, по-видимому, из Font Folio:

Original font: Universal-NewswithCom (а также MathematicalPi-One и т.п.)
Type: Type1
Encoding: Built-in
Used font: Embedded subset
Type: Type1

Может быть, для профессионалов они и стандартные – простите новичка за невежество.
nik7777
Понятно. А на Вашем компьютере они установлены?
DEL42
Нет, эти шрифты не установлены.
DEL42
Цитата(nik7777 @ Mar 18 2006, 16:19) *

Понятно. А на Вашем компьютере они установлены?


А нельзя ли обойтись без установки этих шрифтов?

Все, что мне хотелось бы получить в конечном итоге – это вообще изгнать эти шрифты из данного PDF файла так, чтобы все, напечатанное в нем с их использованием, превратилось бы просто в графику  (но при этом сохранить остальные шрифты нетронутыми). Это можно как-то сделать?

Спасибо.
nik7777
Вряд ли удастся выборочно, только формулы, преобразовать в графику.
TAHKu
Можно, нарисовав поверх формулы прямоугольник и задав ему transparency 100%, записать PS с включенной галкой "Convert text to outlines". В полученном ps-файле формула должна получиться в виде графики. Для создания объектов произвольной формы в акробате я использую PitStop.
Evgen
TAHKu > прямоугольник и задав ему transparency 100%, записать PS с включенной галкой...[/quote]

Метода перевода шрифтов в кривые на форуме обсуждалась.
Такой же подход использует экшен для Питстопа WelcomeToCurves (автор banIDit).
WWN
Цитата(Evgen @ Dec 3 2004, 17:23) *

2 lexust1
Забирай полную инструкцию. Архив RAR (4072246 bytes). DOC --  Office XP.

404 в ответ...
Evgen
WWN

Прошло два года. Вы столько времени держите у себя не нужные никому материалы?
Файл был удален еще в посте №23.
Это текстовая версия — только основной контент. Для просмотра полной версии этой страницы, пожалуйста, нажмите сюда.
Русская версия Invision Power Board © 2001-2012 Invision Power Services, Inc.

Реклама

   Rambler's Top100    Яндекс цитирования