Remkomplekty.ru

IT Новости из мира ПК
1 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Pdf to word linux

Pdf to word linux

Конвертируем PDF в текстовый файл в Linux

Есть множество различных причин, почему вам нужно конвертировать PDF файл в редактируемый текстовый файл, мы здесь не будем обсуждать причины, но обсудим способ как это можно осуществить в Linux. Возможно, вам нужно посмотреть(изменить) старый документ, но у вас есть лишь PDF версия. Преобразовать PDF файл в Windows, очень легко, но что делать, если вы используете Linux? Думаю этим вопросом задавались многие.

Не стоит беспокоиться. Мы покажем вам, как очень быстро и легко конвертировать PDF файлы в редактируемый текст с помощью инструмента командной строки(терминал) с помощью пакета под названием pdftotext, что является частью утилиты «Poppler-Utils». Этот инструмент может быть уже установлен по умолчанию в системе. Чтобы проверить, установлен ли в вашей системе pdftotext, нажмите «Ctrl + Alt + T», чтобы открыть окно терминала. Введите следующую команду в командной строке и нажмите клавишу «Enter».

dpkg -s poppler-utils

Если пакет установлен, хотя должен быть установлен так как проверив в версии Ubuntu 14.04 LTS мы видим следующий текст который нам сообщает, что пакет уже установлен в системе:

Package: poppler-utils
Status: install ok installed
Priority: optional
Section: utils
Installed-Size: 432
Maintainer: Ubuntu Developers
Architecture: i386
Multi-Arch: foreign
Source: poppler
Version: 0.24.5-2ubuntu4
Replaces: pdftohtml, xpdf-reader, xpdf-utils ( = 2.4), libcairo2 (>= 1.12.0), libfreetype6 (>= 2.2.1), libgcc1 (>= 1:4.1.1), liblcms2-2 (>= 2.2+git20110628), libpoppler44 (>= 0.24.5), libstdc++6 (>= 4.1.1)
Breaks: xpdf-utils (

1. В том случае если оказалось, что в вашей версии дистрибутива пакет pdftotext не установлен, введите следующую команду в командной строке и нажмите клавишу «Enter».

sudo apt-get install poppler-utils

  • В утилите Poppler-Utils есть несколько инструментов, которые позволяют конвертировать PDF в другие форматы, манипулируя PDF файлами, и извлекая информацию из файлов.

2. Для примера, давайте представим, что у нас в домашней директории имеется файл с названием Book.pdf, какую команду в нашем случае нужно выполнить чтобы преобразовать данный файл в файл текстового формата для чтения и редактирования например с помощью текстового редактора Gedit или любого другого.

  • Ниже приводится пример основной команды которая используется для преобразования PDF-файла в редактируемый текстовый файл. Нажмите «Ctrl + Alt + T», чтобы открыть окно терминала, далее введите следующую команду в командной строке и нажмите клавишу «Enter».

pdftotext /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

В нашем случае linux это моя учетная запись, вы изменяйте на вашу, далее файл Book.pdf с которым мы и проводим опыты, далее через пробел мы так же прописываем путь в ту же директорию где нам создать готовый текстовый файл с результатом конвертации.

В моем случае я забросил в папку документы простенький документ почти на 3 метра, справочник по HTML, далее выполняю команду:

pdftotext CSS Manual.pdf CSS Manual.txt

  • Мы имеем готовый текстовый файл результат конвертирования с формата pdf. Конечно очень важно в вашем случае прописать полный и правильный путь к файлу который необходимо конвертировать, чтобы соответствовать расположению и имени вашего оригинального PDF файла и где вы хотите сохранить полученный текстовый файл. Так же не забываем о волшебной клавише под названием Tab при вводе пути и названия файла, убережет ваше время и автоматически подберется тот путь и то название файла которое нужно.

3. Конечно готовый преобразованный текст может иметь разрывы строк которых вы возможно и не хотите как и я. Разрывы строк вставляются после каждой строки текста в файле PDF. Чтобы убрать разрывы и лишнюю табуляцию, мы можем сохранить макет нашего pdf документа (заголовки и многое другого) от оригинального PDF файла в текстовом файле преобразовав с помощью специального флага «-layout».

В итоге готовая команда уже будет иметь следующий вид:

pdftotext -layout /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

проверив результаты конвертации, скажу честно, уже все намного в более порядочном виде, но все же имеется много мелочей которые необходимо отредактировать.

4. Вам нужно преобразовать не целый документ, а определенный диапазон страниц от и до, например с 10 по 100, как будет смотреться готовая команда для конвертации спросите вы. Нажмите «Ctrl + Alt + T», чтобы открыть окно терминала, далее введите следующую команду в командной строке и нажмите клавишу «Enter».

pdftotext -f 10 -l 100 /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

5. Как преобразовать PDF файл который зашифрован паролем от владельца спросите вы? Решение данного вопроса так же имеется и имеет следующую готовую комбинацию:

pdftotext -0pw ‘пароль’ /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

  • Чтобы вы не попутали при возможном выполнении команды выше, в атрибуте 0pw используется не буква О, а цифра ноль.

6. Как преобразовать файл который защищен паролем, не зашифрован как в варианте выше, так же имеется простое решение, в терминале выполняем готовую комбинацию, пример:

pdftotext -upw ‘пароль’ /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

7. Вы можете также указать Тип конца строки, символ, который добавляется в преобразованный текст. Это особенно полезно, если вы планируете использовать файл в разных операционных системах, таких как Windows или Mac. Чтобы сделать это, используйте флаг «-eol» (символ в середине флага является строчной буквой «o», не ноль), затем пробел и указываем окончания для строк который вы хотите использовать («Unix», «Dos», или «Mac»).

  • Готовая команда будет иметь следующий вид, Нажмите «Ctrl + Alt + T», чтобы открыть окно терминала, далее введите следующую команду в командной строке и нажмите клавишу «Enter».
Читать еще:  Запретить копирование текста в word

pdftotext -eol unix /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

Если вам мало информации по возможности преобразования pdf документов в разнообразные форматы, вы всегда можете прочесть справку, выполнив в терминале команду — man pdftotext. На этом пожалуй материал завершен, если у вас будут вопросы, пожалуйста, спрашивайте в комментариях к материалу ниже, всем удачи.

  • Добавил: Yuri_Geruk
  • Дата: 2015-12-22
  • Категория: Терминал

Здравствуй Гость, как Вы видите еще никто не оставил свой комментарий, будьте первым, поделитесь мнением о материале выше.

Преобразование PDF в Word

Здесь можно преобразовать PDF-файл в редактируемый документ формата Word. Конвертируйте из PDF в DOC или из PDF в DOCX. Если вы хотите преобразовать PDF в Word, вы попали по адресу!

Как преобразовать PDF в Word?

  1. Загрузите PDF-файл.
  2. Выберите Word 2007-2013 (*.docx) или Word 2003 (*.doc) из выпадающего меню.
  3. Настройте дополнительные параметры.
  4. Нажмите на «Сохранить изменения».

Оставайтесь на связи:

Преобразуйте PDF в Word онлайн
бесплатно в любом месте

Лучший инструмент для преобразования PDF в Word

Всё просто. Загрузите PDF-документ с жёсткого диска / из облачного хранилища или перетащите в поле загрузки.

После загрузки PDF-файла выберите формат Microsoft Word из выпадающего меню. Доступно два варианта: DOC и DOCX.

После этого нажмите на «Сохранить изменения», а PDF-конвертер позаботится об остальном.

Онлайн-инструмент для преобразования PDF в Word

Вам не надо скачивать приложение или устанавливать программу. PDF2Go работает онлайн в любом браузере. Просто подключитесь к сети и зайдите на PDF2Go.com.

Забудьте о вредоносных программах и вирусах, просто скачайте полученный документ Word.

Зачем создавать Word из PDF-файла?

Несмотря на универсальность формата, PDF-документы сложно редактировать. Чтобы извлечь или отредактировать текст, надо преобразовать PDF в редактируемый Word.

Оптическое распознавание символов (OCR) позволяет редактировать даже отсканированные книги. Не тратьте время, чтобы скопировать текст вручную, мы обо всём позаботимся!

Безопасное преобразование PDF в Word!

Если вы преобразуете PDF в документ Microsoft Word на сайте PDF2Go, вашему файлу ничего не угрожает.

SSL-шифрование, регулярная очистка сервера, безопасность загрузки и скачивания файлов. Все права на документы остаются за вами.

Для получения дополнительной информации ознакомьтесь с Политикой конфиденциальности.

В какой формат можно преобразовать?

Этот конвертер создан для преобразования PDF-файлов в документы Microsoft Word формата DOC и DOCX. Вы можете конвертировать PDF-файл и в другой текстовый документ!

Например:

ODT, RTF, TXT и другие

Мобильный конвертер PDF-файлов

Конвертируйте PDF-файлы на компьютере, смартфоне или планшете!

Онлайн-сервис PDF2Go позволяет конвертировать PDF-файлы в Word. В поезде или автобусе, в отпуске, на работе или дома — просто подключитесь к сети!

Оцените инструмент 4.1 / 5

Вам надо сконвертировать и скачать хотя бы один файл, чтобы оценить конвертацию

pdf в doc

Есть ли утилиты под линукс которые справляются с этой задачей? Именно pdf в doc и не иначе.

Что удалось нагуглить так это только shareware программы под винду.

pdf > tiff > cuneiform > doc

тебе вообще не приходило в голову, что если кроме shareware для такой задачи ничего нет, значит задача не совсем тривиальна?

CuneiForm в doc не успеет преобразовывать.

по-моему должен уметь

Открыть опенофисом и сохранить как .doc (только у вас получится совершенно нередактируемый текст — по одному блоку на каждую строчку).

если его так до сих пор и не научили — html или rtf в doc конвертится на раз.

Я просил утилиту для линукса.

на финфаке спроси

Вы скажите, зачем это вам надо? Если тупо, чтобы «отмазаться», то лучше всего — распустить pdf на страницы (например, png) и повставлять их в опенофисе, потом сохранить как .doc.

Если чтобы можно было редактировать — то текст можно получить при помощи pdftotext, картинки — при помощи pdfimages, потом все соединить.

Если серединка на половинку — опенофисом, как я выше говорил.

То есть вам шашечки, а не ехать?

pdftotext file.pdf file.doc

коли в условии задачи ничего не сказано про картинки, etc.

p.s. или сейчас выяснится, что нужно соблюсти форматирование, формулы, рисунки и т.п. ??

что нужно соблюсти форматирование, формулы, рисунки и т.п. ??

В этом случае единственный надежный способ — мой (распустить pdf на страницы и повтыкать каждую ручками или скриптом в ОО, потом сохранить как .doc). Естественно, редактировать нельзя будет.

Если в пдф нет текстового слоя, то никак

Читайте внимательнее пост.

формат DOC вам ничего не говорит? Чем отличается TXT от DOC?

Это нужно для того чтобы бы полученный сконвертированный pdf документ можно было редактировать в worde.

Вы скажите, зачем это вам надо?

Тогда забудьте. Либо выдерните текст из pdf (если он, конечно, с текстом) при помощи pdftotext и сохраните при помощи ОО как .doc, либо (если хотите поиздеваться над тем . который надумал редактировать pdf) — откройте pdf при помощи ОО и сохраните как .doc.

Читать еще:  Http convertonlinefree com wordtopdfru aspx

Да, если не секрет: что побудило вас задать такой, мягко говоря, глупый вопрос? pdf-то чем-то создавался? Куда оригинал дели?

Ну только что попробовал открыть pdftotext test.pdf test.doc документ в word (прости господи). Открывается. Редактируется. Что дальше?

html или rtf это языки разметки а pdf это поток байт представляющий графический образ для печати на принтере. поэтому его можно только finereader-ом/OCR распознавать

полученный сконвертированный pdf документ можно было редактировать в worde

открой файл в Acrobat и скопируй все в Word

открой файл в Acrobat и скопируй все в Word

Чем этот способ лучше открывания файла опенофисом и сохранения в формате .doc? Все равно ничего невозможно будет редактировать (точнее, можно, но с большими костылями). И разметка поплывет.

ТС хочет редактировать в ворде, следовательно, и акробат должен быть:)

Судя по формулировке вопроса, у ТС линукс, а какому-то нехорошему человеку надо редактировать в мастдае pdf. И этот нехороший человек эти самые pdf где-то украл, т.к. исходников у него нет. Плагиат!

Картинки, таблицы, форматирование осталось?

Насколько узкое у вас мышление, но я держу себя в руках.

О! Брависсимо! Я ждал этого вопроса.

Конечно нет. Про таблицы, форматирование вы в первом своем сообщении тактично умолчали.

Картинки, таблицы, форматирование осталось?

Если вам надо, чтобы это все осталось, да еще и в таком виде, чтобы можно было редактировать, да еще и чтобы не испортилось оформление документа, то мой вам совет: забудьте о своей нездоровой идее. pdf предназначен для чтения и печати, но никак не для редактирования.

Еще раз спрашиваю: куда исходники этого pdf’а дели?

Я уже несколько раз просил, чтобы вы объяснили, зачем вам это понадобилось. Ответ был? Нет. Значит — плагиат!

Нет. Потому что не нужно, тем более в какой-то док (это для докторов что ли?).
Ставь под винду что-нибудь типа адобепдфедит/фокситпдфедит.

Даже сам себя процитирую

p.s. или сейчас выяснится, что нужно соблюсти форматирование, формулы, рисунки и т.п. ??

Не айс/не юникс вей

То finereader 8 portable под wine. Открывает pdf, сохраняет в doc.

Поздравляю что дождались! Теперь можете задавать вопросы типа «Я что телепат?» или идти подстричься.

[а google то не знает]

Спасибо за совет. Мне глубоко пофиг Unix вэй это или как-то другой. У меня есть задача, которую надо решить.

facepalm. а на выходе cuneiform у нас что, поток байт с картинкой пдфа замаскированный под html?

Сделать скриншоты страниц PDF и вставить картинки в doc. Profit.

Редактировать можно GIMP-ом.

Зачем скриншот, когда есть ImageMagic?

>pdf > tiff > cuneiform > doc

Топикстартеру: кто мешает использовать виндовое в вайне?

Спасибо за совет! Виндовое приложение под вайном тоже подойдет как вариант. Можете посоветовать какое? Чтобы freeware было.

Почему бы вам не делать все через одно место, а редактировать то, из чего этот самый pdf был сгенерирован?

>Можете посоветовать какое?

Adobe Acrobat (не Reader!)

Чтобы freeware было.

Пиратским воспользуйся, как обычно.

Проще найти free чем кряк. Вам советаю поступать также.

>Проще найти free чем кряк

И где ты «free» Word нашёл?

одной утилитой не выйдет,
попробуйте или предложенные уже в теме конвертеры в другие форматы, например текст или изображение, а можно просто попробовать в просмотрщике pdf скопировать данные в буффер и вставить в ООо writer

если текст , то открываете его в openoffice.org writer (например) и редактируете, сохранение в .doc там есть

если изображение, то можно воспользоваться распознавалками , cuneiform например, возможно удастся сохранить часть форматирования.

Как преобразовать документ формата PDF в текстовый файл в терминале Linux

Оригинал: How to Convert a PDF File to Editable Text Using the Command Line in Linux
Автор: Lori Kaufman
Дата публикации: 9 ноября 2015 г.
Перевод: А.Панин
Дата перевода: 7 октября 2016 г.

Существует множество причин, по которым вам может понадобиться преобразовать документ формата PDF в текстовый файл. Возможно, вам нужно изменить старый документ и вас есть лишь его версия в формате PDF. Преобразование файлов PDF в ОС Windows не представляет каких-либо сложностей, но что делать в том случае, если вы используете Linux?

Не беспокойтесь, я продемонстрирую простую и рабочую методику преобразования файлов PDF в текстовые файлы с помощью утилиты с интерфейсом командной строки с именем pdftotext из пакета утилит «poppler-utils» . Эта утилита может быть уже установлена в вашей системе. Для проверки ее наличия в системе следует в первую очередь воспользоваться сочетанием клавиш «Ctrl+Alt+T» для открытия окна эмулятора терминала. Далее следует ввести следующую команду после приглашения командной оболочки и нажать клавишу «Enter» .

Примечание: если в статье написано, что нужно ввести какую-либо команду, причем сама команда помещена в кавычки, следует вводить ее без кавычек за исключением тех случаев, когда в статье четко указано обратное.

Если утилита pdftotext не установлена, следует ввести следующую команду после приглашения командной оболочки и нажать клавишу «Enter» :

После соответствующего запроса следует ввести свой пароль и нажать клавишу «Enter» :

В установленном пакете poppler-utils имеется множество других инструментов для преобразования документов формата PDF в различные форматы, осуществления манипуляций с файлами PDF и извлечения информации из этих файлов.

Читать еще:  Конвектор документов из pdf в word

Следующая команда позволяет преобразовать файл PDF в текстовый файл. Воспользуйтесь сочетанием клавиш «Ctrl+Alt+T» для открытия окна эмулятора терминала, введите следующую команду после приглашения командной оболочки и нажмите клавишу «Enter» .

Вам придется заменить указанные пути к файлам на пути к оригинальному файлу формата PDF и результирующему текстовому файлу соответственно. Кроме того, вам придется изменить приведенные имена файлов на имена ваших файлов.

Созданный утилитой текстовый файл может быть открыт таким же образом, как и любой другой текстовый файл в Linux.

Результирующий текст будет содержать символы новых строк в тех местах, в которых их не должно быть. Это объясняется тем, что символы новых строк вставляются после каждой строки текста в файле PDF.

Вы можете сохранить оригинальное форматирование вашего документа PDF (заголовки, примечания, разделение на страницы и.т.д.) в результирующем файле с помощью флага «-layout» :

Если вы хотите осуществить преобразование диапазона страниц файла PDF, вам придется использовать флаги «-f» и «-l» (это «L» в нижнем регистре) для указания номеров первой и последней страниц из диапазона для преобразования:

Для преобразования файла PDF, зашифрованного с использованием пароля владельца, следует использовать флаг «-opw» (первым символом является буква «O» в нижнем регистре, а не цифра 0):

Замените строку «пароль» на пароль, с помощью которого был защищен оригинальный файл PDF. Убедитесь в том, что вы используете одинарные, а не двойные кавычки для выделения пароля.

Если же файл PDF зашифрован с использованием пароля пользователя, следует использовать флаг «-upw» вместо «-opw» . Остальная часть команды не должна изменяться.

Вы также можете указать набор символов новой строки, который будет использоваться в результирующем текстовом файле. Это особенно полезно в том случае, если вы планируете открывать этот файл в другой операционной системе, такой, как Windows или Mac OS, Для этой цели следует использовать флаг «-eol» (вторым символом является буква «O» в нижнем регистре, а не цифра 0), после которого должен следовать символ пробела и идентификатор выбранного набора символов новой строки ( «unix» , «dos» или «mac» ).

Примечание: если вы не укажите имя результирующего текстового файла, утилита pdftotext автоматически использует имя файла PDF, заменив его расширение на «.txt» . Например, имя файла «file.pdf» будет преобразовано в «file.txt» . Если вместо имени текстового файла использовать «-» , результирующий текст будет отправлен в стандартный поток вывода утилиты, что означает, что текст будет выводиться в окно эмулятора терминала и не будет сохраняться в текстовом файле.

Для закрытия окна эмулятора терминала следует нажать на кнопку «X» в его левом верхнем углу.

Для получения дополнительной информации об утилите pdftotext следует ввести команду «man page pdftotext» после приглашения командной оболочки в окне эмулятора терминала и нажать клавишу «Enter» .

Преобразование PDF в Word

Здесь можно преобразовать PDF-файл в редактируемый документ формата Word. Конвертируйте из PDF в DOC или из PDF в DOCX. Если вы хотите преобразовать PDF в Word, вы попали по адресу!

Как преобразовать PDF в Word?

  1. Загрузите PDF-файл.
  2. Выберите Word 2007-2013 (*.docx) или Word 2003 (*.doc) из выпадающего меню.
  3. Настройте дополнительные параметры.
  4. Нажмите на «Сохранить изменения».

Оставайтесь на связи:

Преобразуйте PDF в Word онлайн
бесплатно в любом месте

Лучший инструмент для преобразования PDF в Word

Всё просто. Загрузите PDF-документ с жёсткого диска / из облачного хранилища или перетащите в поле загрузки.

После загрузки PDF-файла выберите формат Microsoft Word из выпадающего меню. Доступно два варианта: DOC и DOCX.

После этого нажмите на «Сохранить изменения», а PDF-конвертер позаботится об остальном.

Онлайн-инструмент для преобразования PDF в Word

Вам не надо скачивать приложение или устанавливать программу. PDF2Go работает онлайн в любом браузере. Просто подключитесь к сети и зайдите на PDF2Go.com.

Забудьте о вредоносных программах и вирусах, просто скачайте полученный документ Word.

Зачем создавать Word из PDF-файла?

Несмотря на универсальность формата, PDF-документы сложно редактировать. Чтобы извлечь или отредактировать текст, надо преобразовать PDF в редактируемый Word.

Оптическое распознавание символов (OCR) позволяет редактировать даже отсканированные книги. Не тратьте время, чтобы скопировать текст вручную, мы обо всём позаботимся!

Безопасное преобразование PDF в Word!

Если вы преобразуете PDF в документ Microsoft Word на сайте PDF2Go, вашему файлу ничего не угрожает.

SSL-шифрование, регулярная очистка сервера, безопасность загрузки и скачивания файлов. Все права на документы остаются за вами.

Для получения дополнительной информации ознакомьтесь с Политикой конфиденциальности.

В какой формат можно преобразовать?

Этот конвертер создан для преобразования PDF-файлов в документы Microsoft Word формата DOC и DOCX. Вы можете конвертировать PDF-файл и в другой текстовый документ!

Например:

ODT, RTF, TXT и другие

Мобильный конвертер PDF-файлов

Конвертируйте PDF-файлы на компьютере, смартфоне или планшете!

Онлайн-сервис PDF2Go позволяет конвертировать PDF-файлы в Word. В поезде или автобусе, в отпуске, на работе или дома — просто подключитесь к сети!

Оцените инструмент 4.1 / 5

Вам надо сконвертировать и скачать хотя бы один файл, чтобы оценить конвертацию

Ссылка на основную публикацию
Adblock
detector