Від учора, 24 лютого 2025 року, найважливіший книжковий інтернет-магазин не дозволяє нам завантажувати книги на комп’ютер, щоб перенести їх на інший пристрій. У цій публікації ми побачимо, як продовжити завантажувати книги з Amazon. Я уточнюю, що ми будемо обманювати. Це не завантаження самої книги, а скрипт, який робить скріншоти, і програма, яка розпізнає текст.
Зрозуміло, що ми не закликаємо наших читачів порушувати умови та закони про інтелектуальну власність. Але бувають випадки, подібні до мого, оскільки я страждаю від інвалідності по зору, коли параметри конфігурації читача Amazon є недостатніми, і нам потрібно мати можливість вносити зміни.
«Чому більше книг не можна завантажити на комп’ютер?»
Ви повинні розуміти, що завдяки таким службам, як Amazon, ми купуємо не книгу, а право її читати.. Компанія залишає за собою право видаляти або змінювати вміст. У 2009 році англійські версії 1984 y Повстання на фермі із тисяч пристроїв, оскільки видавець не мав прав на публікацію. Минулого року Puffin Books, англомовний видавець багатьох книг Роальда Даля, переглянув культові назви, такі як Матильда y Чарлі і шоколадна фабрикаі зробити їх більш політкоректними, плавно видаливши такі слова, як «товстий» і «потворний» з пристроїв покупців.
Якби Amazon і надалі дозволяв завантаження на комп’ютер, користувач міг би ідеально відновити оригінал. Тепер, якщо Безос вирішить завоювати прихильність Трампа, змінивши назву Мексиканської затоки на Американську затоку в Атласі, який ви купили, тоді нам доведеться змиритися з цим.
Цей крок стосується лише завантаження книги на ваш комп’ютер для перенесення на інший пристрій; ви можете продовжувати завантажувати її з пристрою для читання Kindle на свій ПК, щоб використовувати з ним.
Як продовжити завантажувати книги з Amazon
Що ми збираємося зробити, це використовувати хмарний читач електронних книг з Amazon і сценарієм, який робить знімок екрана, автоматично перевертає сторінку та повторює процес. Ми встановимо дві програми. Xdotools і Scrot
sudo apt install xdotool scrotA
Xdotoll імітує поведінку миші, Scrot піклується про скріншоти.
Тепер нам потрібно зробити наступне:
- Ми відкриваємо читач у хмарі.
- Вибираємо книгу, яку хочемо завантажити, і відкриваємо її.
- Натисніть на літери у верхньому лівому куті та виберіть макет 1 стовпця. Це полегшує подальше розпізнавання тексту.
- Не закриваючи браузер, відкриваємо термінал, зменшуємо його розмір і розміщуємо в лівій частині екрана.
- ми пишемо
xdotool getmouselocation
і не натискаючи enter переводимо вказівник на кнопку перегортання сторінки на рідері Kindle - Натискаємо Enter.
- Беремо до відома значення X і Y, які відображає термінал.
Далі ми створимо сценарій, який робитиме скріншоти. У текстовому редакторі ми вставляємо це.
#!/bin/bash
while [ 1 ]; do
xdotool mousemove XXXX YYY click 1 &
scrot -q 100 '%Y-%m-%d-%H:%M:%S.png' -e 'mv $f ~/libro/'
sleep 20
done
Цей сценарій розміщує вказівник миші в положенні кнопки зміни (ви повинні замінити X і Y значеннями, які ми записали, змінити сторінку, зробити знімки та зачекати 20 секунд, щоб повторити процес.
Зберігаємо його під назвою script.sh
Створюємо папку з книгою командою:
mkdir libro
Відкриваємо книгу в браузері і в згорнутому терміналі пишемо
./script.sh
Переводимо браузер у повноекранний режим і чекаємо, поки він закінчить захоплення останньої сторінки. Після завершення ми повинні закрити термінал.
Тепер встановлюємо потрібну програму для об’єднання зображень у pdf
sudo apt install img2pdf
Для здійснення перетворення ми використовуємо таку команду:
find . -name "*.png" -print0 | sort -z | xargs -0 img2pdf -o libro.pdf
Можливо, за час, який знадобився для закриття попереднього сценарію, відбулося повторне захоплення, тому бажано переконатися в цьому перед виконанням команди.
Щоб конвертувати pdf в текст, найкраще використовувати документи Google. Завантажуємо файл, натискаємо на пунктирну лінію, щоб відкрити меню файлів і в Відкрити за допомогою Google Docs. Це автоматично виконує розпізнавання символів, які ви можете зберегти у форматі odt або pdf.
Це також можна зробити з командного рядка але це не буде добре працювати зі складними конструкціями.
Встановлюємо програми
sudo apt install ocrmypdf tesseract-ocr tesseract-ocr-spa
Ми конвертуємо PDF-файл у текст за допомогою команди:
ocrmypdf -l spa libro.pdf libro_ocr.pdf