?

Log in

No account? Create an account

Предыдущий пост поделиться Следующий пост
Компьютер vs бумага. Часть 2. Ввод формул и уравнений
lex_kravetski


На сайте «XX2 век»

Метки: ,


  • 1
> Спатиотемпоральной группировки нигде нет. Это о том, чтобы извлекать семантику начерканного из того, когда и где оно было написано. Простой пример, воспринимать печатную букву Ы как одно целое (или t с ее палочкой, написанной после всего слова) и соответственно делать андо-редо. Из более хитрых вещей: распознавание графического языка. Нарисовать стрелочку от А к Б, выделить Б и переместить его, чтобы стрелочка искривилась вслед.

Да. Нигде нет, кроме FineReader и ещё пары десятков программ для распознавания текстов, включая встроенный в OneNote. И кроме встроенного в Виндоус рукописного ввода формул. И кроме кучи софта для рисования схем и майнд-мэпов.

> Это ожидаемый с точки зрения когнитивной психологии результат. Я очень удивлюсь, если при правильной постановке эксперимента он будет другим.

Посмотри видео про рукописный ввод ещё раз: там, в том числе, рассказывается про заблуждения, которые многие принимают за «ожидаемый результат».

Плохо объяснил, видимо, раз OCR всплыли. Речь не о том, что какие-то символы или концепция майндмэпа программе знакомы, а о том, что по кинетике жестов, их взаимному расположении в пространстве И времени можно понять, что какая-то штука — символ, и ее надо обрабатывать как целое, например делать андо не по порядку совершения жестов.

Не знаю про заблуждения многих, знаю про когнитивную психологию и тайминги сенсомоторных процессов.

> Плохо объяснил, видимо, раз OCR всплыли. Речь не о том, что какие-то символы или концепция майндмэпа программе знакомы, а о том, что по кинетике жестов, их взаимному расположении в пространстве И времени можно понять, что какая-то штука — символ, и ее надо обрабатывать как целое, например делать андо не по порядку совершения жестов.

Ну вот распознавание рукописного текста, например, в OneNote именно так и работает: они не пиксели распознают, а вектор штриха. Встроенный редактор формул делает так же и вдобавок примеряет распознанное к всевозможным формам записи формул.

> Не знаю про заблуждения многих, знаю про когнитивную психологию и тайминги сенсомоторных процессов.

Для совершения ошибки при наличии даже верного знания о когнитивной психологии достаточно просто неверно представлять себе процесс. При неправильном представлении о процессе будут сделаны неправильные предположения.

Например, человек, не подозревающий, что вообще возможно научиться печатать не глядя, будет уверен, что печатать гораздо дольше, чем писать, поскольку ты постоянно должен переводить взгляд с клавиатуры на экран. И он действительно прав в том, что так, как он себе это представляет, будет дольше. Его неправота в том, что он представляет процесс не так, как он выглядит на самом деле.

Если ты можешь печатать не глядя на клавиатуру — быстрее, чем писать рукой на бумаге, где чернила появляются у кончика стержня, то ты сможешь и писать от руки тем же способом: тебе достаточно показывать на экране, где этот «кончик» сейчас находится. Некоторое время будет непривычно, но потом таким способом вдруг окажется быстрее. Тебя же не напрягает, что под мышью нет экрана — ты ей всё равно довольно быстро можешь орудовать. Причём, если под ней был экран, то это бы не ускорило, а замедлило бы процесс.

И теперь представь себе человека, который делает выводы о скорости процесса, считая, будто на мышку надо смотреть, когда ты её двигаешь.

Векторный OCR все равно полагается на готовую базу символов (причем афаик только пространственную, потому что временная слишком шумит) и на зашитые паттерны их группировки (вроде лаяута страницы в FR).

Слепая печать на клавиатуре vs письмо от руки это нерелевантное измерение для сравнения письма от руки вслепую; с лагом; без лага. Можно искать разные аналогии, но быстрее проверить и убедиться :)

> Векторный OCR все равно полагается на готовую базу символов

Простите, а какие ещё варианты? Даже человеческий мозг полагается на готовую базу символов. Тот, кто не знает кириллицы, никак не сможет уверенно сказать про «ы», что это один символ, а не два. При этом «ь» и «I» рисуются с той же скоростью, поэтому там вообще никак не пропалишь без базы.

И когда ты схемы рисуешь, то ты тоже имеешь «готовую базу символов» — «прямоугольник», «стрелка» и т.п.

> Слепая печать на клавиатуре vs письмо от руки это нерелевантное измерение для сравнения письма от руки вслепую; с лагом; без лага. Можно искать разные аналогии, но быстрее проверить и убедиться

Я сейчас не сравниваю, а привожу примеры того, как можно сделать неправильные оценки, когда ты неправильно представляешь процесс. Поскольку я внешним планшетом пользуюсь довольно часто, для меня он давно уже столь же быстр, сколь быстра мышка.

Символы и графические лексемы не берутся из ниоткуда. Фонетика привязана к строению речевого аппарата, графический язык к строению кисти и визуальным метафорам. И пока нет нейроинтерфейсов, самые толстые каналы вывода это язык и рука. Ы можно распознать, например, как коллокацию, никто ведь не заставляет решать эту задачу строго локально (как OCR).

Что значит планшет столь же быстр, как мышка? Это вопросу о письме вслепую; с лагом; без лага нерелевантно, но все равно интересно.

> Фонетика привязана к строению речевого аппарата, графический язык к строению кисти и визуальным метафорам.

Тем не менее, существующие на Земле алфавиты сильно непохожи друг на друга. И зная один, ты ничего не поймёшь в другом, опираясь только на знания о первом.

> Что значит планшет столь же быстр, как мышка? Это вопросу о письме вслепую; с лагом; без лага нерелевантно, но все равно интересно.

Это значит, что стандартные действия я выполняю планшетом примерно с той же скоростью, что мышкой. По поводу лага — я не знаю, в каком контексте ты его сейчас видишь. Планет в общем случае управляет курсором мыши (буквально курсором мыши — он даже системой трактуется как мышь), поэтому тормозит он не больше, чем мышь. Лаг может появиться в результате того, что софт делает по этим сигналам что-то сложное для того железа, на котором он установлен. Но он и при использовании мышки будет так же тормозить.

И таки да, можно в графическом редакторе навернуть такие спецэффекты, что в реалтайме всё это будет тормозить. Однако как правило используется что-то гораздо более простое, поэтому современного железа хватает со стократным запасом. Если, конечно, не реализовывать софт с кучей крайне неоптимальных алгоритмов внтури.

Но, блин, сейчас есть даже хорошо заоптимизированные алгоритмы поведения акварели в воде. Которые не тормозят в реалтайме. А уж просто рисование следа за курсором точно тормозить не будет.

Очень даже похожи, дискретные символы с малым числом тонких линий, идущие почти всегда по горизонтали, достаточно различные для распознавания при нечетком воспроизведении, бьющиеся на меньшее число графических примитивов, эффективно расходующие пространство плоского листа


Лаги привносят драйвер графического планшета и графический редактор. В случае с мышкой несущественно, нажмется ли кнопка на 50 мс позже или сразу, в случае с ведением линии и визуальным контролем очень даже существенно, особенно если это не перетаскивание файла, а беглое письмо.

Неоптимальные алгоритмы: в той самой фразе 81 символ, я пишу их за 35 секунд, пусть для воспроизведения каждого символа достаточно 10 точек, это около 25 точек в секунду, которые надо считать, сохранить в подходящую структуру данных, отрисовать (чем-то осмысленнее карандаша в Paint) и быстро перерисовывать при скролле холста. Практика показывает, что после пары часов выкладок все пиксельные графические редакторы начинают немилосердно жрать память, а все векторные — процессор. Смартофоны тормозят почти сразу, на ровном месте. С рисованием, конечно, проблем меньше, там линии не стереотипные и рисуются гораздо медленнее или, в случае штриховки, ровнее.

У меня первый планшет появился в 2008, как раз из соображений делать выкладки не на бумаге. В теории все было гладко, на практике вышло иначе. Что обидно, технология вышла на плато, когда она не удовлетворяет только 2.5 гиков. Вот только именно им технологии и нужны больше всего.

> Очень даже похожи, дискретные символы с малым числом тонких линий, идущие почти всегда по горизонтали, достаточно различные для распознавания при нечетком воспроизведении, бьющиеся на меньшее число графических примитивов, эффективно расходующие пространство плоского листа

Там, например, в правом верхнем углу есть корейский. В корейском иероглиф — на самом деле не иероглиф, а написанные таким образом буквы. Рядом китайский. Где многие иероглифы — именно иероглифы. При этом и там, и там в «иероглифах» есть повторяющиеся элементы. Каким способом программа различит эти два случая, не обладая знанием о языке и о его символах?

Никаким.

> Лаги привносят драйвер графического планшета и графический редактор. В случае с мышкой несущественно, нажмется ли кнопка на 50 мс позже или сразу, в случае с ведением линии и визуальным контролем очень даже существенно, особенно если это не перетаскивание файла, а беглое письмо.

Мне трудно даже представить, какого года ты используешь компьютер, если у тебя там лаг в 50 мс. На 286-м при рисовании мышкой уже был незаметен лаг. То есть, он был меньше 10 мс.

Не понял, зачем графическому редактору для выкладок различать эти два случая?

Core i5. Выкинуть?

  • 1